레이아웃
레이아웃
레이아웃
레이아웃
레이아웃
검색
        LOGIN   JOIN
레이아웃
퀵메뉴
오시는 길
기술이전절차
담당자연락처
기술이전상담
고객의 소리
시장보고서
서식자료
끝테두리
 
레이아웃
에트리로고
레이아웃
레이아웃
기술이전검색/신청
레이아웃
시작테두리
레이아웃
| 기술이전검색 HOMEHOME > 기술이전검색/신청 > 기술이전검색
끝테두리
경계선
레이아웃
레이아웃
 
기술이전검색
기술이전온라인신청
레이아웃
 
레이아웃
 기술명 딥러닝 기반의 서버형 음성인식 기술(Ver.2019)
 기술개요 ‘딥러닝 기반의 서버형 음성인식 기술(Ver.2019)’은 다양한 이동 환경(스마트폰, 자동차 등 포함), 고객센터(유무선 전화 기반의 콜센터, 온라인 및 오프라인 기반의 제반 고객센터  포함), 각종 기록물(연설, 회의, 발표, 방송 등 포함) 등을 대상으로 하는 고성능 자연어 음성인식 기술이다. 본 자연어 음성인식 기술을 적용함으로써 원하는 정보를 검색하거나 고객을 응대함으로써 사용자의 서비스 만족도를 높이는 것이 가능하고, 음성이 포함된 다양한 회의물/오디오물/영상물에 대해 음성-문자 변환(speech-to-text conversion) 서비스 및 시스템 개발이 가능하다.
 기술이전목적
및 필요성
ETRI 인공지능연구소 지능정보연구본부에서는 과학기술정보통신부 출연 “다중화자 대화 음성 인식 기술개발” 사업, “자율성장형 AI 핵심원천기술 연구” 사업 및 “언어학습을 위한 자유발화형 음성대화처리 원천기술 개발” 사업을 통해 PC 환경뿐만 아니라 모바일 환경에서 요구되는 비정형 자연어 음성인식 및 대화처리 기술 기반의 음성인터페이스 원천핵심기술을 개발하고 있다. 현재 국내의 음성기술 전문 솔루션 업체에서는 다양한 정보통신시스템 및 서비스에 음성인터페이스 기술을 적용, 사업화를 추진하고 있으며, 이번에 기술이전을 추진하는 ‘딥러닝 기반의 서버형 음성인식 기술(Ver.2019)’은 현재 동 기술을 보유하고 있지 않은 국내 기업에 기술 이전하여 관련 산업을 활성화하며, 인공지능 전문인력과 개발자원을 보유하지 못한 개별 기업에서의 중복 기술개발을 피하기 위한 것이다.
 기술의 특징 및 장점 - 단일쓰레드 또는 멀티쓰레드 기반의 동시접속 환경에서 실시간(online) 또는 일괄처리(batch) 방식의 음성인식을 위한 리눅스 기반의 서버/클라이언트형 음성인식 기술
- 최신 딥러닝 기술에 기반하는 서버 기반의 한국어 또는 영어 연속어 음성인식 기술을 적용하여 높은 정밀도의 음성-문자 변환(speech-to-text conversion) 인터페이스를 제공
- 음성인식 적용 도메인의 음성 및 텍스트 DB를 기반으로 적응학습을 통해 음성인식 성능을 제고하는 도구를 제공
- 기존 기술에 비하여 딥러닝 계산 과정에서 20%이상 빨라진 고속 디코딩 기술을 제공
 기술성숙도(TRL) 단 계 : 9     기술성숙도(TRL)
 활용방안 및
기대성과
본 기술은 음성인식 기술을 사용하여 음성 신호를 문자 정보로 변환함으로써 다양한 사업모델의 고객응대, 정보검색, 명령/제어, 녹취물 및 기록물 생성, 엔터테인먼트 서비스 등을 포괄하는 사용자 편의형 정보 서비스를 구성할 수 있게 한다.
 기술이전 내용 및 범위 o 기술이전의 내용

 가. 1세부기술 : 딥러닝 기반의 서버형 음성인식 기술(Ver.2019)
  1. 탐색 엔진 (search engine 또는 decoder)
   - 음향 및 언어 모델 등의 지식 베이스에 기반하여 고속/고성능 음성인식 기능을 수행함
   - 문장형태의 음성인식을 위해 연속어 음성인식 엔진을 사용함
   - 음성인식 결과에 대해 단어별 시간경계 정보를 출력함
    ※ WFST(Weighted Finite State Transducer) 기술 특성상 시간경계 정보가 실제 경계와 완전히 일치하지 않을 수 있음
  2. 음향 모델
   - 사무실 및 모바일 환경의 일반적 음성 및 잡음이 반영된 기본 베이스라인 모델을 제공함
   - 베이스라인 모델에 대해 적용 영역의 소규모 데이터를 사용하여 학습을 수행하는 적응학습 도구를 제공함
   - 심층신경망(Deep Neural Network) 모델을 지원함
  3. 언어 모델
   - 발음 변환 도구, 통계적 언어 모델 생성을 지원함으로써 새로운 음성인식용 태스크 또는 콘텐츠 입력 자료에 대해 음성인식용 발성사전과 문법 생성 환경을 제공함
   - 기본으로 제공되는 베이스라인 통계 언어 모델에 대해 적용 영역의 데이터를 사용하여 학습을 수행하는 적응학습 도구를 제공함
  4. 인식 후처리 도구
   - 음성인식 엔진에서 출력되는 형태소열에 대해 어절을 복원하고 문장단위로 출력하도록 지원함 (※ 단, 통계 및 예제 기반의 어절 복원 논리 및 알고리즘을 적용하므로, 신조어나 알려지지 않은 형태소열에 대해서는 완전한 후처리가 어려울 수 있음)
  5. 이미지 생성 도구
   - 음성인식 엔진에서 인식에 필요한 외부파일에 대해 이미지 형태로 생성하기 위한 이미지 생성 도구를 제공함
  6. 지원 언어: 한국어, 영어 (※ 언어별로 별건 계약함. 언어별로 언어 처리 도구 및 자원, 음향 및 언어 모델이 상이함)
  7. 지원 샘플링주파수: 8kHz, 16kHz (※ 샘플링주파수별로 별건 계약함. 샘플링주파수별로 훈련용 빅데이터 및 음향 모델이 상이함)

 나. 2세부기술 : MS 윈도우즈용 딥러닝 기반의 서버형 음성인식 기술(Ver.2019)
   - “딥러닝 기반의 서버형 음성인식 기술(Ver.2019)”의 탐색 엔진을 MS 윈도우즈OS 상에서 구동될 수 있도록 컴파일 가능한 정적 라이브러리를 제공
   - 기타 도구는 리눅스 상에서 수행하며 “딥러닝 기반의 서버형 음성인식 기술(Ver.2019)” 기술에서 제공하는 것을 사용함

o 기술이전의 범위

 가. 1세부기술 : 딥러닝 기반의 서버형 음성인식 기술(Ver.2019)
  1. 리눅스 환경에서 실행 가능한 Library 형태의 오브젝트 파일과 인식용 이미지파일 생성 도구 (리눅스 Centos 7.x 이상)
   - 서버 기반의 음성인식 엔진 SDK
   - 런타임 이미지 생성 도구
   - 개발자용 지침서
  2.  음향 및 언어모델 및 그 적응형 학습도구 (리눅스 Centos 7.x 이상)
   - 기본 음향모델 및 적응 학습 도구
   - 기본 언어모델 및 적응 학습 도구
   - 개발자용 지침서

 나. 2세부기술 :  MS 윈도우즈용 딥러닝 기반의 서버형 음성인식 기술(Ver.2019)
   -  MS 윈도우즈 환경에서 실행 가능한 Library 형태의 오브젝트 파일 (MS Windows 10 이상) [PG20170431]
   * 제약조건 : “딥러닝 기반의 서버형 음성인식 기술(Ver.2019)“ 기술을 사전에 또는 동시에 이전 받은 업체만 계약 가능함
관련지적재산권
레이아웃
특허 4
1) 심층 신경망 기반의 음성인식 시스템
   (출원번호 : 2016-0103586) 
2) 심층신경망 기반 음성 인식 시스템을 위한 발화 검증 방법
   (출원번호 : 2017-0051144) 
3) 자연어 대화체 음성 인식 방법 및 장치
   (출원번호 : 2017-0062292) 
4) 음성인식용 음향모델을 위한 심층 신경망 기반 상태 결정 장치 및 방법
   (출원번호 : 2017-0160967) 
음성인식 SDK 개발자용 지침서기술문서 4
 첨부파일 (심의회 수정)딥러닝 기반의 서버형 음성인식 기술(Ver2019)_발표자료.pptx





실시권 허용범위 비독점적 통상실시권
계약기간 계약체결일로부터 5 년간
기술료조건
(부가세별도)
※ 경상기술료
레이아웃
구분 중소기업 중견기업 대기업
착수기본료(천원) 120,000 240,000 240,000
매출정률사용료(%) 1.25 3.75 5
※중소기업 또는 중견기업 기술료조건을 적용받고자 하는 경우에는 중소기업확인증 또는 중견기업확인증 제출 필요
기술전수교육 1  개월  /  1,362.6 천원정(부가세별도)
기타특기사항 o 기술료 조건
    - 위 기술료 조건은 1세부기술(딥러닝 기반의 서버형 음성인식 기술 ver2019)에 대한 경상기술료 기준임
    - MS 윈도우즈용 딥러닝 기반의 서버형 음성인식 기술(Ver2019)는 정액기술료 방식에 의함
     중소기업(25,000천원), 중견기업(50,000천원), 대기업(50,000천원)

o 기술의 내용 및 범위 관련 특이사항
   - 지원 샘플링주파수: 8kHz 및 16kHz를 지원함. 샘플링주파수별로 별건으로 기술이전 계약함
   - 지원 언어: 한국어 및 영어를 지원함. 언어별로 별건으로 기술이전 계약함
   - 기술이전 계약 후 1년 이내의 기간 동안 엔진 및 기타 도구에 대한 사후 지원이 제공되며, 엔진 및 도구의 중요한 개선이 있는 경우 무상 업그레이드 가능

o 기술이전 및 기술료 관련 특이사항
   - 2세부기술은 “딥러닝 기반의 서버형 음성인식 기술(Ver.2019)”의 부속 기술로, 모 기술을 계약한 업체에 한하여 계약이 가능함
   - 기술이전 계약 예시(중소기업 기준)

    Case1)  최초 계약으로 ‘한국어, 8kHz’ 기술이전시 1.2억의 착수기본료 납부한 경우
          . 이후 또는 병행하여 ‘한국어, 16kHz’, ‘영어, 8kHz’, ‘영어, 16kHz’ 등 3가지 기술을 추가 계약할 경우에 대해 각각 50,000천원으로 계약함.
          . 해당 업체에서 MS Windows 용 서버형 음성인식 기술이 필요한 경우 추가로 25,000천원의 계약을 통하여 이전 가능함.
    Case2) 선행 기술인 “모바일환경 고객지원용 서버기반 음성인식 기술” 또는 “딥러닝 기반의 서버형 음성인식 기술” 중 ‘한국어, 8kHz’ 기술이전 받았던 업체의 경우
         . 해당 업체에서 “딥러닝 기반의 서버형 음성인식 기술(Ver.2019)” 중 ‘한국어, 8kHz’ 으 기술의 기술이전을 원하는 경우 20,000천원으로 계약함
         . 또는 해당업체에서 “딥러닝 기반의 서버형 음성인식 기술(Ver.2019)” 중 ‘한국어, 16kHz’, ‘영어, 8kHz’, ‘영어, 16kHz’ 등의 3가지 기술의 이전받고자 하는 경우, 우선적으로 ‘한국어, 8kHz’ 기술을 20,000천원으로 계약하여 “딥러닝 기반의 서버형 음성인식 기술(Ver.2019)”을 보유한 후, 추가기술에 대해 각각 50,000천원으로 계약함.
       . 또는 MS Windows 용 서버형 음성인식 기술을 추가 기술이전하는 경우, 우선적으로 ‘한국어, 8kHz’ 기술을 20,000천원으로 계약하고, 추가로 25,000천원으로 계약함.



o 기술전수지도비는 신청하는 경우 적용하되 부가세 별도 금액임



기술관련
레이아웃
기술개발
발표당시
복합지능연구실 박기영 ( 042-860-1228 , pkyoung@etri.re.kr )
현재 복합지능연구실 박기영 ( 042-860-1228 , pkyoung@etri.re.kr )
계약관련
레이아웃
기술개발
발표당시
기술이전실 주명혁 ( 042-860-5838 , mhju@etri.re.kr )
현재 기술이전실 전종률 ( 042-860-5863 , jjr7694@etri.re.kr )
 
신청하기 인쇄 목록
 
 
레이아웃
끝테두리
ETRI  | Venture119  | 기술도우미  | SITEMAP  | 개인정보처리방침
305-350 대전광역시 유성구 가정동 218번지 한국전자통신 연구원 본사이트에 게시된 이메일 주소가 자동 수집되는 것을 거부하며, 이를 위반 시 정보통신망법에 의해 처벌됨을 유의하시기 바랍니다.