ETRI 기술이전 사이트에 오신걸 환영합니다.
실시간 스트리밍 종단형 음성인식기술(한국어, 다국어 및 발성 평가용) 및 화자 분리 기술(Ver.1.3)
키워드
기술개요
○ 인공지능연구소 지능정보연구본부 복합지능연구실에서는 실시간 스트리밍 종단형(End-to-End) 음성인식기술(한국어, 다국어 및 발성 평가용) 및 화자 분리 기술을 개발하였음.
○ 실시간 스트리밍 종단형 음성인식기술은 원어민 및 비원어민의 대규모 한국어 및 다국어 발성을 수집하고 가공하여, ESPnet과 같은 오픈소스를 활용한 종단형 음성인식기의 훈련 리소스로 사용하고 있으며, 자체 기술 개발을 통하여 우수한 성능의 한국어 및 다국어 음성인식 모델을 개발하였음.
○ 실시간 스트리밍 종단형 음성인식기술은 심층신경망(Deep Neural Network) 기반 심층학습(Deep Learning) 기술의 고도화 및 대용량 언어음성 데이터에 기반하여 실현되는 고난이도 융복합 기술임.
○ 실시간 스트리밍 종단형 음성인식기술은 음향모델과 언어모델, 발음사전 등을 별도로 학습하는 기존의 음성인식 모델을 종단형(End-to-End) 방식으로 통합 학습하도록 개선함으로써 음성인식 성능을 대폭 향상시킨데 이어, 실시간 스트리밍 음성 인식을 가능하게 함으로써 그 활용 범위를 대폭 향상시켰음.
○ 실시간 스트리밍 종단형 음성인식 기술은 비원어민의 한국어 또는 영어 발성평가에도 응용할 수 있어 외국어 학습에 적용이 용이함.
○ 회의 환경등과 같이 다수 화자가 같은 장소에서 발성하는 경우 각 화자별로 발성한 구간을 추정하는 화자분리 기술도 개발이 이루어져 음성인식기와 함께 사용할 수 있음.
기술이전 목적 및 필요성
○ 기존의 한국어 및 다국어 음성인식 기술은 여러 서비스 분야(AI 컨택센터, 자동통역 서비스, 회의록 녹취, AI스피커, 의료, 언어 교육 등)에서 많은 실증 검증을 수행한 바 있으며, 실시간 스트리밍 종단형 음성인식 기술의 성능 향상을 감안할 때, AI 컨택센터(유무선 전화 기반의 콜센터, 온라인 기반의 고객센터 등), 다국어 자동통역 서비스, 연설, 회의, 발표, 방송 등 각종 기록물의 실시간 녹취, 인공지능 스피커, 음성챗봇서비스, 스마트홈, 스마트 가전, 군사용 음성인식, 의료 교육 분야 등 다양한 음성인식 관련 분야에서 활용도가 더욱 높아질 것을 기대하여 기술이전을 실시하고자 함.
○ Google을 필두로 한 글로벌 경쟁기술이 국내 음성 인식 시장을 선점하기 이전에 기술이전을 실시하여 국내 기술경쟁력을 강화하고 향후에는 국외시장까지 진출하는 것을 목적으로 함.
○ 음성인식 관련 서비스의 급속한 활성화가 예상되는 시점에서 인공지능 전문 인력, 인프라, 자원을 보유하지 못한 개별 기업에서 실시간 스트리밍 종단형 음성인식 기술을 활용해 다양한 사업화를 진행할수 있도록 기술이전을 실시하고자 함.
기술의 특징 및 장점
○ 원어민/비원어민을 포함한 대용량의 한국어 및 다국어 음성 DB와 자체 기술을 활용하여 미리 훈련된 실시간 스트리밍 종단형 음성인식 모델을 이전 받음으로써 별도 DB 및 훈련 과정 없이 각 언어별 높은 성능의 음성인식 시스템 구현이 가능함.
○ 기존의 언어모델, 음향모델, 발음사전 등을 별도로 학습하는 방식에서 벗어나 종단형으로 통합 학습함으로써 높은 정밀도의 실시간 스트리밍 음성-문자 변환(speech-to-text conversion)이 가능함(오픈소스 활용 및 추가 도구 제공).
○ 대용량의 음성 DB를 활용하여 미리 훈련된 실시간 스트리밍 종단형 음성인식 모델을 이전 받음으로써 기술 이전과 동시에 높은 성능의 음성인식 시스템 구현이 가능함.
○ 한국어 및 영어, 중국어, 일본어, 스페인어, 프랑스어, 독일어, 러시아어, 아랍어, 베트남어, 태국어, 인도네시아어, 말레이어 등의 다국어를 지원함으로써 글로벌 경쟁력 확보를 통한 세계 시장 진출이 가능한 동시에 자동통역 서비스 등 다국어 관련 부가 서비스 개발이 용이함.
○ 음성인식 적용 도메인의 DB를 기반으로 적응학습 등을 통해 음성인식 성능을 제고할 수 있음(오픈소스 활용 및 추가 도구 제공).
○ 비원어민의 한국어 또는 영어 발성에 대한 음성인식을 통한 발성 평가가 가능하여 고품질의 언어 교육 서비스 개발이 가능함.
○ 화자 분리 기술을 이용하여 다수의 화자가 발성하더라도 회의록 녹취 등을 효율적으로 진행할 수 있음.
○ Phrase Hint 기능, Fixed-Grammar(종단형)를 지원하여 도메인 튜닝의 용이성을 대폭 향상시킴.
기술의 성숙도
활용방안 및 기대성과
○ 실시간 방송 자막 송출, 실시간 속기록 작성 등 특히 실시간성이 강조되는 음성인식 응용 분야에서 매우 효과적으로 활용될 수 있으며, 컨택센터(유무선 전화 기반의 콜센터, 온라인 기반의 고객센터 등), 다국어 자동통역 서비스, 연설, 회의, 발표, 방송 등 각종 기록물의 실시간 녹취, 인공지능 스피커, 음성챗봇서비스, 스마트홈, 스마트 가전, 군사용 음성인식 등 다양한 음성인식 관련 분야에서 국내외 소프트웨어 산업 신시장을 창출하고 글로벌 인공지능 세계 시장 진출이 가능하도록 함.
○ ETRI는 기술이전업체와 공동으로 기술 상용화 시 문제점을 공유하고 해결 노력을 기울임으로써 기술의 완성도를 제고.
기술이전 내용 및 범위
기술명: 실시간 스트리밍 종단형 음성인식 기술(한국어, 다국어 및 발성평가용) 및 화자분리기술(Ver. 1.3)

2.1. 세부기술1: 종단형 음성인식 기술(음성인식 또는 발성평가 모델 중 택1-단일 언어, 단일 샘플링 주파수 기준)(Ver. 1.3.)

가. 기술이전의 내용
○ 종단형 음성인식 엔진(PyTorch 기반 리눅스, 윈도우 및 MacOS 지원)
- 신경망 모델 기반 종단형 음성인식 기술(대량의 데이터베이스로부터 최적화된 신경망 모델을 이용하여 입력 음성을 텍스트로 변환하는 기술)
- ESPnet과 같은 오픈소스를 활용하여 인식시스템을 구축할 수 있으며 서버-클라이언트 구성을 위한 예제코드 포함
- 음성인식 기반 비원어민의 발성평가모델을 기반으로 발성평가 기술 지원
- 트랜스포머를 기준으로 하되, 기술 추이에 따라 신경망 모델 및 세부 네트워크 등의 구성은 변동이 가능함
○ 엔진 튜닝 도구(리눅스, Ubuntu16.04이상, 바이너리, 또는 스크립트 제공)
- 사용자 어휘 등록 기술(Contextual ASR(Phrase-Hint))
- w-FST기반 Fixed-Grammar 반영 기술
- 음성DB 적응 기술(새로운 발성환경에서 수집한 음성데이터를 기존 모델에 적응하는 딥러닝 학습 기술, 오픈소스 환경 적응 스크립트 포함)

나. 기술이전의 범위
○ 종단형 음성인식 소프트웨어(오픈소스 설치 환경에서 동작, 사용 예제 코드, Contextual ASR, w-FST 기반 Fixed-Grammar 지원 등의 도구 및 음성인식 엔진 적응 스크립트 포함)
○ 종단형 음성인식 모델 또는 음성인식 기반 비원어민의 발성평가 모델(단일 언어, 단일 샘플링 주파수(16kHz or 8kHz))
: 음성인식 모델 지원 언어 - 한국어, 영어, 중국어, 일본어, 스페인어, 프랑스어, 독일어, 러시아어, 아랍어, 베트남어, 태국어, 인도네시아어, 말레이어
: 음성인식 기반 비원어민의 발성평가 모델 지원 언어(16kHz) - 한국어, 영어(발성평가를 선택하는 경우 음성인식용으로는 사용 불가함.)

2.1. 세부기술2: 실시간 스트리밍 종단형 음성인식 기술(음성인식 또는 발성평가 모델 중 택1-단일 언어, 단일 샘플링 주파수 기준)(Ver. 1.3.)

가. 기술이전의 내용
○ 종단형 음성인식 엔진 및 실시간 스트리밍 종단형 음성인식 엔진(PyTorch 기반 리눅스, 윈도우 및 MacOS 지원)
- 신경망 모델 기반 종단형 음성인식 기술 (대량의 데이터베이스로부터 최적화된 신경망 모델을 이용하여 입력 음성을 텍스트 변환하는 기술)
- 스트리밍 트랜스포머를 기반으로 한 실시간 음성인식 모델 지원
- 음성인식 기반 비원어민의 발성평가모델을 기반으로 발성평가 기술 지원
- 트랜스포머를 기준으로 하되, 기술 추이에 따라 신경망 모델 및 세부 네트워크 등의 구성은 변동이 가능함
○ 엔진 튜닝 도구(리눅스, Ubuntu16.04이상, 바이너리, 또는 스크립트 제공)
- 사용자 어휘 등록 기술(Contextual ASR(Phrase-Hint))
- w-FST기반 Fixed-Grammar 반영 기술(종단형 한정)
- 음성DB 적응 기술(새로운 발성환경에서 수집한 음성데이터를 기존 모델에 적응하는 딥러닝 학습 기술, 오픈소스 환경 적응 스크립트 포함)

나. 기술이전의 범위
○ 종단형 음성인식 소프트웨어 및 실시간 스트리밍 종단형 음성인식 소프트웨어(오픈소스 설치 환경에서 동작, 사용 예제 코드, Contextual ASR, w-FST 기반 Fixed-Grammar 지원(종단형 한정) 등의 도구 및 음성인식 엔진 적응 스크립트 포함)
○ 종단형 음성인식 모델 및 실시간 스트리밍 음성인식 모델 또는 종단형 음성인식 기반 비원어민의 발성평가 모델 및 실시간 스트리밍 종단형 음성인식 기반 비원어민의 발성평가모델(단일 언어, 단일 샘플링 주파수(16kHz or 8kHz))
: 음성인식 모델 지원 언어 - 한국어, 영어, 중국어, 일본어, 스페인어, 프랑스어, 독일어, 러시아어, 아랍어, 베트남어, 태국어, 인도네시아어, 말레이어
: 음성인식 기반 비원어민의 발성평가 모델 지원 언어(16kHz) - 한국어, 영어(발성평가를 선택하는 경우 음성인식용으로는 사용 불가함.)


3. 세부기술3: 화자분리기술(Ver. 1.3.)
○ 화자분리 소프트웨어
- 종단형 음성인식엔진과 결합해 사용하는 경우 별도 x-vector 기반의 향상된 화자 분리 기술 적용 소프트웨어 제공 가능
○ 관련 기술문서 및 지적재산권(하단 기재)
관련지적재산권
특허 1건
1) 도메인특화 음성인식 모델 구성 방법 및 장치와 이를 이용한 종단형 음성인식기
(출원번호 : 2022-0001723)
종단형 음성인식 모델 서빙 어플리케이션 프로그래밍 인터페이스 패키지 등 프로그램 3 건
종단형 음성인식기 API 안내서 1.3 등 기술문서 8건
첨부파일
기술이전조건
실시권 허용범위
비독점적 통상실시권
계약기간
계약체결일로부터 5 년간
기술료조건(부가세별도)
※ 착수기본료(단위:천원)
구분 중소기업 중견기업 대기업
착수기본료 185,000 370,000 370,000
매출정률사용료(%) 1.25 3.75 5
※중소기업 또는 중견기업 기술료조건을 적용받고자 하는 경우에는 중소기업확인증 또는 중견기업확인증 제출 필요
기술전수교육
1 개월 / 2,157 천원정(부가세 별도)
기타특기사항
(총괄) 전체 기술을 기술이전할 경우 위 금액이며, 세부기술별로 기술이전하는 경우 세부기술별 기술이전비 적용

1. 1세부기술) 종단형 음성인식 기술(음성인식 또는 발성평가 모델 중 택1-단일 언어, 단일 샘플링 주파수 기준)(Ver. 1.3.)
o 중소기업 120,000천원(1.25%), 중견기업 240,000천원(3.75%), 대기업 240,000천원(5%)
o 상기 착수기본료는 단일 모델(단일 언어)을 기준으로 단일 샘플링 주파수(16kHz 또는 8kHz)에 대해 최초 계약할 경우의 조건임
. 최초 계약 이후 추가로 종단형 음성인식 모델 내의 동일 또는 다른 언어 / 비원어민의 발성평가모델 중 동일 또는 다른 언어 / 동일 또는 다른 샘플링 주파수(16kHz 또는 8kHz)를 추가하여 기술이전받는 경우 착수기본료는 50,000천원(중소기업), 100,000천원(중견기업/대기업)으로 계약함.
※ 위 감면을 받은 중소기업의 매출정률사용료는 1.75%로 함
o 본 기술에 대해 선행기술을 계약한 경우 위 ‘언어 및 샘플링주파수별 계약’ 조건을 적용함
. 선행기술의 정의
1) 딥러닝 기반의 서버형 음성인식 기술(Ver. 2019)
2) 외국어 말하기 학습을 위한 서버형 음성인식 기반의 발성 평가 기술
3) 한국어 음성인식 기술(Ver. 1.2.)
4) 영어, 중국어, 일본어 서버형 음성인식기술
5) 모바일환경 고객지원용 서버기반 음성인식 기술
6) 종단형 음성인식기술(한국어 및 12개 언어 지원 외국어 교육용) 및 화자 분리 기술(Ver. 1.0)의 세부기술1
※ 위 감면을 받은 중소기업의 매출정률사용료는 1.75%로 함

2. 2세부기술) 실시간 스트리밍 종단형 음성인식 기술(음성인식 또는 발성평가 모델 중 택1-단일 언어, 단일 샘플링 주파수 기준)(Ver. 1.3.)
중소기업 170,000천원(1.25%), 중견기업 340,000천원(3.75%), 대기업 340,000천원(5%)
o 상기 착수기본료는 단일 모델(단일 언어)을 기준으로 단일 샘플링 주파수(16kHz 또는 8kHz)에 대해 최초 계약할 경우의 조건임
. 최초 계약 이후 추가로 종단형 음성인식 모델 및 실시간 스트리밍 음성인식 모델 내의 동일 또는 다른 언어 / 종단형 음성인식 기반 비원어민의 발성평가 모델 및 실시간 스트리밍 종단형 음성인식 기반 비원어민의 발성평가모델 중 동일 또는 다른 언어 / 동일 또는 다른 샘플링 주파수(16kHz 또는 8kHz)를 추가하여 기술이전받는 경우 착수기본료는 50,000천원(중소기업), 100,000천원(중견기업/대기업)으로 계약함.
※ 위 감면을 받은 중소기업의 매출정률사용료는 1.75%로 함
o 선행기술을 이전받은 기업이 종단형 음성인식 모델 및 실시간 스트리밍 음성인식 모델 내의 동일 또는 다른 언어 / 종단형 음성인식 기반 비원어민의 발성평가 모델 및 실시간 스트리밍 종단형 음성인식 기반 비원어민의 발성평가모델 중 동일 또는 다른 언어 / 동일 또는 다른 샘플링 주파수(16kHz 또는 8kHz)를 추가하여 기술이전 받는 경우 ‘선행기술1’의 착수기본료는 50,000천원(중소기업), 100,000천원(중견기업/대기업)으로 계약하며 ‘선행기술2’의 착수기본료는 100,000천원(중소기업), 200,000천원(중견기업/대기업)으로 계약함.
※ 위 감면을 받은 중소기업의 매출정률사용료는 1.75%로 함.
. 선행기술의 정의
선행기술1)
1) 종단형 음성인식기술(한국어 및 12개 언어 지원) 및 화자분리기술(Ver.1.0) 전체기술 또는 해당 기술의 세부기술 1
2) 실시간 스트리밍 기반 종단형 음성인식 기술
3) 실시간 스트리밍 종단형 음성인식기술(한국어, 다국어 및 발성평가용) 및 화자분리기술(Ver.1.3.)의 세부기술1
선행기술2)
1) 딥러닝 기반의 서버형 음성인식 기술(Ver. 2019)
2) 외국어 말하기 학습을 위한 서버형 음성인식 기반의 발성 평가 기술
3) 한국어 음성인식 기술(Ver. 1.2.)
4) 영어, 중국어, 일본어 서버형 음성인식기술
5) 모바일환경 고객지원용 서버기반 음성인식 기술

3. 3세부기술) 화자 분리 기술
중소기업 50,000천원(1.25%), 중견기업 100,000천원(3.75%), 대기업 100,000천원(5%)
o 선행기술을 이전받은 기업이 본 세부기술을 기술이전하는 경우 착수기본료는 15,000천원(중소기업), 30,000천원(중견기업/대기업)으로 계약함.
※ 위 감면을 받은 중소기업의 매출정률사용료는 1.75%로 함.
. 선행기술의 정의
1) 종단형 음성인식 기술(한국어 및 12개 언어 지원) 및 화자분리기술(Ver.1.0)의 세부기술1
2) 실시간 스트리밍 기반 종단형 음성인식기술
3) 실시간 스트리밍 종단형 음성인식기술(한국어, 다국어 및 발성평가용) 및 화자분리기술(Ver.1.3.)의 세부기술1 또는 세부기술2
4) 외국어 말하기 학습을 위한 서버형 음성인식 기반의 발성 평가 기술
5) 딥러닝 기반의 서버형 음성인식 기술(Ver. 2019)
6) 한국어 음성인식 기술(Ver. 1.2.)
7) 영어, 중국어, 일본어 서버형 음성인식기술
세부문의
기술관련
기술개발 발표당시 복합지능연구실 윤승 (042-860-5835, syun@etri.re.kr)
현재 복합지능연구실 윤승 (042-860-5835, syun@etri.re.kr)
계약관련
기술이전실 권장엄 (042-860-1634, kju@etri.re.kr)