ETRI 기술이전 사이트에 오신걸 환영합니다.
한국어 문장부호 복원 및 분절 기술
키워드
기술개요
­ - 본 이전기술은 기계학습 모델과 이를 사용하는 라이브러리 형식으로 개발된 한국어 문장 부호 복원 및 분절 기술에 관한 것임.
기술이전 목적 및 필요성
­ 본 기술이전의 목적은, 문장 부호가 없이 문장의 경계가 불분명한 1개 이상의 한국어 문장이 입력되었을 때 이들 문장 내 부호를 복원하거나, 문장 단위로 입력을 분절하는 기술을 제공하는 것임.
­ 발화 휴지(pause)를 탐지하여, 이를 발화의 끝점으로 사용하는 음성 인식 시스템은 자유 발화 등 문장 경계가 불분명한 전사 결과를 활용하였을 때 성능 하락이 발생할 수 있음. 이에 따라, 문장 단위로 입력을 자르거나, 나타나지 않은 부호를 복원해야 할 필요가 있음
­ 본 한국어 문장 분리 및 부호 복원 기술은 이러한 요구에 대응하기 위해, 경계가 불분명한 단일 또는 복수 문장의 한국어를 분절하고, 부호를 복원한 결과를 제공하기 위한 것임.
기술의 특징 및 장점
- 문장부호가 없고, 문장 경계가 뚜렷하지 않은 자유 발화 음성 인식 전사 결과를 문장 단위로 분리할 수 있으며, 문장 부호를 자동으로 부착
- 문장의 완성 여부 판별에 활용할 수 있음
- 회의록 생성, 자동 통역 결과물 생성 등 문장 단위로 입력되는 경우 더 좋은 성능을 기대할 수 있는 하위 자연언어처리 시스템의 성능을 향상시킬 수 있음
기술의 성숙도
활용방안 및 기대성과
­ 문장 단위의 한국어 자연어 처리 시스템 또는 이들 시스템의 학습을 위한 한국어 말뭉치 정제 및 구축 시 응용 가능
­ 한국어 음성인식 결과를 활용하는 하위 응용 기술의 전처리 계층으로 활용
기술이전 내용 및 범위
○ 기술이전의 내용
A. 한국어 문장 부호 복원 및 분절 API 라이브러리 소프트웨어

○ 기술이전의 범위

A. 문장 부호 복원 모델 및 분절 지식
- 한국어 문장 분절 및 부호 복원 학습 모델
- 입력 전처리를 위한 부-어휘 토큰화 모델

B. 문장 부호 복원 및 분절 프로그래밍 인터페이스(API) 라이브러리
- 모델 구동 라이브러리 바이너리 및 API
A. 문장 부호 복원 모델 및 분절 지식
- 한국어 문장 분절 및 부호 복원 학습 모델
- 입력 전처리를 위한 부-어휘 토큰화 모델

B. 문장 부호 복원 및 분절 프로그래밍 인터페이스(API) 라이브러리
- 모델 구동 라이브러리 바이너리 및 API
관련지적재산권
첨부파일
기술이전조건
실시권 허용범위
비독점적 통상실시권
계약기간
계약체결일로부터 년간
기술료조건(부가세별도)
※ 착수기본료(단위:천원)
구분 중소기업 중견기업 대기업
착수기본료 10,000 20,000 20,000
매출정률사용료(%) 1.25 3.75 5
※중소기업 또는 중견기업 기술료조건을 적용받고자 하는 경우에는 중소기업확인증 또는 중견기업확인증 제출 필요
기술전수교육
1 개월 / 898 천원정(부가세 별도)
기타특기사항
세부문의
기술관련
기술개발 발표당시 언어지능연구실 김창현 (042-860-6485, chkim@etri.re.kr)
현재 언어지능연구실 김창현 (042-860-6485, chkim@etri.re.kr)
계약관련
기술이전실 주명혁 (042-860-5838, mhju@etri.re.kr)