ETRI 기술이전 사이트에 오신걸 환영합니다.
엑소브레인 한국어 구어체 형태소 분석 및 개체명 인식 기술 v1.0
키워드
기술개요
본 기술은 한국어 구어체 텍스트에 대해서 형태소분석, 개체명인식을 수행하고, 언어분석된 결과를 전달해 주는 기술에 대한 것이다.
기술이전 목적 및 필요성
● 최근에는 컴퓨터 연산능력이 향상되고 빅데이터를 쉽게 얻을 수 있는 환경이 조성되면서 머신러닝과 딥러닝 기술에 기반한 인공지능 기술이 부상되고 있고, IBM의 ‘왓슨’이라는 질의응답 시스템이 제퍼디 퀴즈 쇼에서 인간 챔피언을 상대로 우승하는 사건도 있었다.
● 텍스트로 이루어진 빅데이터를 처리하기 위해서는 다양한 언어분석 기반기술이 필요하다. 대표적인 언어분석 기술로 형태소분석 기술과 개체명인식 기술이 있다.
● 형태소분석 기술은 의미를 가진 최소 단위인 명사, 동사, 형용사, 부사, 조사, 어미 등의 형태소를 분석하는 기술이다.
● 개체명은 인명, 지명, 기관명 등과 같은 고유 명사를 말하며, 필요에 따라서는 지위, 관계 등의 일반 명사 등도 대상이 된다. 개체명 인식 기술은 텍스트에 출현한 개체명을 자동으로 인식하는 기술이다.
● 예전에는 문어체로 이루어진 텍스트 데이터를 처리하는 요구가 많이 있었지만, 최근에는 음성인식과 같은 다양한 인공지능 기술의 발전으로 구어체 텍스트 데이터에 대한 요구사항이 많아지고 있다. 구어체 텍스트 데이터 분석을 위해서는 축약어와 같은 구어체 텍스트 데이터에서 많이 출현하는 특성을 고려한 언어분석 기술이 필요하다.
● 기존의 문어체 언어분석 기술을 구어체 텍스트 분석에 적합한 형태소 분석 기술과 개체명 인식 기술을 개발하였고, 구어체 텍스트 데이터를 분석하여 활용하고 싶은 곳에서 효과적으로 사용할 수 있도록 구어체 언어분석 기술을 기술이전하고자 한다.
기술의 특징 및 장점
* 구어체 형태소분석 기술은 기계학습 방법에 기반해서 형태소를 자동으로 분석해 주며, 사용되는 태그셋은 45개 세종 태그셋을 기반으로 한다. 기계학습 방법론으로는 sequence labeling 기반 음절 단위 품사 태깅 방법을 사용한다. 분류 알고리즘으로는 Structural SVMs을 사용하고, 전처리/후처리 단계에 대용량 형태소 사전을 결합하였으며, Smith-Waterman 알로리즘을 적용하여 구어체 텍스트에 적합한 원형복원을 진행함으로써 성능을 개선하였다.
* 구어체 개체명인식 기술은 sequence labeling 방법론에 기반해서 개체명 경계 및 대분류를 인식하고, 다음 단계로 146개 세부분류를 수행하는 2단계 인식 방법론을 적용하였다. 분류 알고리즘으로는 Structural SVMs을 사용하고, 전처리/후처리 단계에 대용량 개체명 사전과 패턴 사전을 결합해서 성능을 개선하였으며, 구어체가 가지는 특징인 축약어에 대한 처리를 효과적으로 할 수 있게 학습 및 전/후처리를 진행하였다.
기술의 성숙도
활용방안 및 기대성과
● 한국어 정보추출에 활용
● 한국어 문장의 의미적 관계 분석에 활용
● 정보검색, 질의응답을 위한 심층언어이해에 활용
● 텍스트 빅데이터 분석 및 마이닝 기술에 활용
기술이전 내용 및 범위
* 엑소브레인 한국어 구어체 형태소 분석 및 개체명 인식 기술
-한국어 구어체 형태소분석 기술
-한국어 구어체 개체명인식 기술
*한국어 구어체 형태소분석 엔진 및 리소스
*한국어 구어체 개체명인식 엔진 및 리소스
관련지적재산권
특허 2건
1) 간접광고를 포함한 뉴스 기사 생성 시스템 및 방법
(출원번호 : 2020-0002588)
2) 근거인식 기반 질의응답 시스템 및 방법
(출원번호 : 2020-0179810)
기계학습 기반 음절 단위 형태소 태거 모듈 등 프로그램 2 건
구어체 형태소분석 개선안 및 향후 연구주제 등 기술문서 4건
첨부파일
기술이전조건
실시권 허용범위
비독점적 통상실시권
계약기간
계약체결일로부터 5 년간
기술료조건(부가세별도)
※ 착수기본료(단위:천원)
구분 중소기업 중견기업 대기업
착수기본료 40,000 80,000 80,000
매출정률사용료(%) 1.25 3.75 5
※중소기업 또는 중견기업 기술료조건을 적용받고자 하는 경우에는 중소기업확인증 또는 중견기업확인증 제출 필요
기술전수교육
1 개월 / 372.8 천원정(부가세 별도)
기타특기사항
o 세부기술단위로 기술이전 가능
* 1세부기술 : 한국어 형태소 분석 기술 (바이너리 코드 기준, 소스코드는 바이너리코드의 200% 금액으로 이전)
* 2세부기술 : 한국어 개체명 인식 기술 (바이너리 코드 기준, 소스코드는 바이너리코드의 200% 금액으로 이전)
o 기존 기술이전 기업은 착수기본료를 50% 감액하되, 해당 중소기업의 매출정률사용료를 1.75%로 함
* 감액 대상 기존 기술이전 내역
① 엑소브레인 한국어 언어분석 툴킷 v3.0
② 엑소브레인 한국어 언어분석 툴킷 V4.0
세부문의
기술관련
기술개발 발표당시 언어지능연구실 배경만 (042-860-5893, kyoungman.bae@etri.re.kr)
현재 언어지능연구실 배경만 (042-860-5893, kyoungman.bae@etri.re.kr)
계약관련
기술이전실 주명혁 (042-860-5838, mhju@etri.re.kr)