ETRI 기술이전 사이트에 오신걸 환영합니다.
엑소브레인 한국어 언어분석 툴킷 V4.0
키워드
기술개요
본 기술은 한국어 문어체 텍스트에 대해서 형태소분석, 개체명인식, 엔터티정규화, 구문분석, 동음이의어/다의어 분석, 의미역 인식의 언어 분석을 수행하고, 언어분석된 결과를 전달해 주는 기술에 대한 것이다.
기술이전 목적 및 필요성
● 최근에는 컴퓨터 연산능력이 향상되고 빅데이터를 쉽게 얻을 수 있는 환경이 조성되면서 머신러닝과 딥러닝 기술에 기반한 인공지능 기술이 부상되고 있고, IBM의 ‘왓슨’이라는 질의응답 시스템이 제퍼디 퀴즈 쇼에서 인간 챔피언을 상대로 우승하는 사건도 있었다.

● 빅데이터 기반의 인공지능 기술에는 다양한 언어분석 기반기술이 필요하며, 언어분석 기반기술에는 형태소분석 기술, 개체명인식 기술, 엔터티정규화, 구문분석 기술, 동음이의어 및 다의어 분석 기술, 의미역인식 기술이 있다.

● 형태소분석 기술은 의미를 가진 최소 단위인 명사, 동사, 형용사, 부사, 조사, 어미 등의 형태소를 분석하는 기술이다.

● 개체명은 인명, 지명, 기관명 등과 같은 고유 명사를 말하며, 필요에 따라서는 지위, 관계 등의 일반 명사 등도 대상이 된다. 개체명 인식 기술은 텍스트에 출현한 개체명을 자동으로 인식하는 기술이다.

● 엔터티정규화는 위키백과 기반으로 주요한 엔터티에 대한 모호성을 해소하여 위키백과 타이틀과 연결하는 기술이다.

● 구문분석 기술은 자연어 문장의 구조를 분석하는 기술로, 문장의 각 어절에 대해서 지배소 어절을 인식하고, 주격, 목적격과 같은 세부 의존관계 유형을 인식하는 기술이다.

● 동음이의어 및 다의어 분석은 형태는 동일하지만 의미가 다른 단어에 대해서 의미를 분석해 주는 기술이다. 예를 들면, ‘배’의 의미에는 신체부위, 운송수단, 열매 등의 의미가 있는데, 동음이의어 및 다의어 분석 기술은 문장에 나타난 ‘배’의 의미를 주변 문맥을 고려해서 가장 적합한 의미를 찾아주는 기술이다.

● 의미역인식 기술은 자연어 문장에서 who does what to whom을 인식하는 기술로, 문장 내에서 predicate(does)을 중심으로 하여 predicate의 의미적인 역할을 하는 문장의 부분을 인식하는 것이다.
기술의 특징 및 장점
* 형태소분석 기술은 기계학습 방법에 기반해서 형태소를 자동으로 분석해 주며, 사용되는 태그셋은 45개 세종 태그셋을 기반으로 한다. 기계학습 방법론으로는 sequence labeling 기반 음절 단위 품사 태깅 방법을 사용한다. 분류 알고리즘으로는 Structural SVMs을 사용하고, 전처리/후처리 단계에 대용량 형태소 사전을 결합해서 성능을 개선하였다.
* 개체명인식 기술은 sequence labeling 방법론에 기반해서 개체명 경계 및 대분류를 인식하고, 다음 단계로 146개 세부분류를 수행하는 2단계 인식 방법론을 적용하였다. 분류 알고리즘으로는 Structural SVMs을 사용하고, 전처리/후처리 단계에 대용량 개체명 사전과 패턴 사전을 결합해서 성능을 개선하였다.
* 엔터티정규화 기술은 위키백과의 다양한 구조적 정보를 바탕으로 다양한 엔터티 이형태를 대상으로 정규화하고, 위키백과 타이틀과 연결하고, 문장의 토픽을 파악하여 문장의 의미적 해석이 가능하도록 한다.
* 구문분석 기술은 세계적으로 가장 많이 연구되고 있는 의존구조에 기반하여 문장의 구조를 분석한다. 한국어의 지배소 후위 특징을 반영한 후위 트랜지션 기반 의존 구문분석 알고리즘을 적용하였고, 세부적으로 어절 간 지배소-피지배소 분석을 위하여 의미 자질과 문맥 자질을 적용하여 성능을 개선하였다.
* 동음이의어 및 다의어 분석 기술은 고빈도 의미 기반 분석 알고리즘, 공기정보 기반 분석 알고리즘 등의 분류 방법을 이용하여 문맥에 가장 적합한 의미를 분석한다.
* 의미역인식 기술은 영어권을 중심으로 널리 쓰이는 Propbank 의미역 체계를 도입하였고, 용언(predicate)과 의미역 간의 관계만을 보던 기존 기술과 달리sequence labeling 기반 기계학습 기술을 적용하여 전체적인 의미 문맥을 반영할 수 있도록 하여 성능을 개선하였다. 또한, Korean Propbank에서 제공하는 frame 등 언어자원을 규칙처럼 이용하여 기계학습 기술의 단점을 보완하였다.
기술의 성숙도
활용방안 및 기대성과
● 한국어 정보추출에 활용

● 한국어 문장의 의미적 관계 분석에 활용

● 정보검색, 질의응답을 위한 심층언어이해에 활용

● 텍스트 빅데이터 분석 및 마이닝 기술에 활용
기술이전 내용 및 범위
* 엑소브레인 한국어 언어분석 기술
- 한국어 형태소분석 기술
- 한국어 개체명인식 기술
- 한국어 엔터티정규화 기술
- 한국어 구문분석 기술
- 한국어 동음이의어 및 다의어 분석 기술
- 한국어 의미역인식 기술
* 한국어 형태소분석 엔진, 리소스
* 한국어 개체명인식 엔진, 리소스
* 한국어 엔터티정규화 엔진, 리소스
* 한국어 구문분석 엔진, 리소스
* 한국어 동음이의어 및 다의어 분석 엔진, 리소스
* 한국어 의미역인식 엔진, 리소스
* 언어분석 기술 사용 매뉴얼, 자료구조 매뉴얼
관련지적재산권
특허 1건
1) 간접광고를 포함한 뉴스 기사 생성 시스템 및 방법
(출원번호 : 2020-0002588)
첨부파일
기술이전조건
실시권 허용범위
비독점적 통상실시권
계약기간
계약체결일로부터 5 년간
기술료조건(부가세별도)
※ 착수기본료(단위:천원)
구분 중소기업 중견기업 대기업
착수기본료 120,000 240,000 240,000
매출정률사용료(%) 1.25 3.75 5
※중소기업 또는 중견기업 기술료조건을 적용받고자 하는 경우에는 중소기업확인증 또는 중견기업확인증 제출 필요
기술전수교육
1 개월 / 708.8 천원정(부가세 별도)
기타특기사항
각 세부 기술별로는 아래의 조건으로 각각 기술이전이 가능함 (매출정률사용료(%)는 동일)
* 기존 동 연구팀에서 개발한 엑소브레인 한국어 언어분석 툴킷 구 버전을 기술이전 받은 기업이 동일한 세부 기술을 이전 받을 경우 착수 기본료를 50% 감액함 (업그레이드 비용으로 산정)

○ 1세부기술) 형태소 분석 기술(바이너리 코드)
- 중소기업: 20,000천원 , 중견/대기업: 40,000천원

○ 2세부기술) 개체명 인식 기술(바이너리 코드)
- 중소기업: 20,000천원 , 중견/대기업: 40,000천원

○ 3세부기술) 엔터티정규화 기술(바이너리 코드)
- 중소기업: 20,000천원 , 중견/대기업: 40,000천원

○ 4세부기술) 구문분석 인식 기술(바이너리 코드)
- 중소기업: 20,000천원 , 중견/대기업: 40,000천원

○ 5세부기술) 동음이의어 및 다의어 분석 기술(바이너리 코드)
- 중소기업: 20,000천원 , 중견/대기업: 40,000천원

○ 6세부기술) 의미역인식 기술(바이너리 코드)
- 중소기업: 20,000천원 , 중견/대기업: 40,000천원

* 소스코드 이전 시에는 바이너리 코드의 200% 가격으로 이전 가능함
* 기술이전신청시 기타란에 세부기술명을 표기하여 신청 요망
세부문의
기술관련
기술개발 발표당시 언어지능연구실 임준호 (042-860-1322, joonho.lim@etri.re.kr)
현재 언어지능연구실 배경만 (042-860-5893, kyoungman.bae@etri.re.kr)
계약관련
기술이전실 주명혁 (042-860-5838, mhju@etri.re.kr)