ETRI 기술이전 사이트에 오신걸 환영합니다.
엑소브레인 한국어 언어모델 및 딥러닝 응용 기술 V1.0
키워드
기술개요
본 기술은 대용량 텍스트로부터 언어의 문법/의미 정보를 학습하여, 언어분석/기계독해/문서분류 등 다양한 응용 태스크에 범용적으로 적용한 가능한 한국어 딥러닝 언어모델(KorBERT)과 기계독해, 문장 간 유사도 인식 등 응용 태스크 별 학습말뭉치를 추가 학습한 딥러닝 응용 기술에 대한 것이다.
기술이전 목적 및 필요성
● 최근 컴퓨터 연산능력이 향상되고 빅데이터를 쉽게 얻을 수 있는 환경이 조성되면서 딥러닝에 기반한 언어처리 및 인공지능 기술이 부상되고 있다.

● 딥러닝 언어모델 기술은 가장 최근의 언어처리 기술 발전의 핵심 기술로, 수십 기가바이트(GB) 이상의 텍스트로부터 범용적인 언어의 구문 및 의미 정보를 학습하여 응용 태스크에 적용하는 기술이다. 딥러닝 언어모델 기술은 언어모델을 적용하지 않은 이전의 심볼릭 또는 딥러닝 방법 대비 큰 폭의 성능 개선을 이루었다.

● 본 기술이전의 대상은 다수의 한국어 처리 태스크에서 우수한 성능을 제공하는 엑소브레인 한국어 언어모델(KorBERT), KorBERT 기반 단락 대상 기계독해 기술, 엑소브레인 한국어 형태소 분석 기술, KorBERT 기반 문장 간 유사도 인식 기술, KorBERT 기반 문장/문서 대상 텍스트 분류 기술이다.

● 엑소브레인 한국어 언어모델(KorBERT)은 대용량 텍스트로부터 한국어의 구문 및 의미 정보를 학습하여, 다양한 응용 태스크(언어분석/기계독해/문서분류 등)에 범용적으로 활용 가능한 딥러닝 기술이다.

● KorBERT 기반 단락 대상 기계독해 기술은 KorBERT 범용 언어모델을 이용하여 주어진 질문과 단락 텍스트에서 정답 경계(시작/끝)를 추론하는 기술이다.

● 엑소브레인 한국어 형태소 분석 기술은 형태소 단위 한국어 언어모델 활용을 위하여, 입력 한국어 문장에 대해 의미를 가지는 최소 단위인 형태소(명사, 동사, 형용사, 부사, 조사, 어미 등)를 분석하는 기술이다.

● KorBERT 기반 문장 간 유사도 인식 기술은 두 문장 사이의 의미 동등성 관계를 파악하여 유사도를 인식하는 기술이다. 두 문장의 동등성 여부를 결정하는 이진 유사도 인식 기술과 [0~5] 사이의 유사도를 인식하는 기술을 포함한다.

● KorBERT 기반 문장/문서 대상 텍스트 분류 기술은 KorBERT 범용 언어모델을 이용하여, 문장/문서 단위 입력에 대해 사전에 정의한 클래스를 분류하는 응용 기술이다.
기술의 특징 및 장점
* 엑소브레인 한국어 언어모델(KorBERT) 기술은 위키백과 및 신문기사 23.5 GB (약 15년 분량, 47억개 형태소)의 데이터로부터 한국어의 구문 및 의미를 학습한 딥러닝 모델이다. 본 한국어 언어모델은 한국어 의미의 최소 단위인 형태소에 기반한 형태소 단위 모델, 형태소분석 없이 활용 가능한 워드피스(Word-Piece) 단위 모델, 언어모델의 깊이(depth)와 크기를 확장하여 성능을 개선한 라지 모델(Large model)의 3개 모델로 구성되어 있다.
* KorBERT 기반 단락 대상 기계독해 기술은 KorBERT 범용 언어모델을 이용하여 22만 개 이상의 질문-단락-정답 학습데이터를 추가 학습하였으며, 단답형 뿐 아니라 서술형 답변에 대해서도 단락 텍스트 내의 정답 경계(시작/끝) 추론이 가능하다.
* 엑소브레인 한국어 형태소 분석 기술은 형태소 단위 한국어 언어모델 활용을 위하여, 입력 한국어 문장에 대해 의미를 가지는 최소 단위인 형태소(명사, 동사, 형용사, 부사, 조사, 어미 등)를 분석하는 기술이다. 사용되는 태그셋은 45개 세종 태그셋을 기반으로 하고, 기계학습 방법론으로는 sequence labeling 기반 음절 단위 품사 태깅 방법을 사용한다. 분류 알고리즘으로는 Structural SVMs을 사용하고, 전처리/후처리 단계에 대용량 형태소 사전을 결합해서 성능을 개선하였다.
* KorBERT 기반 문장 간 유사도 인식 기술은 두 문장에 나타나는 동일 어휘의 인식을 넘어서서 패러프레이즈 인식을 기반으로 유사도를 측정할 수 있는 장점이 있다. 패러프레이즈 인식을 위해 별도의 유의어/유의어구 사전이 필요하지 않다. 또한 비동등의미 인식을 위한 반의어/반의어구 사전이 필요하지 않다.
* KorBERT 기반 문장/문서 대상 텍스트 분류 기술은 입력 문장/문서에 대하여 KorBERT 언어모델을 이용하여 형태소 단위, 워드피스 단위, 또는 라지 모델 기반의 분류 모델을 학습하는 기술로, 기존 언어모델 이전의 기술 대비 높은 정확도로 사전에 정희한 클래스로 분류가 가능한 응용 기술이다.
기술의 성숙도
활용방안 및 기대성과

● 한국어 범용 도메인 질의응답에 활용
● 사용자 질의에 정답을 검색하는 지능형 검색 서비스에 활용
● 한국어 문장의 의미적 관계 분석에 활용
● 텍스트 빅데이터 분석 및 마이닝 기술에 활용
기술이전 내용 및 범위
* 한국어 언어모델 및 딥러닝 응용 기술
- 엑소브레인 한국어 언어모델 (KorBERT)
- KorBERT 기반 단락 대상 기계독해 기술
- 엑소브레인 한국어 형태소 분석 기술
- KorBERT 기반 문장 간 유사도 인식 기술
- KorBERT 기반 문장/문서 대상 텍스트 분류 기술

* 기술이전 범위
- 한국어 언어모델 3종 (Tensorflow 및 Pytorch 학습모델 파일)
- 기계독해 학습모델 및 소스코드 (Pytorch 학습모델 파일 및 파이썬 소스코드)
- 한국어 형태소분석 엔진 (C++ 라이브러리), 리소스
- 유사도 인식 학습 모델 및 소스코드 (Pytorch 학습모델 파일 및 파이썬 소스코드)
- 일반 클래스 분류 학습모델 및 소스코드 (Pytorch 학습모델 파일 및 파이썬 소스코드)

관련지적재산권
특허 1건
1) 간접광고를 포함한 뉴스 기사 생성 시스템 및 방법
(출원번호 : 2020-0002588)
첨부파일
기술이전조건
실시권 허용범위
비독점적 통상실시권
계약기간
계약체결일로부터 5 년간
기술료조건(부가세별도)
※ 착수기본료(단위:천원)
구분 중소기업 중견기업 대기업
착수기본료 100,000 200,000 200,000
매출정률사용료(%) 1.25 3.75 5
※중소기업 또는 중견기업 기술료조건을 적용받고자 하는 경우에는 중소기업확인증 또는 중견기업확인증 제출 필요
기술전수교육
1 개월 / 708.8 천원정(부가세 별도)
기타특기사항
각 세부 기술별로는 아래의 조건으로 각각 기술이전이 가능함(매출정률사용료(%)는 동일)

○ 엑소브레인 한국어 언어모델 (KorBERT)
- 중소기업: 20,000천원 , 중견/대기업: 40,000천원

○ KorBERT 기반 단락 대상 기계독해 기술 (DB 및 소스코드)
- 중소기업: 20,000천원 , 중견/대기업: 40,000천원

○ 엑소브레인 한국어 형태소분석 기술 (바이너리 코드)
- 중소기업: 20,000천원 , 중견/대기업: 40,000천원
* 소스코드 이전시에 바이너리 코드의 200% 가격으로 이전 가능함

○ KorBERT 기반 문장 간 유사도 인식 기술 (DB 및 소스코드)
- 중소기업: 20,000천원 , 중견/대기업: 40,000천원

○ KorBERT 기반 문장/문서 대상 텍스트 분류 기술 (DB 및 소스코드)
- 중소기업: 20,000천원 , 중견/대기업: 40,000천원
세부문의
기술관련
기술개발 발표당시 언어지능연구실 임준호 (042-860-1322, joonho.lim@etri.re.kr)
현재 언어지능연구실 김민호 (042-860-1381, kimmh@etri.re.kr)
계약관련
기술이전실 주명혁 (042-860-5838, mhju@etri.re.kr)