키워드
기술개요
위키피디아나 법령 문서 등과 달리 정해진 서식이 없는 일반 문서(매뉴얼, 지침, 규정 등)를 대상으로 단락 뿐만 아니라 테이블 정보에서도 검색 및 기계독해를 통해 정답을 제공하는 질의응답 기술이다. 정답 제공시 답 이외에 답을 설명할 수 있는 근거 정보도 함께 제공된다.
기술이전 목적 및 필요성
● 질의응답의 대상이 되는 문서들은 서식이 있는 문서들도 있지만, 서식없이 자유롭게 작성된 경우나 각 기관들마다 각자의 자유로운 형식으로 작성된 경우가 대분이며, 이러한 서식이 없는 문서들로부터 사용자가 원하는 정보를 검색하고 정답을 추출하는 기술이 중요하다.
● 또한 문서들에는 텍스트 위주의 단락 뿐만 아니라 다양한 테이블 형식의 정보들이 많이 존재하며 테이블에서 정답을 추출할 수 있는 기술의 필요성도 증대되고 있다.
● 본 기술에서 제공하는 기능으로는 서식이 없는 일반 문서 기반 시맨틱 색인/검색, 사용자 질문의 이해 및 FAQ, 질문에 대한 응답 추론, 응답에 대한 근거 제시 등이 있으며 요소기술로서의 활용을 위해 컴포넌트 단위로 패키징되어 있으며 지능형의 게시판 검색 및 챗봇 기술의 핵심기술로도 활용이 가능하다.
기술의 특징 및 장점
본 기술은 위키피디아나 법령 문서 등과 달리 정해진 서식이 없는 일반 문서(매뉴얼, 지침, 규정 등)를 대상으로 단락 뿐만 아니라 테이블 정보에서도 검색 및 기계독해를 통해 정답을 제공하는 질의응답 기술이다. 정답 제공시 답 이외에 답을 설명할 수 있는 근거 정보도 함께 제공된다.
o 딥러닝 언어모델
- 한국어 텍스트의 문맥(구문/의미)을 학습하여, 다양한 응용 태스크(언어분석/기계독해/문서분류 등)에 범용적으로 활용 가능한 딥러닝을 위한 언어모델
- 위키백과 및 신문기사 23.5 GB (약 15년 분량), 47억개 형태소 학습, 법률분야 텍스트 186MB 학습
- 한국어의 특성을 반영한 형태소 단위의 BPE 적용
o 일반 문서 색인 및 검색
- 단락 형태로 변환된 JSON 형식의 가상문서로부터 단락과 테이블 정보를 색인하고 검색하는 기술
- JSON 형식의 가상문서로부터 단락/테이블/FAQ 양식/FAQ 질문을 색인
- 형태소 및 문서 타입 기반의 심볼릭 검색 및 순위화
o 딥러닝 언어모델 기반 재순위화
- 딥러닝 언어모델 기반으로 일반 문서 대상으로 검색된 단락들을 정답이 포함될 확률이 높은 순위로 재순위화
- 정답이 포함되는 확률이 높은 순위로 검색 결과를 재순위화
- 약 209만개의 정답-오답 질문-단락 학습데이터를 이용한 fine-tunning
o 딥러닝 언어모델 기반 근거인식
- 딥러닝 언어모델 기반으로 재순위화된 검색 단락에서 정답을 추론할 수 있는 근거 문장을 추론
- 재순위화 된 검색 단락에서 정답을 추론할 수 있는 근거가 되는 문장을 인식
- 약 8만1천개의 질문-단락-근거 학습데이터를 이용한 fine-tunning
o 딥러닝 언어모델 기반 기계 독해 모델
- 딥러닝 언어모델 기반으로 재순위화된 검색 단락과 근거인식 문장으로부터 각각 정답을 인식하여 하이브리드 기반으로 최종 정답을 추론
- 재순위화된 검색 단락으로부터 정답 경계 인식
- 근거인식된 문장을 결합한 단락으로부터 정답 경계 인식
- 하이브리드 기반의 최종 정답 경계 인식
- 약 8만1천개의 질문-단락-근거 학습데이터를 이용한 fine-tunning
o 분산처리 플랫폼
- 대용량 텍스트 대상 언어분석을 배치로 수행하여 색인하고, 심층질의응답 서버를 운용하기 위한 플랫폼
- 배치형 한국어 분석 기반 색인 및 시맨틱 검색
- 서버 및 쓰레드 풀 확장이 가능한 심층질의응답 시스템
기술의 성숙도
활용방안 및 기대성과
● 서식 없는 일반 문서에 대한 지식 저장에 활용
● 지침, 규정 등에 대한 지능형 정보 검색 서비스에 활용
● 다양한 도메인에 대한 질의응답에 활용
● 질의응답 서비스를 위한 프레임워크로 활용
기술이전 내용 및 범위
o 딥러닝 언어모델
- 한국어는 어근에 어미/조사가 결합되므로, 의미의 최소 단위인 형태소로 구분 필요
- 형태소 분석 이후, 형태소 단위에 대해서 BPE를 적용하여 한국어 특성 최대한 활용
- 구글 BERT 한국어 모델과 5개 태스크 대상 비교 평가 시 평균 4.5% 높은 성능
o 자연어 질문분석 및 FAQ
- 질문에 대한 언어분석(형태소, 개체명, 구문분석, SRL) 및 질문 분류(양식/단답/서술)
- (심볼릭 FAQ) 한국어 분석 기반 문장유사도 분류 모델(유의어 사전 16만건, 2만건 유사 문장 쌍 학습)
- (뉴럴 FAQ) 딥러닝 언어모델 기반 유사 질의 분류 모델(67만 일반분야 유사/비유사 질의-쌍 데이터 학습, 47만 법률분야 유사/비유사 질의-쌍 데이터 학습)
o 일반 문서 색인 및 검색
- JSON 형식의 가상문서로부터 단락/테이블/FAQ 양식/FAQ 질문을 색인
- 어휘/어휘의미 관계에 기반한 색인 및 검색
- 형태소 및 문서 타입 기반의 심볼릭 검색 및 순위화
o 딥러닝 언어모델 기반 재순위화
- JSON 형식의 가상문서로부터 단락/테이블/FAQ 양식/FAQ 질문을 색인
- 형태소 및 문서 타입 기반의 심볼릭 검색 및 순위화
o 딥러닝 언어모델 기반 근거 인식
- 재순위화 된 검색 단락에서 정답을 추론할 수 있는 근거가 되는 문장을 인식
- 약 8만1천개의 질문-단락-근거 학습데이터를 이용한 fine-tunning
o 딥러닝 언어모델 기반 기계 독해
- 재순위화된 검색 단락으로부터 정답 경계 인식결과와 근거인식된 문장을 결합한 단락으로부터 정답 경계 인식하여 하이브리드 기반의 최종 정답 경계 인식
- 약 8만1천개의 질문-단락-근거 학습데이터를 이용한 fine-tunning
o 분산처리 플랫폼
- 분산처리를 위해 질의응답 시스템을 프로세스 단위의 쓰레드풀(thread pool) 적용
- 대용량 분산 검색을 위한 Solr 와 언어분석 저장을 위한 Hadoop 플랫폼 적용
o 딥러닝 언어모델
- 일반문서 기반 한국어 언어모델 및 설명서
o 자연어 질문분석 및 FAQ
- 정답유형과 질문분류를 위한 SVM 기계학습 모델과 규칙 사전
- 딥러닝과 Lexico-Semantic 기반 문장 유사도 계산 엔진
- 질문분석기술 및 FAQ 기술에 대한 상세 매뉴얼 및 자료구조 설명서
o 일반 문서 색인/검색
- 조항 단위의 가상문서를 생성하기 위한 가이드라인 및 변환 도구
- 시맨틱 색인, 검색, 심볼릭 기반 재순위화 엔진
- 증분색인 등을 위한 색인 도구
- 시맨틱 색인 및 검색을 위한 사용자 매뉴얼 및 자료구조 설명서
o 딥러닝 언어모델 기반 재순위화
- 딥러닝 언어모델을 이용한 재순위화 모델/학습기 및 설명서
o 딥러닝 언어모델 기반 근거 인식
- 딥러닝 언어모델을 이용한 근거인식 모델/학습기 및 설명서
o 딥러닝 언어모델 기반 기계 독해
- 딥러닝 언어모델을 이용한 기계독해 모델/학습기 및 설명서
o 분산처리 플랫폼
- 일반문서 기반 질의응답 분산처리 엔진 및 사용자 Web UI
- 분산처리 플랫폼 구성을 위한 상세매뉴얼 및 자료구조 설명서
관련지적재산권
특허 4건
1) 근거인식 기반 질의응답 시스템 및 방법
(출원번호 : 2020-0179810)
2) 기계 독해 학습 데이터 자동 생성 장치 및 그 방법
(출원번호 : 2020-0129497)
3) 문장 의미 유사도 판단 방법 및 장치
(출원번호 : 2020-0130556)
4) 적대적 패러프레이즈 문장 자동 생성 시스템
(출원번호 : 2020-0152126)
빈출 질문 검색 유사도 프로그램 등 프로그램 7 건
설명가능한 질의응답 등 기술문서 4건
첨부파일
기술이전조건
실시권 허용범위
비독점적 통상실시권
계약기간
계약체결일로부터 5 년간
기술료조건(부가세별도)
※ 착수기본료(단위:천원)
구분 |
중소기업 |
중견기업 |
대기업 |
착수기본료 |
180,000
|
360,000
|
360,000
|
매출정률사용료(%) |
1.25
|
3.75
|
5
|
※중소기업 또는 중견기업 기술료조건을 적용받고자 하는 경우에는 중소기업확인증 또는 중견기업확인증 제출 필요
기술전수교육
1 개월 / 818.4 천원정(부가세 별도)
기타특기사항
* 위 기술료 조건은 바이너리 코드 기준임
* 소스코드를 이전하는 경우, 위 바이너리코드 조건의 150% 가격으로 이전
*?실질기여 공동연구기관(한글과 컴퓨터)은?기술료 감면(50% 감면)
*?엑소브레인 한국어 상식 분야 질의응답 기술 v1.0 및 엑소브레인 법률 분야 심층질의응답 기술 v1.0을 이전받은 업체의 경우 업그레이드로 간주하여?50%의 가격으로 기술이전
세부문의
기술관련
기술개발 발표당시 |
언어지능연구실 이형직 (042-860-1597, leehj@etri.re.kr)
|
현재 |
언어지능연구실 이형직 (042-860-1597, leehj@etri.re.kr)
|
계약관련
기술이전실 주명혁 (042-860-5838, mhju@etri.re.kr)