ETRI 기술이전 사이트에 오신걸 환영합니다.
소규모 데이터 학습을 위한 멀티 태스크 러닝 시스템
키워드
기술개요
본 기술은 인공지능 및 기계학습 방법론에 속하며, 데이터 양은 적으면서 상이한 도메인에 속하는 데이터셋 여러 개를 동시에 상호보완적으로 학습하여 데이터 부족으로 인한 모델 성능 저하를 보완하는 기술임
기술이전 목적 및 필요성
ㅇ 일반적인 다중 작업 학습에는 크게 2가지 기술적 문제가 존재
ㅇ 먼저 각각의 태스크에서 학습하고자 하는 데이터가 같은 특징 공간(feature space)에 존재해야 한다는 제약이 있음
- 데이터 특징 벡터(feature vector)의 차원이 같아야 하며 각 특징 벡터에서 표현할 수 있는 특징(feature)들의 구성, 또 이들이 가질 수 있는 값의 범위 등이 태스크마다 상이해선 안 됨
- 이는 데이터 세트 간의 공통 특징을 추출하는 과정에서 같은 네트워크 구조를 공유해야 하기 때문이며, 데이터 특성이 이질적인(heterogenous) 경우는 공유 레이어로 순전파가 불가능함
- 현실에서 수집된 복수의 데이터 세트가 모두 같은 구조와 특성을 따를 것을 기대하기는 어려움
ㅇ 또한, 실제로 공유 레이어가 공통 특징을 학습하는 데 관여하는지 직접 확인할 방법이 없음
- 실제로 각각의 태스크가 매우 상이한 데이터 분포 또는 라벨링 기준을 갖고 있을 경우가 존재할 수 있으며 이때, 학습 모델은 데이터 간 공통된 특징을 추출하기보다는 개별 태스크마다 경쟁적으로 자신의 추론 성능만을 높이려는 방향으로 학습이 유도됨
- 이는 각 데이터 세트에 대한 학습이 관련 없는 태스크에 대한 추론 성능을 저하시키기도 한다. 특히 태스크별로 학습 난이도가 크게 차이가 날 경우, 분류 손실 값을 쉽게 줄일 수 있는 태스크 학습에 과적합되는 현상이 발생하고, 이는 결국 태스크별로 불균형한 성능을 얻게 되는 문제를 일으킴
ㅇ 이러한 문제점들을 극복하기 위해선, 데이터 양은 적으면서 상이한 도메인에 속하는 데이터셋 여러 개를 동시에 상호보완적으로 학습하여 데이터 부족으로 인한 모델 성능 저하를 보완하는 방법이 요구됨
기술의 특징 및 장점
- 본 기술은 다수의 데이터셋을 학습하는 작업에 용이하며, 특히 규모가 작은 데이터셋이 일부 포함되어 있을 경우 효과적임
- 데이터셋 학습 과정에서 개별적으로 특징 추출 단계를 거치면서도, 일부 인코딩 레이어를 공유함으로써 서로 다른 데이터셋 간의 공통된 특징을 추출할 수 있음
기술의 성숙도
활용방안 및 기대성과
ㅇ 데이터 확보에 있어 여러 제약(예를 들어, 의학적 또는 민감 개인 정보를 포함하는 경우)이 존재하여 다량의 학습 데이터를 수집하기 어려운 분야에서 인공지능 모델을 학습 성능을 개선할 수 있음
기술이전 내용 및 범위
ㅇ 소규모 데이터셋에 대한 학습 성능 개선을 위한 인공지능 시스템
- Multi-task learning 기반 딥러닝 네트워크 학습 및 평가 알고리즘
- 상이한 구조와 형태의 데이터셋을 하나의 모델로 융합 학습이 가능한 인공지능 알고리즘
요구사항정의서 1건
시험절차및결과서 1건
알고리즘 관련 기술문서 등 총 2건
알고리즘 관련 특허 1건
관련지적재산권
첨부파일
기술이전조건
실시권 허용범위
비독점적 통상실시권
계약기간
계약체결일로부터 5 년간
기술료조건(부가세별도)
※ 정액기술료(단위:천원)
구분 중소기업 중견기업 대기업
정액기술료 30,000 90,000 120,000
※ 중소기업 또는 중견기업 기술료조건을 적용받고자 하는 경우에는 중소기업확인증 또는 중견기업확인증 제출 필요
기술전수교육
개월 / 0 천원정(부가세 별도)
기타특기사항
세부문의
기술관련
기술개발 발표당시 인공지능융합연구실 양지원 (062-970-6534, jiwonyang@etri.re.kr)
현재 인공지능융합연구실 양지원 (062-970-6534, jiwonyang@etri.re.kr)
계약관련
기술이전실 안희진 (042-860-5784, ahj@etri.re.kr)