ETRI 기술이전 사이트에 오신걸 환영합니다.
인공지능 한문 고서 한자 검출, 인식, 서순정렬 모델
키워드
기술개요
- 본 이전기술은 한문 고서의 원문 이미지 데이터로부터 텍스트로 옮기는 광학문자인식(OCR: Optical Character Recognition) 기술임
- 한문 고서의 한자들의 위치 정보를 제공하는 인공지능 검출 모델 및 검출된 한자 이미지들을 기계가 읽을 수 있는 텍스트로 변환하는 인공지능 한자 인식 모델, 한문 고서의 한자들의 서순을 정렬하는 기술임
- 서순 정렬 기술은 소·중·대분류 3종의 계층적 라인분할을 통해 본주와 세주를 분류하고 우종서 기반의 서순으로 한자를 정렬하여 디지털 텍스트를 추출하는 기술임
- 한자 검출 및 인식 모델은 AIHUB의 공개 데이터와 자체적으로 구축한 데이터를 사용하여 학습되었으며, 2,000자 이상 인식이 가능함
기술이전 목적 및 필요성
- 한문 고서는 각종 역사물, 전통문화, 문화재의 용도, 훼손된 문화유산의 복원을 위한 정보 제공 등 다양한 우리나라의 주요 역사 문화를 알려주는 중요한 역사 기록물로서 그 내용을 추출하는 한자 인식 및 번역 작업은 계속되고 있음
- 이러한 한문 고서는 국립중앙도서관 등에서 약 300만 점을 보유하고 있으나 현재는 보관만 하고 있는 상태임. 일부 고서 보유 기관에서는 고서의 원문이미지 제공 서비스가 실시되고 있으나 한자를 잘 알지 못하는 일반인을 위한 한자 인식 서비스 기술을 요구함
- 이러한 한문 고서들의 내용을 추출하기 위하여 번역 전문가들이 있지만 현재는 노동집약적인 개별 자형 판별 및 전산 입력 과정이 필수적으로서, 이를 대체할 수 있는 자동화 기술을 요구함
- 특히 현대언어의 서순과 달리 우종서 기준을 따르는 한문 고서는 본주와 세주를 분류하여 서순이 진행되어야 하는 까다로운 특성을 갖기에 현재 상용화된 기술이 전무하지만 고서 번역 현장에서는 매우 필요로 하는 기술임
- 본 기술은 한문 고서의 한자를 인공지능으로 검출 및 인식된 한자들의 텍스트 정보를 서순정렬하여 제공하며 출력하며 예측 확률순에 따라 6순위까지의 텍스트 후보군을 도출함. 음가 정보도 제공되어 한글로 옮기는 작업 지원 가능
기술의 특징 및 장점
- 2000자 이상의 한자 자형을 인식할 수 있는 한자 인식 모델
- 본주와 세주의 한자들을 검출할 수 있는 한자 검출 모델
- 인공지능 한자 검출 및 인식 결과를 사용하여 한문 고서 내 한자 서순 정렬
- 본주와 세주가 혼재된 한문 고서 이미지에서도 본문열과 세주열 영역을 분리하여 각각의 영역 내에서 서순을 정렬하고, 본주와 세주의 영역별 순서 정렬이 가능
- 다량의 학습 데이터를 요구하지 않으며 자형들 사이의 폭이 좁은 상태에서도 서순을 정렬하여 한자 인식 결과 도출
기술의 성숙도
활용방안 및 기대성과
- 한문 번역 종사자들 대상으로 한문 고서의 한자 텍스트 변환 작업 지원 및 이본대조 및 교감대조 작업 지원 플랫폼으로 활용
- 온라인 한자 교육 플랫폼으로 활용 가능
- 한자 OCR 활용
- 고문헌 번역 작업 내 단순 노동 비중 감소 및 업무 효율성 강화
- 고서 번역 작업의 가속화를 통한 역사 고증으로 문화 콘텐츠 제작 시 역사 왜곡 방지 기대됨
- 번역지원 기술을 통해 대중에 대한 성과물의 신속한 공급으로 국가 기록유산의 저변 확대
- 한자 문화권 (중국, 일본, 베트남 등)등의 해외 고전 연구기관의 수출을 통한 해외 시장 진출 가능
기술이전 내용 및 범위
- 인공지능 기반 한문 고서의 한자 인식 모델
- 인공지능 기반 한문 고서의 한자 검출 모델
- 한자 인식 및 검출 결과 도출 기술
- 한문 고서의 서순정렬 기술
- 인공지능 한문 고서 한자 검출, 인식, 서순정렬 모델 요구사항정의서 1건
- 인공지능 한문 고서 한자 검출, 인식, 서순정렬 모델 시험절차 및 결과서 1건
- 서순정렬 알고리즘 관련 기술 문서 1건 (이본교감대조 지원기술 분석서)
- 고문헌 원문이미지의 디지털화를 위한 전자장치 및 방법 특허 1건
- 인공지능 기반 한문 고서의 한자 검출 모델 1건
- 인공지능 기반 한문 고서의 한자 인식 모델 1건
- 인공지능 기반 한문 고서의 한자 검출 및 인식 결과 도출 알고리즘 1건
- 한문고서 서순정렬 및 디지털텍스트 생성 알고리즘 1건
관련지적재산권
특허 1건
1) 고문헌 원문이미지의 디지털화를 위한 전자장치 및 방법
(출원번호 : 2022-0142352)
첨부파일
기술이전조건
실시권 허용범위
비독점적 통상실시권
계약기간
계약체결일로부터 5 년간
기술료조건(부가세별도)
※ 정액기술료(단위:천원)
구분 중소기업 중견기업 대기업
정액기술료 10,000 30,000 40,000
※ 중소기업 또는 중견기업 기술료조건을 적용받고자 하는 경우에는 중소기업확인증 또는 중견기업확인증 제출 필요
기술전수교육
개월 / 0 천원정(부가세 별도)
기타특기사항
세부문의
기술관련
기술개발 발표당시 광ICT융합연구실 민기현 (062-970-6688, ghmin@etri.re.kr)
현재 인공지능융합연구실 민기현 (062-970-6688, ghmin@etri.re.kr)
계약관련
기술이전실 안희진 (042-860-5784, ahj@etri.re.kr)