득표결과

타자기로 쓴 1960년대 정부문서 검색 가능해진다

뉴시스

입력 2020-12-22 15:15:00 수정 2020-12-22 15:16:58

|
폰트
|
뉴스듣기
|

닫기

기사공유 | 
  • 페이스북
  • 트위터
  • 카카오스토리
  • 밴드
  • 구글
국가기록원, 딥러닝 기반 AI문자인식기술 개발
"내년부터 모든 비전자 기록물 데이터화 추진"


국가기록원이 1960년대부터 1990년대까지 정부에서 주로 사용됐던 타자기록을 쉽고 간편하게 검색하고 활용할 수 있는 문자인식 기술 개발에 성공했다.

국가기록원은 딥러닝 기반으로 약 22만 개의 한글 타자체 단어를 학습시켜 국내 최초로 비전자 타자기록의 인공지능(AI) 문자인식(OCR) 기술을 개발했다고 22일 밝혔다.

OCR은 사람이 쓰거나 기계로 인쇄한 문자의 이미지를 기계가 읽을 수 있는 문자로 변환하는 기술을 말한다.

국가기록원은 지난 2020년 연구개발 사업 중 하나로 AI 스타트업 기업과 협업해 수행한 ‘소장기록물 특성을 고려한 OCR 인식 성능 개선방안 연구’ 과제를 통해 이 같은 기술을 개발했다.

국가기록원은 그동안 문서를 이미지로 스캔한 파일을 제공해왔으나, 문서내용 검색에는 한계가 있어 이용자들의 불편이 있었다. 기존의 문자인식 기술도 활자체에 최적화돼 있어 사람이 손으로 쓰거나 타자를 이용해 작성한 문서는 효과가 크지 않았다.

국내 공문서 작성에 처음 타자기록이 도입된 것은 1950년대 세벌식 타자기다. 1969년에 네벌식, 1982년에 두벌식 자판이 사용되는 등 글꼴이 매우 다양하고 시각적으로 활자체와 차이가 있어 기존의 기술로는 인식성능이 떨어진다.

이번 개발에 사용된 학습데이터는 1960~1990년대까지 재무부, 외무부, 건설교통부 등에서 생산한 도시계획과 경제계획 문서와 국무회의, 경제장관회의 등의 회의록 및 각종 법령 등을 담고 있다.

올해는 1단계로 공공기관에서 컴퓨터가 보급되기 이전에 주로 사용해 왔던 타자기록에 대해 문자인식 연구를 추진했다. 기존의 문자인식 기술과는 달리 문자탐지와 인식 2개 단계로 구성된 딥러닝 기반의 AI 문자인식 모델을 개발하자 학습속도를 개선했고 인식성능을 90% 이상 높였다.

국가기록원은 “문자인식 기술을 적용·발전시켜 국민들이 보다 쉽고 편리하게 기록물 원문을 검색하고 색인 등 정보로 활용할 수 있도록 2021년부터 모든 비전자 기록물을 데이터화하는 ‘기록물 디지털화 2.0 계획’을 추진할 예정”이라고 밝혔다.

국가기록원은 홈페이지(www.archives.go.kr)를 통해 이번에 구축된 학습데이터를 공개할 예정이다.
[세종=뉴시스]
추천해요
기사공유 | 
  • 페이스북
  • 트위터
  • 카카오스토리
  • 밴드
  • 구글
댓글쓰기

응답하라 2016 유권자가 간다. 공약을 제안해 주세요. 정당과 후보들에게 전달해 드립니다.

  • 공약은 알게는데 구체적으로 어떻게 실현시킬것인지 써있지가 않다. 초등학생도 계획표인가?

  • 동아닷컴

    부동산 등기 특별법 제정 촉구

  • 동아닷컴

    국민연금을 갖고 표심을 얻으려는 야권

  • 정리해고 요건강화

  • 동아닷컴

    정치도 제대로 된 공부와 연구를 하는 국민대표의 장을 만들자!

많이 본 뉴스

종합

정치

국제

사회

스포츠

연예

댓글이 핫한 뉴스