티스토리 뷰

AI

지마켓 OCR 기술 소개

지마켓 강남희 2022. 12. 15. 14:09

OCR : Optical Character Recognition

OCR은 손글씨로 작성되거나 인쇄된 종이 문서를 스캐너와 같은 디지털 영상 획득 장치로 이미지화한 것들로부터 문자(열)를 인식/추출 하는 이미지 분석 기술로부터 시작되었습니다.

최근에는 일상 생활에 스마트 폰이나 태블릿 같은 디지털 기기를 활용하는 문화가 대중화 되면서 이미지 편집 도구로 생성된 디지털 이미지나 디지털 카메라로 찍은 다양한 이미지에 포함된 문자(열)을 인식하는 기술로 발전하고 있습니다.

 

OCR의 간략한 역사

컴퓨터가 개발되기 이전부터 이미 시각 기호를 문자에 대응시키려는 개념이 있었으며, 컴퓨터가 발명된 이후 다양한 활용 방법을 모색하기 시작하였고, 일반 사진을 컴퓨터에서 이용할 수 있도록 하는 디지털 이미지 표현/변환 기술을 연구하는 이미지 영상 처리 분야가 시작되었습니다.

 이후 반도체 기술 개발은 PC 대중화와 인터넷 세상을 시작하는 중요한 토대가 되었으며, 디지털 이미지 센서 기술의 발전과 디지털카메라 보급을 이끌었습니다. 이에 따라 1990년대부터 이미지 데이터가 폭발적으로 증가하였고 충분한 데이터와 빠르게 성장하는 컴퓨터 하드웨어 발전으로 기계학습을 이용한 OCR 연구가 활성화되었습니다.

 2010년 무렵부터 Deep Learning을 이용한 다양한 연구 성과들이 발표되면서 Deep Learning을 이용한 OCR 기술은 주요 기반 기술분야로 많은 연구가 이루어지고 있습니다.

최근에는 스마트폰과 같은 디지털 기기에서 인식 성능이 많이 개선되어 일상 생활에 다양하게 활용 되고 있는 추세 입니다추세입니다.

 

OCR 기능

OCR 기능은 이미지 내 문자열들의 영역과 위치를 찾아내는 Text Region Detection 기능과 Text Region 내 문자열들의 실제 문자열을 추출하는 Text Recognition 기능으로 나누어집니다.

Text Region Detection 기능과 Text Recognition 기능은 Machine Leaning 기법으로 학습된 Model을 이용하게 되는데 최근에는 대부분 Deep Learning을 활용한 학습 Model을 이용하고 있습니다. Deep Learning을 이용한 Model 학습을 위해서는 다량의 학습 데이터 셋을 필요로 하게 됩니다. 학습 데이터는 대상 이미지와 이미지 내 문자열들의 위치 그리고 정답 문자열 정보를 포함하고 있습니다.

 

지마켓 OCR 기술 개발 및 활용

지마켓 OCR 기술은 단순 기술 연구 개발에 그치지 않고 실질적으로 서비스에 사용 가능한 기반 기능을 제공한다는 목표로 2019년부터 연구를 시작하여 2020년 Model 학습 및 서비스 API 개발이 완료되었습니다. 지마켓 OCR Model은 당시 공개된 최신 Model과 다량의 공개 학습 데이터 셋을 이용하여 1차 학습 한 이후, 이커머스 도메인 데이터를 자체 구축하여 높은 성능을 내도록 개발하였습니다.

개발된 OCR 기술은 현재 “직거래 사기 의심 상품 자동 탐지”와 “시각 장애인 서비스 접근성 개선”을 위한 핵심 기능으로 활용되고 있습니다.


직거래 사기 의심 상품 자동 탐지

“직거래 사기 의심 상품 자동 탐지” 기능은 인기 제품의 재고 부족 및 가격 할인을 미끼로 고객과 직거래를 유도하여 상품 대금을 계좌로 직접 입금하도록 한 뒤 잠적하는 사기 수법으로 상품 상세 페이지 내 이미지를 이용하기 때문에, 수많은 상품 상세 이미지 모두를 일일이 직접 확인할 수 없어 탐지와 예방이 어려운 상황이었습니다. 다행히도 개발된 OCR 기술을 이용하여 상품 상세 이미지 내 의심 문구를 추출하여 빠르게 사기 예방 작업이 이루어질 수 있도록 하였습니다.


시각 장애인 서비스 접근성 개선

“시각 장애인 서비스 접근성 개선” 작업은 시각 장애인 고객이 우리 서비스를 이용하지 못하는 불편함을 개선하기 위한 기능 개선 작업으로, 대부분 이미지로 제공되고 있는 상품 상세 정보를 시각 장애인 고객이 TTS (Text To Speech) 기능을 이용하여 접근할 수 있도록,
이미지 내 텍스트를 OCR API로 추출하고 음성으로 들을 수 있도록 하였습니다. 이때 추출된 텍스트가 최대한 자연스러운 문장에 가깝게 구조화하여 고객의 정보 접근성 개선이라는 기능 제공 목표에 더욱 부합하도록 추가 기능을 개발하였습니다.

 

지마켓 OCR 기술 내재화의 의의

만약 OCR 기술을 가지고 있지 않았 다면 상용 라이브러리를 사용하거나 외부 API를 이용하게 되고 이때 상당히 많은 비용이 발생할 수 있습니다. 

 그러나 OCR 기술 내재화 결과 OCR 기술을 사용하기 위해 지불해야 하는 고가의 외부 API 서비스 비용을 상당 부분 절감하는데 기여하였습니다.

그뿐만 아니라 우리 서비스를 더 좋게 하기 위한 기능에 OCR을 활용할 때, 외부 기술을 이용할 때는 제공되지 않는 부가 기능을 쉽게 추가할 수 있다는 점에서 OCR 기술을 자체보유했을 때의 유용성을 알 수 있습니다.

앞으로도 OCR 이용하여 비용 절감 기능 개선에 도움이 되는 여러 분야를 발굴하여 적용되도록 하겠습니다.

'AI' 카테고리의 다른 글

Gmarket의 유사이미지 추천 기능 파헤치기  (0) 2022.11.23
댓글