Naver Cloud Platform

Naver Cloud Platform Clova OCR 사용 ( 이미지 -> 텍스트 추출 )

앙뚱이 2023. 7. 17. 15:12

OCR을 한번 사용해보려고 합니다.

가끔 각종 데이터가 적힌 문서를 PDF로 받는데 Excel로 옮겨적어 관리해야할 때가 있는데 너무 귀찮아...

그래서 OCR을 이용해 TEXT를 추출하여 엑셀로 옮겨적으려고 합니다.

 

 

 

일단 NCP Clova OCR을 간단하게 살펴보자면..

- 각종 포맷의 파일을 Import하면 텍스트를 탐지하는건데

- 템플릿을 지정할 수 있어 한번만 지정하면 동일한 형식의 파일에서 같은 방식으로 텍스트 추출이 가능하고 

- 그리고 템플릿을 지정안해도 import된 파일을 자동으로 유사도를 비교하여 Clova OCR에서 템플릿 자동 지정이 가능합니다.

- 신분증, PDF 파일, 수기 계약서, 등등등... 다양한 범위에서 활용할 수 있는 서비스입니다.

출처 : www.ncloud.com

 

 

 

제 시나리오는 아래와 같고

시나리오

 

1. 도메인 생성

- 일단 첫번쨰 스탭으로 도메인을 만듭니다. 빨간 네모칸을 클릭해주면 돼요.

 

 

 

2. 도메인 설정

- 도메인명 / 도메인 코드를 원하는 값으로 지정합니다.

- 지원 언어는 총 3개 국어 선택이 가능한데 저는 한국어로

- 서비스 타입은 템플릿으로 선택합니다. ( 일반은 선택이 안되네요 시간날때 문의 해봐야겠네요 )

- 인식모델은 BASIC을 선택합니다. PREMIUM은 더 높은 이미지 인식률을 제공한다고 하네요.

- 서비스 플랜은 FREE를 사용합니다. ( 테스트로 하기엔 FREE 제외하면 요금이 다 후덜덜해서;; )

 

 

 

3. 템플릿 빌더 접속

- 빨간 네모칸을 클릭하면 도메인 접속이 가능합니다.

 

 

 

4. 템플릿 생성

- 도메인 접속 후 빨간 네모칸을 클릭합니다.

 

 

 

5. 템플릿 설정

- 템플릿에 대한 이름을 정해주고

- 샘플명을 선택해주고 샘플 사진을 업로드 해줍니다.

- 빨간색 점선이 필드를 선택하는 부분인데 처음 필드는 템플릿 대표명을 지정해주면 돼요 별 의미는 없는 것 같아요. 저는 승인금액을 클릭했어요.

- 오른쪽 빨강색 실선에서 필드를 추가할 수 있구요. 텍스트 추출이 필요한 금액 리스트를 필드로 전부 선택을 하였습니다.

 

 

 

6. 테스트 설정

- 템플릿 판독을 클릭하고 판독할 파일을 업로드합니다. 업로드 시에는 위에서 생성한 템플릿 지정해주도록 합니다.

- 테스트 결과는 json 형태 엑셀형태 둘다 받아볼 수 있으나 가독성은 좀 떨어지므로 비즈니스적으로 사용할거라면 파싱하여 필요한 데이터만 딱딱 잘 보이도록 코딩하는 것도 괜찮을 것 같습니다. 

 

 

 

7. 테스트 결과

- 오른쪽 아래와 같이 텍스트가 추출되어 보여집니다.

- 물론 지금 테스트가 항목이나 텍스트가 몇개 안돼서 좀 비효율적으로 보일 순 있지만 많을땐 굉장히 시간절약이 됩니다. 게다가 free는 한달에 300개 무료기 때문에 그냥 개인적으로 쓰는건 굉장히 좋습니다.

- 저 같은 경우는 저거 드래그 복사해서 엑셀에 붙여넣습니다.

 

 

8. 결론

- free 버전를 사용했음에도 텍스트 인식율이 상당하다. 하지만 좀 화질이 안좋거나 글씨가 깨끗하지 않을 경우 좀 오차율이 있다. 그래서 비즈니스적으로는 Premium 버전을 쓰면 나아질 것 같다.

- 신분증이나 이런건 Free 버전도 잘 인식할 것 같다.

- free 버전 외에는 신청만으로 거의 한달 사용료가 100만원에 내외기 때문에 너무 비싸 테스트를 못하는 게 아쉽긴 하다.