반응형

@22-이미지에서 한글 추출하기

 

1. OCR (Optical Character Recognition - 광학 문자 인식) 프로그램을 설치한다.

2. 이 프로그램을 사용해 이미지에서 한글을 추출한다.

3. 사용 가능한 언어 확인 (이거 다운받느라 너무 오래걸린다. 안해도 될 것 같은데...)

4. 변환된 언어를 파일로 저장하는 코드 (이런거는 외울 수 있게 반복하는 것도 좋을 듯)

 


1. OCR - 광학 문자 인식 프로그램 설치하기 (UB 민하임 대학)

- https://github.com/UB-Mannheim/tesseract/wiki

 

GitHub - UB-Mannheim/tesseract: Tesseract Open Source OCR Engine (main repository)

Tesseract Open Source OCR Engine (main repository) - GitHub - UB-Mannheim/tesseract: Tesseract Open Source OCR Engine (main repository)

github.com

- 2022. 4. 23 일 현재 최신버전으로 설치

 - 다운로드도 오래걸리고

 - 추가 언어 설치하는데 오래걸린다. 

 -> 추가 언어에서 한글 외 몇가지만 체크하고 설치하자

 

 


2. 이미지에서 한글 추출

- 한글이 들어가 있는 이미지 추출

- 코드

#OCR : Optical Character Recognition (광학 문자 인식)
from PIL import Image
import pytesseract
import os

img_path = './testImg.png'

pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
text  = pytesseract.image_to_string(Image.open(img_path)), lang='kor')

print(text)

결과.

잘 안됨... 다른 이미지로 다시 해보자. 다음에


3. 사용 가능한 언어팩 표시

# 사용 가능한 언어 출력
langs = pytesseract.get_languages(config='')
print(langs)

결과.

설치시 선택한 몇가지만 나옴(그래도 많음)

 


4. 추출한 한글 파일로 저장하기

# 추출한 한글 파일로 저장
with open ('./recogKOR.txt', 'w', encoding='utf8') as f:
    f.write(text)

결과.

인식은 안되지만 저장은 잘됨


시간이 없어서..

나중에 추가로 해 보자.

설치에 너무 시간을 쏟았네

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기