@22-이미지에서 한글 추출하기
1. OCR (Optical Character Recognition - 광학 문자 인식) 프로그램을 설치한다.
2. 이 프로그램을 사용해 이미지에서 한글을 추출한다.
3. 사용 가능한 언어 확인 (이거 다운받느라 너무 오래걸린다. 안해도 될 것 같은데...)
4. 변환된 언어를 파일로 저장하는 코드 (이런거는 외울 수 있게 반복하는 것도 좋을 듯)
1. OCR - 광학 문자 인식 프로그램 설치하기 (UB 민하임 대학)
- https://github.com/UB-Mannheim/tesseract/wiki
GitHub - UB-Mannheim/tesseract: Tesseract Open Source OCR Engine (main repository)
Tesseract Open Source OCR Engine (main repository) - GitHub - UB-Mannheim/tesseract: Tesseract Open Source OCR Engine (main repository)
github.com
- 2022. 4. 23 일 현재 최신버전으로 설치
- 다운로드도 오래걸리고
- 추가 언어 설치하는데 오래걸린다.
-> 추가 언어에서 한글 외 몇가지만 체크하고 설치하자
2. 이미지에서 한글 추출
- 한글이 들어가 있는 이미지 추출
- 코드
#OCR : Optical Character Recognition (광학 문자 인식)
from PIL import Image
import pytesseract
import os
img_path = './testImg.png'
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
text = pytesseract.image_to_string(Image.open(img_path)), lang='kor')
print(text)
결과.
잘 안됨... 다른 이미지로 다시 해보자. 다음에
3. 사용 가능한 언어팩 표시
# 사용 가능한 언어 출력
langs = pytesseract.get_languages(config='')
print(langs)
결과.
설치시 선택한 몇가지만 나옴(그래도 많음)
4. 추출한 한글 파일로 저장하기
# 추출한 한글 파일로 저장
with open ('./recogKOR.txt', 'w', encoding='utf8') as f:
f.write(text)
결과.
인식은 안되지만 저장은 잘됨
시간이 없어서..
나중에 추가로 해 보자.
설치에 너무 시간을 쏟았네
최근댓글