OCR중 문제 발견

python simplified_ocr_processor.py –start 21 –end 30

로 OCR해가면서 가고 있는데

아래 사진을 OCR하면 다음과 같이 산출되는 문제가 발생했다.

image-20250328124421112

청년 
취업지원 - 
고용안정 및 
취업 취약계층 
01 
사업 
청년미래플러스 고용24(www.work24.go.kr) 
02 
044-202-7499), 
청년고용기획과(R 
2 고용노동부 03 
성장까지 
| 
사업 목적 취업지원 및 재직 청년의 산업 내 
04 
협업하여 구직 청년의 
I 
● 산업계와 지원 
청년고용 술 주기 
05 
사업내용 
청년 
06 
15세~34세 
(지원대상) 등 
| 
● 멘토링 
컨설팅, 직무교육, 
(지원내용) 실무중심의 
07 
● 산업특화 제공 
취업지원) 프로그램 
(구직청년: 취업지원 
| 
산업 특성에 따라 매칭 유연한 등 취업까지 연계 청년 대상 맞춤형 OJT, 멘토링, 
08 
구인기업 재직 
→ 중소·중견기업 
성장지원) 
L 
(재직청년: 지원 → 산업 내 성장 지원 
경력설계를 
09 
등 사업주단체 
운영기관 상공회의소 
내외 산업단지협의회, 
| 
5개 
(지원규모) 인적자원개발위원회(ISC), 
10 
* 산업별 협회, 산업별 관련 기관 
(산업 특정) 등 산업계 
(지원내용) 운영비, 인건비, 운영비 등 
| 11 | 
프로그램 
- 운영기관 
12 
평가 
사업추진체계 성과 
I 
프로그램 운영 → (본부) 
체결 → (운영기관) 
13 
사업 공고 및 → (본부운영기관) 약정 
운영기관 선정 
(본부) 3 

우측에 있는 저 숫자들이 다 인식되어버려서 값들이 더럽게 산출된다.

해결방법을 곰곰이 생각해봤는데

  1. 먼저 이미지에서 오른쪽 페이지 번호 부분을 잘라서 전처리
  2. OCR 후에도 정규식으로 남아있는 숫자 후처리

두 가지 방법을 적용해서 이 문제를 해결할 수 있을것 같았다.

한 왼쪽에서부터 85%정도를 잘라서 전처리해보니까

image-20250330010036856


약간 글자들이 더 잘린다. 그래서 90%로 수정하고 다시 산출하니까

image-20250330010118185

내가 원하는데까지 딱 잘렸다.

취업 취약계층 고용안정 및 취업지원 - 청년 
4 청년성장프로젝트 
고용노동부 청년취업지원과( 044-202-7715, 7450), 고용24(www.work24.go.kr) 
사업목적 
● 고용노동부· 자치단체가 협업하여 미취업 청년 등에게 청년친화적 인프라 및 
맞춤형 프로그램을 제공하여 쉬었음 전환 예방 
사업내용 
● (지원대상) 15세 이상 ~ 34세 이하 청년 
* 해당 기준에 포함되지 않더라도 지자체 조례 등에서 지원의 필요성이 있다고 인정하는 경우 
에는 자치단체별 목표인원의 30%까지 참여 가능 
지원내용 
- 청년 누구나 이용할 수 있는 '청년카페' 운영을 통해 
미취업 청년 등의 일상유지 및 구직활동을 지원하는 지역사회 중심의 맞춤형 
프로그램을 제공하고, 청년고용정책 안내·홍보 
1 (인프라 제공) 청년 1:1상담 등에 필요한 청년 친화적 공간 및 시설 등 인프라 제공 
2 (프로그램 제공) 초기상담을 통해 개인 맞춤형 프로그램 설계· 제안, ▲ 지역 청년의 
일자리 상황 및 정주여건 등에 부합하는 다양한 프로그램 개설·제공 
3 (후속지원) 관련 청년고용정책을 촘촘히 연계 지원하고, 참여자 취업상태 등 관리 
* 청년일경험지원, 청년도전지원사업, 국민취업지원제도, 국민내일배움카드(직업훈련) 등 
(지원규모) 50,000명 
5 

텍스트도 확인해보니 더러운 값 없이 잘 나옴을 확인할 수 있었다.

후처리할려했는데 굳이 할필요 없을듯!