PDF 이미지 분석 AI 구조화 요약 프로세스

Notice

Recent Posts

Recent Comments

Link

250x250

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

박주니 개발 정리

PDF 이미지 분석 AI 구조화 요약 프로세스 본문

회고

PDF 이미지 분석 AI 구조화 요약 프로세스

박주니 2025. 2. 25. 15:50

728x90

원본 PDF 분석시 주의사항

1. Google Cloud Vision을 사용하는 이유

PDF는 이미지로 되어있기 때문에 이미지내 텍스트를 추출하는 방식으로 접근해야합니다.

그런데 이때 화질에 따라서 텍스트가 깨져서 나올 수 있기 때문에 Tesseract OCR 무료 라이브러리 적용해도 제대로 추출이 안될 수 있기 때문에 Google Cloud Vsion을 사용해서 이미지내 텍스트 추출을 진행했습니다.

2. Google Cloud Storage를 사용하는 이유

Google Cloud Vision을 이용시 Storage를 사용 안할 때에는 이미지 url 하나에서 텍스트 추출할 때이고 그 외에 보통 PDF는 한장이 아니라 여러장을 분석해야하기 때문에 Google Cloud Storage내 저장 후 가져오는 방식은 세트라고 보시면

됩니다.

3. 가공을 해야하는 이유

Google Cloud Vision을 활용해서 이미지내 텍스트를 추출을 하고 병합을 했을때 다른 특수기호 및 불필요한 내용 및 중복된 내용들이 있어서 요약을 진행할 때 논리적인 방향에서 어긋날 수 있습니다. 그렇기 때문에 병합한 이후에 특수기호 및 필요한 문구 제거하고 추가적으로 더 가공할 부분을 예외처리로 진행하는 것을 추천합니다.

4. AI 구조화 요약 A4 5장이상 진행한다고 가정할 때 openai o3-mini model로 적용한 이유

A4용지 5장이상이라고 했을때 A4용지 한장에 1400~1500자이내라고 가정했을때 7500자이상을 요약을 해야합니다.

이때 gpt 4o model은 한번에 출력 토큰은 4096~8192이기 때문에 A4 1.5~3장정도인데 실제로 해봤을때는 2장이내가

최선이였습니다. 만약에 gpt 4o model로 어떻게든 여러장 요약을 진행하고자 한다면 상중하로 3번 분할해서 요청을 해야하는데 그말은 즉 3번에 api 요청을 진행하는 것을 의미합니다. 차라리 o3-mini model로 한번에 출력하는 것이 효율적입니다.

느낀점

성능을 생각하면 지금 이 프로세스처럼 Google Cloud + Openai Model (o3-mini)인데 서비스를 제공하는 입장에서 PDF를여러개 요청할 때마다 Google Vision 및 Storage api 요청을 여러번 해야하기 때문에 그것도 다 과금이고 openai model도 3.5-turbo면 그나마 가성비있게 할 수 있지만 그 이상에 모델을 사용하게 되면 요청할 때마다 몇번 사용하지 않았는데도 금방 1달러가 넘어가기 때문에 이정도 프로세스를 꼭 진행해야한다면 그이상의 수익을 생길 수 있는 서비스가 있어야한다는

것을 느꼈습니다. 사실 과금 생각 안하고 퀄리티만 생각하면 못만들건 전혀 없지만 그런 접근이면 대형 플랫폼을 절대 이길 수 없기에 최대한 과금을 덜하면서 퀄리티를 높이기 위해 연구를 해야겠다는 생각이 들었습니다.