박주니 개발 정리

PDF 이미지 분석 AI 구조화 요약 프로세스 본문

회고

PDF 이미지 분석 AI 구조화 요약 프로세스

박주니 2025. 2. 25. 15:50
반응형

원본 PDF 분석시 주의사항

1. Google Cloud Vision을 사용하는 이유

PDF는 이미지로 되어있기 때문에 이미지내 텍스트를 추출하는 방식으로 접근해야합니다. 

그런데 이때 화질에 따라서 텍스트가 깨져서 나올 수 있기 때문에 Tesseract OCR 무료 라이브러리 적용해도 제대로 추출이 안될 수 있기 때문에 Google Cloud Vsion을 사용해서 이미지내 텍스트 추출을 진행했습니다. 

 

2. Google Cloud Storage를 사용하는 이유 

Google Cloud Vision을 이용시 Storage를 사용 안할 때에는 이미지 url 하나에서 텍스트 추출할 때이고 그 외에 보통 PDF는 한장이 아니라 여러장을 분석해야하기 때문에 Google Cloud Storage내 저장 후 가져오는 방식은 세트라고 보시면 

됩니다. 

 

3. 가공을  해야하는 이유 

Google Cloud Vision을 활용해서 이미지내 텍스트를 추출을 하고 병합을 했을때 다른 특수기호 및 불필요한 내용 및 중복된 내용들이 있어서 요약을 진행할 때 논리적인 방향에서 어긋날 수 있습니다. 그렇기 때문에 병합한 이후에 특수기호 및 필요한 문구 제거하고 추가적으로 더 가공할 부분을 예외처리로 진행하는 것을 추천합니다. 

 

4. AI 구조화 요약 A4 5장이상 진행한다고 가정할 때 openai o3-mini model로 적용한 이유

A4용지 5장이상이라고 했을때 A4용지 한장에 1400~1500자이내라고 가정했을때 7500자이상을 요약을 해야합니다.

이때 gpt 4o model은 한번에 출력 토큰은 4096~8192이기 때문에 A4 1.5~3장정도인데 실제로 해봤을때는 2장이내가 

최선이였습니다. 만약에 gpt 4o model로 어떻게든 여러장 요약을 진행하고자 한다면 상중하로  3번 분할해서 요청을 해야하는데 그말은 즉 3번에 api 요청을 진행하는 것을 의미합니다. 차라리 o3-mini model로 한번에 출력하는 것이 효율적입니다. 

 

느낀점

성능을 생각하면 지금 이 프로세스처럼 Google Cloud + Openai Model (o3-mini)인데 서비스를 제공하는 입장에서 PDF를여러개 요청할 때마다 Google Vision 및 Storage api 요청을 여러번 해야하기 때문에 그것도 다 과금이고 openai model도 3.5-turbo면 그나마 가성비있게 할 수 있지만 그 이상에 모델을 사용하게 되면 요청할 때마다 몇번 사용하지 않았는데도 금방 1달러가 넘어가기 때문에 이정도 프로세스를  꼭 진행해야한다면 그이상의 수익을 생길 수 있는 서비스가 있어야한다는

것을 느꼈습니다. 사실 과금 생각 안하고 퀄리티만 생각하면 못만들건 전혀 없지만 그런 접근이면 대형 플랫폼을 절대 이길 수 없기에 최대한 과금을 덜하면서 퀄리티를 높이기 위해 연구를 해야겠다는 생각이 들었습니다. 

반응형
Comments