일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- CSS
- Python
- exceljs
- nft
- 배포
- netfunnel
- 블록체인
- NextJS
- chatGPT
- huggingface
- node
- React
- AWS
- polygon
- threejs
- 회고
- Ai
- Remix
- docker
- WSL
- metamask
- Laravel
- PM2
- Kaikas
- 오블완
- nginx
- jquery
- miniconda
- 라라벨
- 티스토리챌린지
- Today
- Total
목록pdf (2)
박주니 개발 정리

원본 PDF 분석시 주의사항1. Google Cloud Vision을 사용하는 이유PDF는 이미지로 되어있기 때문에 이미지내 텍스트를 추출하는 방식으로 접근해야합니다. 그런데 이때 화질에 따라서 텍스트가 깨져서 나올 수 있기 때문에 Tesseract OCR 무료 라이브러리 적용해도 제대로 추출이 안될 수 있기 때문에 Google Cloud Vsion을 사용해서 이미지내 텍스트 추출을 진행했습니다. 2. Google Cloud Storage를 사용하는 이유 Google Cloud Vision을 이용시 Storage를 사용 안할 때에는 이미지 url 하나에서 텍스트 추출할 때이고 그 외에 보통 PDF는 한장이 아니라 여러장을 분석해야하기 때문에 Google Cloud Storage내 저장 후 가져오는 방식..
https://www.youtube.com/watch?v=WYzFzZg4YZI 설명 전) 제가 이 영상을 참고로 만들었는데 지금 이렇게 따로 정리하게 된 이유는 영상에 나온대로 만들 때 변경된 부분도 있어서 공유하고자 올리게되었습니다. 현재 python으로 하고 있는 것이다보니 중간에 변경된 부분도 있을 수 있으니 참고 부탁드립니다. 수정할 부분) from langchain import FAISS ▶from langchain_community.vectorstores.faiss import FAISS python - Cannot import langchain.vectorstores.FAISS, only langchain_community.vectorstores.faiss - Stack Overflow Ca..