From cdc61f01c4cb0791ec8f00091e02ce16a7a1b1c2 Mon Sep 17 00:00:00 2001 From: happybell80 Date: Wed, 17 Sep 2025 02:06:16 +0900 Subject: [PATCH] =?UTF-8?q?docs:=20skill-rag-file=20=ED=8C=8C=EC=9D=BC=20?= =?UTF-8?q?=EC=B2=98=EB=A6=AC=20=EC=8B=A4=ED=8C=A8=20=EB=AC=B8=EC=A0=9C=20?= =?UTF-8?q?=EA=B8=B0=EB=A1=9D?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit - 파일명 길이 초과 문제 (한글 URL 인코딩) - 파일 형식 미지원 (JPG, HWP) - 중복 파일 처리 오류 --- ...ll80_skill-rag-file_파일처리_실패.md | 46 +++++++++++++++++++ 1 file changed, 46 insertions(+) create mode 100644 troubleshooting/250917_happybell80_skill-rag-file_파일처리_실패.md diff --git a/troubleshooting/250917_happybell80_skill-rag-file_파일처리_실패.md b/troubleshooting/250917_happybell80_skill-rag-file_파일처리_실패.md new file mode 100644 index 0000000..348c89b --- /dev/null +++ b/troubleshooting/250917_happybell80_skill-rag-file_파일처리_실패.md @@ -0,0 +1,46 @@ +# skill-rag-file 파일 처리 실패 문제 + +## 배경 +- **날짜**: 2025-09-17 +- **작성자**: happybell80 +- **문제**: 10개 파일 중 4개만 정상 처리 + +## 문제 상황 + +### 처리 결과 (01:44-01:57) +- ✅ 성공 (4개): MD, CSV, 일부 PDF +- ❌ 실패 (6개): HWP, JPG, 긴 파일명 PDF + +### 주요 오류 + +1. **파일명 길이 초과** + - 파일: "지능형 시스템의 장기 기억 관리.pdf" + - 원본: 97바이트 → URL 인코딩: 283바이트 + - 제한: 255바이트 (ext4 파일시스템) + - 코드: `storage_path = f"{file_hash}_{file.filename}"` + +2. **파일 형식 미지원** + - JPG: "File type .jpg not supported" + - HWP: 처리되지만 빈 응답 + +3. **중복 파일** + - UniqueViolationError + - file_hash 중복 체크 + +## 원인 분석 + +- **파일명**: URL 인코딩으로 한글 파일명 3배 증가 +- **DB 스키마**: `filename = Column(String(255))` +- **저장 경로**: 해시+원본명으로 더 길어짐 + +## 해결 방안 + +1. 파일 저장시 해시명만 사용 +2. 원본 파일명은 DB에만 저장 +3. 이미지 파일 처리 로직 추가 +4. HWP → 텍스트 변환 라이브러리 필요 + +## 교훈 +- 파일시스템 제한 고려 필수 +- 한글 파일명 URL 인코딩 영향 검토 +- 다양한 파일 형식 테스트 필요 \ No newline at end of file