docs: skill-rag-file 파일 처리 실패 문제 기록
- 파일명 길이 초과 문제 (한글 URL 인코딩) - 파일 형식 미지원 (JPG, HWP) - 중복 파일 처리 오류
This commit is contained in:
parent
c444485896
commit
cdc61f01c4
46
troubleshooting/250917_happybell80_skill-rag-file_파일처리_실패.md
Normal file
46
troubleshooting/250917_happybell80_skill-rag-file_파일처리_실패.md
Normal file
@ -0,0 +1,46 @@
|
||||
# skill-rag-file 파일 처리 실패 문제
|
||||
|
||||
## 배경
|
||||
- **날짜**: 2025-09-17
|
||||
- **작성자**: happybell80
|
||||
- **문제**: 10개 파일 중 4개만 정상 처리
|
||||
|
||||
## 문제 상황
|
||||
|
||||
### 처리 결과 (01:44-01:57)
|
||||
- ✅ 성공 (4개): MD, CSV, 일부 PDF
|
||||
- ❌ 실패 (6개): HWP, JPG, 긴 파일명 PDF
|
||||
|
||||
### 주요 오류
|
||||
|
||||
1. **파일명 길이 초과**
|
||||
- 파일: "지능형 시스템의 장기 기억 관리.pdf"
|
||||
- 원본: 97바이트 → URL 인코딩: 283바이트
|
||||
- 제한: 255바이트 (ext4 파일시스템)
|
||||
- 코드: `storage_path = f"{file_hash}_{file.filename}"`
|
||||
|
||||
2. **파일 형식 미지원**
|
||||
- JPG: "File type .jpg not supported"
|
||||
- HWP: 처리되지만 빈 응답
|
||||
|
||||
3. **중복 파일**
|
||||
- UniqueViolationError
|
||||
- file_hash 중복 체크
|
||||
|
||||
## 원인 분석
|
||||
|
||||
- **파일명**: URL 인코딩으로 한글 파일명 3배 증가
|
||||
- **DB 스키마**: `filename = Column(String(255))`
|
||||
- **저장 경로**: 해시+원본명으로 더 길어짐
|
||||
|
||||
## 해결 방안
|
||||
|
||||
1. 파일 저장시 해시명만 사용
|
||||
2. 원본 파일명은 DB에만 저장
|
||||
3. 이미지 파일 처리 로직 추가
|
||||
4. HWP → 텍스트 변환 라이브러리 필요
|
||||
|
||||
## 교훈
|
||||
- 파일시스템 제한 고려 필수
|
||||
- 한글 파일명 URL 인코딩 영향 검토
|
||||
- 다양한 파일 형식 테스트 필요
|
||||
Loading…
x
Reference in New Issue
Block a user