diff --git a/journey/README.md b/journey/README.md index f27f0de..b835dbf 100644 --- a/journey/README.md +++ b/journey/README.md @@ -49,3 +49,4 @@ - [24서버 실서비스 운영전환 리서치](./research/260309_24서버_실서비스운영전환_리서치.md) - [51123 구 IP 하드코딩 실행 경로 제거 계획](./plans/260309_51123_구IP하드코딩_실행경로제거_계획.md) - [24서버 실서비스 운영전환 계획](./plans/260309_24서버_실서비스운영전환_계획.md) +- [24서버 ONNX 모델 NAS 백업 정리](./worklog/260309_24서버_onnx모델_nas백업_정리.md) diff --git a/journey/worklog/260309_24서버_onnx모델_nas백업_정리.md b/journey/worklog/260309_24서버_onnx모델_nas백업_정리.md new file mode 100644 index 0000000..2aabe4b --- /dev/null +++ b/journey/worklog/260309_24서버_onnx모델_nas백업_정리.md @@ -0,0 +1,45 @@ +--- +tags: [infra, 24-server, onnx, models, nas, backup, worklog] +--- + +# 260309 24서버 ONNX 모델 NAS 백업 정리 + +## 상위 원칙 +- [Writing Principles](https://github.com/happybell80/0_VALUE/blob/main/02_Governance/writing-principles.md) +- [Global Principles](https://github.com/happybell80/0_VALUE/blob/main/00_Principles/global-principles.md) + +## 배경 +- `skill-embedding`의 ONNX 모델은 Git/Gitea에 올리기 어려운 대용량 파일이다. +- 실행용 모델은 24 서버 로컬에 두고, NAS에는 백업본만 두는 운영 경계가 필요했다. + +## Facts +- 현재 모델 원본은 `/home/admin/robeing/onnx_models`에 존재한다. +- 실측 크기는 약 `7.3G`다. +- 현재 24 서버에는 `/mnt/nas` 실마운트가 확인되지 않아, 즉시 NAS 쓰기까지는 검증하지 못했다. + +## 조치 +1. `infra/scripts/bin/backup_onnx_models_to_nas.sh` 추가 +- 기본 원본 경로: `/home/admin/robeing/onnx_models` +- 기본 대상 경로: `/mnt/nas/backup/current/robeing-models/onnx_models` +- 메타 경로: `/mnt/nas/backup/current/robeing-models/_meta` +- 기본 정책: `rsync -a --delete` +- 옵션: `--dry-run` + +2. 스크립트 안전장치 추가 +- 원본 디렉터리 존재 확인 +- NAS 마운트 경로 존재 확인 +- `mountpoint -q /mnt/nas` 검증 +- 실제 실행 시 `model.onnx`, `tokenizer.json`에 대한 `sha256` 메타 파일 생성 + +3. 스크립트 문서 맵 반영 +- `infra/scripts/README.md`에 새 스크립트 링크 추가 + +## 검증 +- `bash -n infra/scripts/bin/backup_onnx_models_to_nas.sh` 통과 +- 로컬 검증용 임시 디렉터리 기준 `--dry-run` 실행 성공 +- 실제 NAS 대상 실행은 24 서버의 `/mnt/nas` 마운트 확인 후 수행해야 한다 + +## 운영 결론 +- ONNX 모델은 `24 서버 로컬`을 실행 원본으로 유지한다. +- NAS는 `실시간 실행 경로`가 아니라 `백업/복구 경로`로만 사용한다. +- 운영 플로우는 `로컬 모델 갱신 -> NAS rsync 백업 -> 장애 시 NAS에서 24 로컬로 복원`으로 고정한다.