docs(research): add external self-improving loop service patterns

2026-03-03 18:58:29 +09:00 · 2026-03-03 18:58:29 +09:00 · 348593065e
commit 348593065e
parent 19a6995b2c
1 changed files with 29 additions and 0 deletions
--- a/journey/research/260303_자기개선루프_DB_서비스_구현_리서치.md
+++ b/journey/research/260303_자기개선루프_DB_서비스_구현_리서치.md
@ -9,6 +9,35 @@
 2. `robeing-monitor`는 상태/로그를 저장하지만 설정 테이블(`robeing_settings`)이 미구현(TODO)이라 정책 버전 관리 계층이 비어 있다.
 3. `robeing-gateway`는 모니터 서비스 프록시 경로가 있어 루프 지표를 프론트에 노출하기 좋은 진입점을 이미 보유한다.

+## 외부 서비스에서의 자기개선 루프 패턴
+
+### OpenAI (Evals 중심)
+- 핵심 패턴: `로그 수집 -> task-specific eval -> human calibration -> continuous eval`
+- 포인트:
+  - 정량 점수만 보지 않고 인간 평가와 결합
+  - 변경마다 지속 평가(CE)로 데이터셋을 확장
+- 참고:
+  - [Evaluation best practices](https://platform.openai.com/docs/guides/evaluation-best-practices)
+  - [Model optimization](https://platform.openai.com/docs/guides/model-optimization)
+
+### LangSmith (운영 리뷰 큐 중심)
+- 핵심 패턴: `실행 트레이스 -> annotation queue -> human/LLM/heuristic 평가 -> 개선 반영`
+- 포인트:
+  - 런(run) 단위 리뷰 할당
+  - 품질 피드백을 워크플로 단계별로 붙여 운영
+- 참고:
+  - [LangSmith Evaluation](https://www.langchain.com/langsmith/evaluation)
+
+### Arize Phoenix (관측/평가 일체형)
+- 핵심 패턴: `OTEL 추적 -> LLM-as-judge eval -> human feedback 결합 -> dataset 실험`
+- 포인트:
+  - 오픈소스/벤더 중립형 관측
+  - 평가 템플릿 + 커스텀 평가자 + 설명 가능한 평가 로그
+- 참고:
+  - [Phoenix Home](https://phoenix.arize.com/)
+  - [Phoenix Evals Overview](https://arize.com/docs/phoenix/evaluation/llm-evals)
+  - [Custom Eval Guide](https://arize.com/docs/phoenix/cookbook/evaluation/creating-a-custom-llm-evaluator-with-a-benchmark-dataset)
+
 ## robeing-monitor 존재 여부
 - 로컬 워크스페이스에서 `ivada/robeing-monitor` 폴더 존재 확인 완료
 - 상태: 이미 존재함(추가 clone 불필요)