docs(research): add external self-improving loop service patterns
This commit is contained in:
parent
19a6995b2c
commit
348593065e
@ -9,6 +9,35 @@
|
||||
2. `robeing-monitor`는 상태/로그를 저장하지만 설정 테이블(`robeing_settings`)이 미구현(TODO)이라 정책 버전 관리 계층이 비어 있다.
|
||||
3. `robeing-gateway`는 모니터 서비스 프록시 경로가 있어 루프 지표를 프론트에 노출하기 좋은 진입점을 이미 보유한다.
|
||||
|
||||
## 외부 서비스에서의 자기개선 루프 패턴
|
||||
|
||||
### OpenAI (Evals 중심)
|
||||
- 핵심 패턴: `로그 수집 -> task-specific eval -> human calibration -> continuous eval`
|
||||
- 포인트:
|
||||
- 정량 점수만 보지 않고 인간 평가와 결합
|
||||
- 변경마다 지속 평가(CE)로 데이터셋을 확장
|
||||
- 참고:
|
||||
- [Evaluation best practices](https://platform.openai.com/docs/guides/evaluation-best-practices)
|
||||
- [Model optimization](https://platform.openai.com/docs/guides/model-optimization)
|
||||
|
||||
### LangSmith (운영 리뷰 큐 중심)
|
||||
- 핵심 패턴: `실행 트레이스 -> annotation queue -> human/LLM/heuristic 평가 -> 개선 반영`
|
||||
- 포인트:
|
||||
- 런(run) 단위 리뷰 할당
|
||||
- 품질 피드백을 워크플로 단계별로 붙여 운영
|
||||
- 참고:
|
||||
- [LangSmith Evaluation](https://www.langchain.com/langsmith/evaluation)
|
||||
|
||||
### Arize Phoenix (관측/평가 일체형)
|
||||
- 핵심 패턴: `OTEL 추적 -> LLM-as-judge eval -> human feedback 결합 -> dataset 실험`
|
||||
- 포인트:
|
||||
- 오픈소스/벤더 중립형 관측
|
||||
- 평가 템플릿 + 커스텀 평가자 + 설명 가능한 평가 로그
|
||||
- 참고:
|
||||
- [Phoenix Home](https://phoenix.arize.com/)
|
||||
- [Phoenix Evals Overview](https://arize.com/docs/phoenix/evaluation/llm-evals)
|
||||
- [Custom Eval Guide](https://arize.com/docs/phoenix/cookbook/evaluation/creating-a-custom-llm-evaluator-with-a-benchmark-dataset)
|
||||
|
||||
## robeing-monitor 존재 여부
|
||||
- 로컬 워크스페이스에서 `ivada/robeing-monitor` 폴더 존재 확인 완료
|
||||
- 상태: 이미 존재함(추가 clone 불필요)
|
||||
|
||||
Loading…
x
Reference in New Issue
Block a user