From 348593065ea29d155e0f13ca12c47c8dd07b175d Mon Sep 17 00:00:00 2001 From: happybell80 Date: Tue, 3 Mar 2026 18:58:29 +0900 Subject: [PATCH] docs(research): add external self-improving loop service patterns --- ...선루프_DB_서비스_구현_리서치.md | 29 +++++++++++++++++++ 1 file changed, 29 insertions(+) diff --git a/journey/research/260303_자기개선루프_DB_서비스_구현_리서치.md b/journey/research/260303_자기개선루프_DB_서비스_구현_리서치.md index db5a4f0..8f64824 100644 --- a/journey/research/260303_자기개선루프_DB_서비스_구현_리서치.md +++ b/journey/research/260303_자기개선루프_DB_서비스_구현_리서치.md @@ -9,6 +9,35 @@ 2. `robeing-monitor`는 상태/로그를 저장하지만 설정 테이블(`robeing_settings`)이 미구현(TODO)이라 정책 버전 관리 계층이 비어 있다. 3. `robeing-gateway`는 모니터 서비스 프록시 경로가 있어 루프 지표를 프론트에 노출하기 좋은 진입점을 이미 보유한다. +## 외부 서비스에서의 자기개선 루프 패턴 + +### OpenAI (Evals 중심) +- 핵심 패턴: `로그 수집 -> task-specific eval -> human calibration -> continuous eval` +- 포인트: + - 정량 점수만 보지 않고 인간 평가와 결합 + - 변경마다 지속 평가(CE)로 데이터셋을 확장 +- 참고: + - [Evaluation best practices](https://platform.openai.com/docs/guides/evaluation-best-practices) + - [Model optimization](https://platform.openai.com/docs/guides/model-optimization) + +### LangSmith (운영 리뷰 큐 중심) +- 핵심 패턴: `실행 트레이스 -> annotation queue -> human/LLM/heuristic 평가 -> 개선 반영` +- 포인트: + - 런(run) 단위 리뷰 할당 + - 품질 피드백을 워크플로 단계별로 붙여 운영 +- 참고: + - [LangSmith Evaluation](https://www.langchain.com/langsmith/evaluation) + +### Arize Phoenix (관측/평가 일체형) +- 핵심 패턴: `OTEL 추적 -> LLM-as-judge eval -> human feedback 결합 -> dataset 실험` +- 포인트: + - 오픈소스/벤더 중립형 관측 + - 평가 템플릿 + 커스텀 평가자 + 설명 가능한 평가 로그 +- 참고: + - [Phoenix Home](https://phoenix.arize.com/) + - [Phoenix Evals Overview](https://arize.com/docs/phoenix/evaluation/llm-evals) + - [Custom Eval Guide](https://arize.com/docs/phoenix/cookbook/evaluation/creating-a-custom-llm-evaluator-with-a-benchmark-dataset) + ## robeing-monitor 존재 여부 - 로컬 워크스페이스에서 `ivada/robeing-monitor` 폴더 존재 확인 완료 - 상태: 이미 존재함(추가 clone 불필요)