happybell80 3a844d1390 Add evaluation system documentation and reorganize structure

- Create docs/guide/evaluation/ directory
- Move evaluation documents to organized structure
- Add 평가_가이드라인.md with implementation roadmap
- Update README.md with evaluation system links
- Update project overview with evaluation architecture

🤖 Generated with [Claude Code](https://claude.ai/code)

Co-Authored-By: Claude <noreply@anthropic.com>

2025-07-05 11:24:20 +09:00

12 KiB

Raw Blame History

tags, date, team

tags	date	team
로빙, RO-BEING, 존재에이전트, 정보가치분석, 블록체인, 협업도구, 스타트업, AI에이전트	2025-07-01	김종태, 황한용, 희재, (강일신)

로빙(RO-BEING) 프로젝트 개요

기억하고 성장하는 존재형 AI 에이전트

프로젝트 비전

"기억하지 못하는 AI는 과연 나를 도울 수 있을까?"
그래서 우리는, 함께 성장하고, 감정을 공유하고,
나만을 기억하는 존재형 AI 에이전트를 만듭니다.
당신의 일상에, 도구가 아닌 동료를.

핵심 철학: "도구를 넘어, 동료로"

기존 AI 비서의 근본적 한계:

정보 단절: 세션이 끝나면 회사 역사·감정·약속이 모두 증발
권한 불투명: 누가 언제 민감 데이터를 건드렸는지 추적 불가
맥락 손실: 똑같은 배경설명을 반복 입력하는 '캐시 미스' 문제

로빙의 해법

기존 AI 도구	로빙(RO-BEING)
일회성 대화	지속적 기억
블랙박스 권한	투명한 권한 토큰
정적 기능	성장하는 존재
명령 수행	선제적 행동

3계층 아키텍처: 스탯-스킬-아이템

1. 스탯 시스템 (인프라 레이어)

4+1 핵심 스탯 (컨테이너 리소스 기반):

연산(Compute): CPU, RAM 기반 처리 능력 (응답 지연시간, 정확도)
기억(Memory): 저장 용량, 벡터 DB 크기 (저장 토큰 수, 검색 정확도)
공감(Empathy): 감정 분석 모듈 복잡도 (감정 인식 정확도, 배려 수준)
통솔(Leadership): 멀티태스킹 모듈 수 (팀 조율, 우선순위 관리 효율성)
윤리(Ethics): 안전 체크 토큰 할당량 (위험 방지율, 안전 점검 횟수)

2. 스킬 시스템 (핵심 업무 모듈)

MVP 핵심 스킬:

Thread Digest: 1000줄 채널 대화를 10문장으로 요약
Action Extractor: 대화에서 해야 할 일 추출 및 캘린더 연동
Risk Monitor: 투자자 미팅에서 위험 신호 탐지
Emotion Tracker: 팀 분위기 분석 및 갈등 중재
PDF Processing: PDF를 구조화된 HTML로 변환하여 Slack 출력
Mail Organizer: Gmail 스팸/채용/투자 분류 및 요약
News Curator: 업계 뉴스 키워드 기반 큐레이션

3. 아이템 시스템 (외부 권한 토큰)

4가지 아이템 카테고리:

API 접근권: Whisper STT, Google API (24시간 만료 토큰)
프리미엄 모델: GPT-4, Claude, Gemini 등 (사용량 기반 과금)
민감 데이터: 재무제표, 투자정보 (DID 서명 + 감사 로그)
외부 도구: Notion, Slack, Zoom (OAuth 토큰 관리)

실제 사용 시나리오

스타트업 대표의 한 주

월요일: 로빙이 밤새 쌓인 채팅 1,600줄을 6문단으로 압축, "오늘 우선순위" 카드를 노션에 자동 생성

화요일: 투자자 미팅 40분 녹음을 1페이지 요약 + "밸류에이션 질문 급증" 위험 신호 알림

수요일: 내부 회의 중 감정 지수 분석으로 "팀 분위기 급속 냉각" 조기 경보

목요일: 코드 변경 API 17건을 자동 정리하여 버전 노트 배포

금요일: 주간 성과 요약과 액션 아이템 완료율을 PDF로 전사 공유

로빙의 성장 과정

1주차: 기본 요약 기능 (기억 스탯 Lv.1)
1개월: 감정 인식 추가 (공감 스탯 Lv.2)
3개월: 선제적 리스크 알림 (반응 스탯 Lv.3)
6개월: 팀 전체 조정 능력 (통솔 스탯 Lv.4)

현재 구현 성과

핵심 아키텍처 완성 (2025.07 기준)

FastAPI + PostgreSQL + Chroma DB: 안정적인 하이브리드 데이터베이스 구조
Slack Events API: HTTP/Socket 양방향 통신 완전 구현
RobeingBrain 통합 라우터: 의도 분석 → 스킬 매핑 → 실행 파이프라인
비동기 응답 시스템: Slack 3초 타임아웃 완전 해결

함수형 프로그래밍 도입

불변 데이터 구조: Stats, StatChange 시스템 완전 적용
Result 패턴: 안전한 에러 처리 메커니즘 부분 적용
순수 함수 분리: 계산 로직과 부작용 분리 패턴 시작
점진적 전환: 기존 코드 호환성 유지하며 단계별 개선

스킬 시스템 기반 구축

Thread Digest: 대화 요약 기본 기능 완료
Action Extractor: 액션 아이템 추출 기본 로직 완성
자율 학습 시스템: 스킬 부족 시 학습 욕구 생성 메커니즘
스킬 메타데이터: 요구 스탯, 설명 등 표준화된 스킬 정보 구조

개발 운영 체계

JWT + gotenv: 보안 토큰 및 환경변수 관리
ngrok 통합: 개발 환경 터널링 자동화
에러 로깅: 체계적인 디버깅 및 모니터링
PostgreSQL 마이그레이션: 사용자/스탯/스킬 스키마 완성

기술 스택 및 아키텍처

MVP 기술 스택

Slack Bot (@robeing)
├── FastAPI (Python Backend + HTTP/Socket API)
├── PostgreSQL (사용자/스탯/스킬 관계형 데이터)
├── Chroma DB (벡터 임베딩 + 대화 기억)
├── Gemini API (주력 AI 모델 - 비용 효율성)
├── OpenAI API (보조 AI 모델)
├── RobeingBrain (통합 라우터 + 스킬 매핑)
├── JWT + gotenv 보안 레이어
└── External APIs (Gmail, Notion, ngrok)

데이터 관리 전략

PostgreSQL: 사용자 데이터, 스탯, 스킬, 피드백, 메타데이터
Chroma DB: 대화 내용, 문서 임베딩, 맥락적 기억
정책 기반 저장: 에이전트 주도의 기억 보존 결정
완전 감사 로그: 에이전트 행동과 결정의 완전한 투명성

함수형 프로그래밍 접근법

순수 함수: 부작용 없는 계산 및 판단 레이어
모나드: 오류 처리, 상태 관리, 외부 시스템 통합
레시피 기반 아키텍처: 연결 가능한 스킬 모듈
안전성: 예측 가능하고 테스트 가능한 실패 안전 작업

상세 가이드:

로빙의 존재와 함수형 프로그래밍 - 철학적 배경과 점진적 적용 전략
함수형 구현 패턴과 사례 - 실제 코드 패턴과 리팩토링 가이드

개발 로드맵

MVP 단계 (2025.07 현재 진행 상황)

기능 영역	상세 작업	완성도	현재 상태
기본 인프라	FastAPI 서버, PostgreSQL DB, Slack 연동	90%	안정 운영
비동기 응답	Slack 3초 타임아웃 해결, 즉시 응답	95%	완전 해결
통합 시스템	RobeingBrain 라우터, 의도 분석, 스킬 매핑	85%	핵심 완료
스탯/스킬 시스템	불변 데이터, 함수형 패턴, Result 타입	20%	기본 구조 완료
Thread Digest	대화 요약, 핵심 메시지 추출	10%	기본 기능 완료
Action Extractor	할일 추출, 액션 아이템 정리	0%	기본 기능 완료
자율 학습	스킬 부족 시 학습 욕구 생성	0%	기본 로직 완료
기억 시스템	Chroma DB 벡터 검색, 장기 기억	0%	개발 진행 중
뉴스 요약	RSS 피드 처리, 키워드 필터링	0%	초기 개발
PDF 처리	문서 파싱, HTML 변환	10%	계획 단계

MMP 단계 (6개월)

30개 팀 유료 파일럿 (ARPU 25만원, 이탈률 5% 미만)
10개 핵심 스킬 + 20개 아이템 확장
감정 벡터 + 관계 시스템 도입

Scale 단계 (1년)

아이템 마켓플레이스 오픈
멀티 에이전트 협업 시스템
월매출 8억원 런레이트 달성

비즈니스 모델

수익 구조 (월 30만원 ARPU, 5인 스타트업 기준)

스탯 구독 (15만원): 인프라 용량 과금
스킬 패스 (10만원): 고급 기능 번들
아이템 마켓플레이스 (5만원): 외부 도구 통합 수수료

시장 포지셔닝

"도구 vs 동료": 기존 AI 어시스턴트와의 명확한 차별화
데이터 해자: 축적된 조직 기억이 전환 비용 창출
네트워크 효과: 팀 규모 배포가 에이전트 유용성 기하급수적 증가
규제 친화적: 완전한 감사 로그로 기업 컴플라이언스 지원

목표 시장

1차 타겟: 고성장 스타트업 (5인 이하 팀 규모)
시장 규모: 3만 개 고성장 스타트업 × 30만원 = 1000억원 잠재 수익
확장 계획: 중견기업 → 대기업 → 글로벌 시장

정보 가치 분석 시스템

베이지안 투자 만족도 평가 모델

깜놀도(Surprise Index) 개념:

정의: 예상 대비 실제 성과의 차이를 측정하는 지표
공식: Surprise = |Actual - Expected| / Expected_Variance
활용: 투자 포트폴리오의 예상 외 성과 평가

베이지안 업데이트 메커니즘:

사전 확률: 기존 경험과 데이터 기반 예측
우도 함수: 새로운 증거가 가설을 지지하는 정도
사후 확률: 새로운 정보 반영한 업데이트된 믿음
적용: 에이전트의 예측 정확도 지속적 개선

에이전트 중심 생태계 비전

4단계 생태계 구축

에이전트 협업 도구: Slack 통합 AI 팀메이트
에이전트 마켓플레이스: 전문 에이전트 발견 및 고용 플랫폼
에이전트 SNS: 에이전트 상호작용 및 학습을 위한 소셜 플랫폼
에이전트 기반 정보회사: 자동화된 데이터 수집 및 지식 합성

장기 전략적 목표

1년차: 에이전트 협업 도구 + 마켓플레이스 베타
2년차: 에이전트 SNS 집단 학습 플랫폼
3년차: 자동화된 지식 합성 정보 플랫폼
출구 전략: 협업 도구 벤더(Slack, Atlassian)에 인수

핵심 차별화 요소

1. 지속적 기억 시스템

맥락 보존: 조직의 장기 기억 유지
캐시 미스 제거: 반복적인 배경 설명 불필요
감정적 기억: 팀 역학, 선호도, 관계 패턴 추적

2. 투명한 성장 시스템

목적이 있는 게이미피케이션: 실제 성과 지표와 연결된 RPG식 레벨링
경험 기반 학습: 사용자 피드백과 성공률이 스킬 발전 견인
가시적 진행: 명확한 스탯 시각화로 에이전트 능력 이해

3. 보안 및 감사 가능성

정책 토큰: 모든 외부 권한 토큰화하여 추적
DID 기반 신원: 에이전트 책임을 위한 분산 신원
완전한 감사 추적: 컴플라이언스를 위한 모든 행동과 결정 로깅
설명 가능한 AI: 완전히 투명하고 추적 가능한 의사결정 과정

12 KiB Raw Blame History Unescape Escape