diff --git a/plans/251016_startup_valuation_reversemountain.md b/plans/251016_bayesian_startup_valuation.md similarity index 82% rename from plans/251016_startup_valuation_reversemountain.md rename to plans/251016_bayesian_startup_valuation.md index 93c9285..5084abf 100644 --- a/plans/251016_startup_valuation_reversemountain.md +++ b/plans/251016_bayesian_startup_valuation.md @@ -204,6 +204,54 @@ if np.random.rand() < acceptance_ratio: - 넓은 신뢰구간: Seed 단계 특성상 불확실성 큼 - 음수 하한: 일부 Seed 기업은 실제 투자 유치 실패 +**문제점**: +- 프리미엄 1.38배는 하드코딩 (AI 20% + 통합 15%) +- 실제 시장 데이터 미반영 +- 검증 필요 + +### 4.7 동적 베이지안 프리미엄 학습 + +**파일**: /tmp/bayesian_premium_updater.py + +**문제 인식**: +- 하드코딩 프리미엄 1.38배의 근거 부족 +- 실제 Seed 기업 검증 결과: 평균 0.86배 (95개 데이터) +- 대부분 기업이 모델보다 낮게 평가됨 + +**온라인 베이지안 학습**: +``` +Prior(t) = Posterior(t-1) +새 데이터 추가 → Bayesian Update → Posterior(t) +``` + +**학습 결과**: +- 초기 Prior: μ=1.00, σ=1.00 (uninformative) +- 95개 Seed 학습 후: μ=0.86, σ=0.13 +- 실제 시장은 할인 존재 (1.0배 미만) + +**상태 저장**: PostgreSQL +- 테이블: premium_state +- 필드: mu, sigma, n_updates, updated_at +- 새 투자 데이터 → 자동 업데이트 +- 가치평가 시 최신 프리미엄 사용 + +**재평가 결과**: +- 하드코딩 (1.38배): 25.9억원 +- 동적 학습 (0.86배): 16.0억원 +- 차이: -38% (과대평가 방지) + +**검증 사례 - 애디터**: +- 실제 투자: 32.5억원 +- 모델 평가: 12.4억원 (0.86배) +- 비율: 2.6배 (실제가 높음) +- 해석: 애디터는 상위 5% 성공 사례 (outlier) + +**장점**: +- 하드코딩 제거 +- 시장 변화 자동 반영 +- 불확실성 감소 (누적 학습) +- 투자 뉴스 크롤링 → 자동 업데이트 + --- ## 5. 시각화 @@ -303,6 +351,20 @@ Robeing: [40초 후] "약 26억원 (95% 신뢰구간: -48~101억)으로 평가 - 수렴 확인: Trace plot으로 검증 필수 - 교훈: 비동기 처리와 진행 상황 UI 필요 +### 7.5 하드코딩의 위험성 + +- 프리미엄 1.38배 하드코딩 → 실제는 0.86배 +- 과대평가 38% (25.9억 → 16.0억) +- 실제 데이터로 검증 시 반대 결과 +- 교훈: 모든 가정은 실제 데이터로 검증, 동적 업데이트 필수 + +### 7.6 온라인 학습의 중요성 + +- Sequential Bayesian Update로 지속 개선 +- PostgreSQL 상태 저장으로 누적 학습 +- 투자 뉴스 크롤링 → 자동 프리미엄 업데이트 +- 교훈: 정적 모델보다 동적 학습이 시장 반영 + --- ## 8. 참고 자료 @@ -321,6 +383,7 @@ Robeing: [40초 후] "약 26억원 (95% 신뢰구간: -48~101억)으로 평가 - NumPy, SciPy: 통계 계산 - Matplotlib: 시각화 - LangGraph: 워크플로우 관리 및 상태 추적 +- PostgreSQL: 동적 프리미엄 상태 저장 및 온라인 학습 ---