DOCS/journey/plans/251016_bayesian_startup_valuation.md

94 lines
1.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 베이지안 스타트업 가치평가 프레임워크
**날짜**: 2025-10-16
**목표**: Neo4j + 베이지안 MCMC 확률적 가치평가
---
## 개요
**데이터**: K-Startup 12,703개 기업
**구성**: Neo4j 유사 기업 → Bayesian MCMC 확률 분포 → 동적 프리미엄 학습
---
## 아키텍처
```
1. Neo4j → 유사 기업 Top-K 탐색 (공통 태그 K≥3)
2. Bayesian MCMC → 가치평가 확률 분포 (10,000 iterations)
3. PostgreSQL → 프리미엄 학습 및 업데이트 (Beta(α,β))
```
---
## Phase 1: Neo4j 유사 기업 (미구현)
### 입력
```python
{
"company_name": "리버스마운틴",
"stage": "seed",
"employees": 9,
"industry": ["협업툴", "SaaS"]
}
```
### 검색
- 공통 산업 태그 K개 이상 (K=3)
- 투자 단계 동일 또는 ±1
- Top-5 유사 기업 반환
---
## Phase 2: 베이지안 MCMC (미구현)
### 모델
```
Prior: 로그정규분포 (산업/단계별 평균)
Likelihood: 유사 기업 투자금액 분포
Posterior: MCMC 샘플링
```
### 출력
```
평균: 7.3억원
중앙값: 6.8억원
90% 신뢰구간: [4.2억 ~ 12.5억]
```
---
## Phase 3: 동적 프리미엄 (미구현)
### DB 구조
```sql
CREATE TABLE valuation_premia (
stage VARCHAR,
industry VARCHAR,
premium_mu FLOAT,
premium_sigma FLOAT,
updated_at TIMESTAMP
);
```
### 학습
- 신규 투자 데이터 → 자동 재학습
- Beta(α,β) 분포로 업데이트
- 30일 주기 재계산
---
## 구현 우선순위
1. **즉시**: Neo4j 유사 기업 (1주)
2. **단기**: MCMC 확률 분포 (2주)
3. **중기**: 동적 프리미엄 (1개월)
---
## 참고
- 데이터: `/mnt/51123data/DATA/startup/data/startup_data_20251016.json`
- Neo4j: 51123:7687