DOCS/journey/plans/251016_bayesian_startup_valuation.md

# 베이지안 스타트업 가치평가 프레임워크

**날짜**: 2025-10-16
**목표**: Neo4j + 베이지안 MCMC 기반 확률적 가치평가

---

## 개요

**데이터**: K-Startup 12,703개 기업
**구성**: Neo4j 유사 기업 탐색 + Bayesian MCMC 확률 분포 + 동적 프리미엄 학습

---

## 아키텍처

```
1. Neo4j 그래프 → 유사 기업 Top-K 탐색
2. Bayesian MCMC → 가치평가 확률 분포 생성
3. PostgreSQL → 프리미엄 학습 및 업데이트
```

---

## Phase 1: Neo4j 유사 기업 탐색 (미구현)

### 구조
```
(:Startup)-[:SIMILAR_TO {commonTags: K}]->(:Startup)
```

### 검색 기준
- 공통 산업 태그 K개 이상 (K=3)
- 투자 단계 동일 또는 ±1 단계
- 직원 수 유사 범위

### 출력
- Top-5 유사 기업 목록
- 투자금액, 직원 수, 공통 태그

---

## Phase 2: 베이지안 MCMC 가치평가 (미구현)

### 입력
```python
{
    "company_name": "리버스마운틴",
    "stage": "seed",
    "employees": 9,
    "industry": ["협업툴", "SaaS"]
}
```

### 베이지안 모델
```
Prior: 로그정규분포 (산업/단계별 평균)
Likelihood: 유사 기업 투자금액 분포
Posterior: MCMC 샘플링 (10,000 iterations)
```

### 출력
```
평균: 7.3억원
중앙값: 6.8억원
90% 신뢰구간: [4.2억 ~ 12.5억]
```

---

## Phase 3: 동적 프리미엄 학습 (미구현)

### 목표
하드코딩 제거 - 시장 데이터로 자동 업데이트

### 구조
```sql
CREATE TABLE valuation_premia (
  stage VARCHAR(20),
  industry VARCHAR(100),
  premium_mu FLOAT,
  premium_sigma FLOAT,
  updated_at TIMESTAMP
);
```

### 학습 로직
- 신규 투자 데이터 입수 시 자동 재학습
- Beta(α, β) 분포로 프리미엄 업데이트
- 30일 단위 재계산

---

## 구현 우선순위

1. **즉시**: Neo4j 유사 기업 탐색 (1주)
2. **단기**: MCMC 확률 분포 생성 (2주)
3. **중기**: 동적 프리미엄 학습 (1개월)

---

## 참고

- K-Startup 데이터: `/mnt/51123data/DATA/startup/data/startup_data_20251016.json`
- Neo4j: 51123 서버 7687 포트