DOCS/journey/plans/251016_bayesian_startup_valuation.md

106 lines
2.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 베이지안 스타트업 가치평가 프레임워크
**날짜**: 2025-10-16
**목표**: Neo4j + 베이지안 MCMC 기반 확률적 가치평가
---
## 개요
**데이터**: K-Startup 12,703개 기업
**구성**: Neo4j 유사 기업 탐색 + Bayesian MCMC 확률 분포 + 동적 프리미엄 학습
---
## 아키텍처
```
1. Neo4j 그래프 → 유사 기업 Top-K 탐색
2. Bayesian MCMC → 가치평가 확률 분포 생성
3. PostgreSQL → 프리미엄 학습 및 업데이트
```
---
## Phase 1: Neo4j 유사 기업 탐색 (미구현)
### 구조
```
(:Startup)-[:SIMILAR_TO {commonTags: K}]->(:Startup)
```
### 검색 기준
- 공통 산업 태그 K개 이상 (K=3)
- 투자 단계 동일 또는 ±1 단계
- 직원 수 유사 범위
### 출력
- Top-5 유사 기업 목록
- 투자금액, 직원 수, 공통 태그
---
## Phase 2: 베이지안 MCMC 가치평가 (미구현)
### 입력
```python
{
"company_name": "리버스마운틴",
"stage": "seed",
"employees": 9,
"industry": ["협업툴", "SaaS"]
}
```
### 베이지안 모델
```
Prior: 로그정규분포 (산업/단계별 평균)
Likelihood: 유사 기업 투자금액 분포
Posterior: MCMC 샘플링 (10,000 iterations)
```
### 출력
```
평균: 7.3억원
중앙값: 6.8억원
90% 신뢰구간: [4.2억 ~ 12.5억]
```
---
## Phase 3: 동적 프리미엄 학습 (미구현)
### 목표
하드코딩 제거 - 시장 데이터로 자동 업데이트
### 구조
```sql
CREATE TABLE valuation_premia (
stage VARCHAR(20),
industry VARCHAR(100),
premium_mu FLOAT,
premium_sigma FLOAT,
updated_at TIMESTAMP
);
```
### 학습 로직
- 신규 투자 데이터 입수 시 자동 재학습
- Beta(α, β) 분포로 프리미엄 업데이트
- 30일 단위 재계산
---
## 구현 우선순위
1. **즉시**: Neo4j 유사 기업 탐색 (1주)
2. **단기**: MCMC 확률 분포 생성 (2주)
3. **중기**: 동적 프리미엄 학습 (1개월)
---
## 참고
- K-Startup 데이터: `/mnt/51123data/DATA/startup/data/startup_data_20251016.json`
- Neo4j: 51123 서버 7687 포트