DOCS/journey/plans/251016_bayesian_startup_valuation.md
Claude-51124 4415993f16 docs: Phase 1 구현 완료 기록 및 계획 문서 정리
- troubleshooting 문서 작성 (Phase 1 구현 완료)
- 계획 문서 Phase 1 섹션 troubleshooting 링크로 대체
2026-01-12 16:36:56 +09:00

118 lines
3.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 베이지안 스타트업 가치평가 프레임워크
**날짜**: 2025-10-16
**목표**: Neo4j + 베이지안 MCMC 확률적 가치평가
---
## 개요
**데이터**: K-Startup 12,703개 기업 (`/mnt/51123data/DATA/startup/data/startup_data_20251016.json`, 14MB)
- 매출 정보: 10,484개 (82.5%)
- 투자금 정보: 9,264개 (73.0%)
- Neo4j 마이그레이션 완료: 26,117개 노드, 532MB (참고: `troubleshooting/251016_neo4j_startup_data_migration.md`)
**구성**: Neo4j 유사 기업 → Bayesian MCMC 확률 분포 → 동적 프리미엄 학습
---
## 아키텍처
```
1. Neo4j → 유사 기업 Top-K 탐색 (공통 태그 K≥3)
2. Bayesian MCMC → 가치평가 확률 분포 (10,000 iterations)
3. PostgreSQL → 프리미엄 학습 및 업데이트 (Beta(α,β))
```
---
## Phase 1: Neo4j 유사 기업
→ 상세: `troubleshooting/260112_bayesian_valuation_phase1_implementation.md`
**구현 완료**:
- 투자 단계 ±1 범위 필터링 (`_get_stage_range_for_query` 함수)
- Neo4j 쿼리 개선 (invstCdKr 필터링, LIMIT 5)
- Top-5 유사 기업 반환
---
## Phase 2: 베이지안 MCMC (미구현)
**현재 상태**: 단순 베이지안 프레임워크 사용 (`startup_valuation.py`)
- Prior: Stage 기반 고정값 + Neo4j 동적 Prior 혼합 (분위수 기반)
- Posterior: Prior × Likelihood 조정 계수 (MCMC 없음)
### 모델
```
Prior: 로그정규분포 (산업/단계별 평균, 또는 Neo4j 유사기업 분포)
Likelihood: 유사 기업 투자금액 분포 (invstSumValText 파싱)
Posterior: MCMC 샘플링 (PyMC3/Stan, 10,000 iterations)
```
### 출력
```
평균: 7.3억원
중앙값: 6.8억원
90% 신뢰구간: [4.2억 ~ 12.5억]
```
---
## Phase 3: 동적 프리미엄 (미구현)
### DB 구조
```sql
CREATE TABLE valuation_premia (
stage VARCHAR,
industry VARCHAR,
premium_mu FLOAT,
premium_sigma FLOAT,
updated_at TIMESTAMP
);
```
### 학습
- 신규 투자 데이터 → 자동 재학습
- Beta(α,β) 분포로 업데이트
- 30일 주기 재계산
---
## 구현 우선순위
1. **즉시**: Neo4j 유사 기업 (1주)
2. **단기**: MCMC 확률 분포 (2주)
3. **중기**: 동적 프리미엄 (1개월)
---
## 실현 가능성 검증
**테스트**: `rb8001/tests/test_bayesian_valuation_plan_feasibility.py`
**결과**:
- ✅ Phase 1: Neo4j 쿼리 구조 및 데이터 필드 호환성 확인 (환경변수 설정 필요)
- ✅ Phase 2: scipy.stats 사용 가능, PyMC 라이브러리 설치 필요 (requirements.txt 추가)
- ✅ Phase 3: PostgreSQL 스키마 구조 검증 완료, asyncpg 사용 가능
**결론**: 계획 실현 가능, PyMC 라이브러리 설치와 Neo4j 환경변수 설정만 추가 필요
---
## 참고
### 데이터 파일
- 한국 스타트업: `/mnt/51123data/DATA/startup/data/startup_data_20251016.json` (12,703개)
- YC 기업: `/mnt/hdd/data/DATA/startup/yc_companies_all.json` (5,490개)
- Neo4j 저장소: `/mnt/hdd/neo4j/data/` (532MB, 심볼릭 링크: `/var/lib/neo4j/data`)
### Neo4j 연결
- URI: `bolt://192.168.219.45:7687` (51123 서버)
- 사용: `app/services/memory/neo4j_client.py` (Neo4jClient)
### 관련 문서
- 데이터 마이그레이션: `troubleshooting/251016_neo4j_startup_data_migration.md`
- 양자 베이지안 모델 (이론): `research/bayesian_theory/251227_양자_베이지안_스타트업_가치평가_모델.md`
- 가치분석 원칙: `book/300_architecture/314_스타트업_가치분석_원칙.md`