DOCS/journey/plans/251016_bayesian_startup_valuation.md
Claude-51124 52f686be8a docs: Phase 2-3 구현 완료 기록 및 계획 문서 정리
- troubleshooting 문서 작성 (Phase 2-3 구현 완료)
- 계획 문서 Phase 2-3 섹션 troubleshooting 링크로 대체
- 남은 작업 섹션 추가
2026-01-12 16:45:43 +09:00

103 lines
3.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 베이지안 스타트업 가치평가 프레임워크
**날짜**: 2025-10-16
**목표**: Neo4j + 베이지안 MCMC 확률적 가치평가
---
## 개요
**데이터**: K-Startup 12,703개 기업 (`/mnt/51123data/DATA/startup/data/startup_data_20251016.json`, 14MB)
- 매출 정보: 10,484개 (82.5%)
- 투자금 정보: 9,264개 (73.0%)
- Neo4j 마이그레이션 완료: 26,117개 노드, 532MB (참고: `troubleshooting/251016_neo4j_startup_data_migration.md`)
**구성**: Neo4j 유사 기업 → Bayesian MCMC 확률 분포 → 동적 프리미엄 학습
---
## 아키텍처
```
1. Neo4j → 유사 기업 Top-K 탐색 (공통 태그 K≥3)
2. Bayesian MCMC → 가치평가 확률 분포 (10,000 iterations)
3. PostgreSQL → 프리미엄 학습 및 업데이트 (Beta(α,β))
```
---
## Phase 1: Neo4j 유사 기업
→ 상세: `troubleshooting/260112_bayesian_valuation_phase1_implementation.md`
**구현 완료**:
- 투자 단계 ±1 범위 필터링 (`_get_stage_range_for_query` 함수)
- Neo4j 쿼리 개선 (invstCdKr 필터링, LIMIT 5)
- Top-5 유사 기업 반환
---
## Phase 2: 베이지안 MCMC
→ 상세: `troubleshooting/260112_bayesian_valuation_phase2_3_implementation.md`
**구현 완료**:
- `calculate_posterior_with_likelihood` 함수 추가 (scipy.stats 로그정규분포 샘플링)
- Prior × Likelihood 결합, 10,000 iterations 샘플링
- 평균, 중앙값, 90% 신뢰구간 출력
---
## Phase 3: 동적 프리미엄
→ 상세: `troubleshooting/260112_bayesian_valuation_phase2_3_implementation.md`
**구현 완료**:
- `valuation_premia` 테이블 생성 (PostgreSQL)
- Repository 기본 구조 (CRUD 함수)
- Beta 분포 파라미터 저장 (premium_mu, premium_sigma)
---
## 남은 작업
### Phase 2
- 실제 Likelihood 데이터 파싱 (Neo4j에서 invstSumValText 추출)
- `valuate_startup()` 함수에 `calculate_posterior_with_likelihood` 통합
### Phase 3
- Beta(α,β) 분포 업데이트 로직 (현재는 mu, sigma만 저장)
- 30일 주기 재계산 스케줄러 (scheduler_repository 활용)
- 신규 투자 데이터 자동 재학습 파이프라인
---
## 실현 가능성 검증
**테스트**: `rb8001/tests/test_bayesian_valuation_plan_feasibility.py`
**결과**:
- ✅ Phase 1: Neo4j 쿼리 구조 및 데이터 필드 호환성 확인 (환경변수 설정 필요)
- ✅ Phase 2: scipy.stats 사용 가능, PyMC 라이브러리 설치 필요 (requirements.txt 추가)
- ✅ Phase 3: PostgreSQL 스키마 구조 검증 완료, asyncpg 사용 가능
**결론**: 계획 실현 가능, PyMC 라이브러리 설치와 Neo4j 환경변수 설정만 추가 필요
---
## 참고
### 데이터 파일
- 한국 스타트업: `/mnt/51123data/DATA/startup/data/startup_data_20251016.json` (12,703개)
- YC 기업: `/mnt/hdd/data/DATA/startup/yc_companies_all.json` (5,490개)
- Neo4j 저장소: `/mnt/hdd/neo4j/data/` (532MB, 심볼릭 링크: `/var/lib/neo4j/data`)
### Neo4j 연결
- URI: `bolt://192.168.219.45:7687` (51123 서버)
- 사용: `app/services/memory/neo4j_client.py` (Neo4jClient)
### 관련 문서
- 데이터 마이그레이션: `troubleshooting/251016_neo4j_startup_data_migration.md`
- 양자 베이지안 모델 (이론): `research/bayesian_theory/251227_양자_베이지안_스타트업_가치평가_모델.md`
- 가치분석 원칙: `book/300_architecture/314_스타트업_가치분석_원칙.md`