DOCS/journey/plans/archive/251016_bayesian_startup_valuation.md
Claude-51124 f38d75d977 docs: 베이지안 가치평가 계획 문서 아카이브 이동 및 남은 작업 분리
- 남은 작업을 새 플랜 문서로 분리 (260112_bayesian_valuation_remaining_tasks.md)
- 완료된 기본 구조 문서를 archive로 이동 (251016_bayesian_startup_valuation.md)
- 문서 원칙 준수 (완료된 구조는 archive, 미구현 작업은 새 플랜 문서)
2026-01-12 16:49:55 +09:00

91 lines
2.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 베이지안 스타트업 가치평가 프레임워크
**날짜**: 2025-10-16
**목표**: Neo4j + 베이지안 MCMC 확률적 가치평가
---
## 개요
**데이터**: K-Startup 12,703개 기업 (`/mnt/51123data/DATA/startup/data/startup_data_20251016.json`, 14MB)
- 매출 정보: 10,484개 (82.5%)
- 투자금 정보: 9,264개 (73.0%)
- Neo4j 마이그레이션 완료: 26,117개 노드, 532MB (참고: `troubleshooting/251016_neo4j_startup_data_migration.md`)
**구성**: Neo4j 유사 기업 → Bayesian MCMC 확률 분포 → 동적 프리미엄 학습
---
## 아키텍처
```
1. Neo4j → 유사 기업 Top-K 탐색 (공통 태그 K≥3)
2. Bayesian MCMC → 가치평가 확률 분포 (10,000 iterations)
3. PostgreSQL → 프리미엄 학습 및 업데이트 (Beta(α,β))
```
---
## Phase 1: Neo4j 유사 기업
→ 상세: `troubleshooting/260112_bayesian_valuation_phase1_implementation.md`
**구현 완료**:
- 투자 단계 ±1 범위 필터링 (`_get_stage_range_for_query` 함수)
- Neo4j 쿼리 개선 (invstCdKr 필터링, LIMIT 5)
- Top-5 유사 기업 반환
---
## Phase 2: 베이지안 MCMC
→ 상세: `troubleshooting/260112_bayesian_valuation_phase2_3_implementation.md`
**구현 완료**:
- `calculate_posterior_with_likelihood` 함수 추가 (scipy.stats 로그정규분포 샘플링)
- Prior × Likelihood 결합, 10,000 iterations 샘플링
- 평균, 중앙값, 90% 신뢰구간 출력
---
## Phase 3: 동적 프리미엄
→ 상세: `troubleshooting/260112_bayesian_valuation_phase2_3_implementation.md`
**구현 완료**:
- `valuation_premia` 테이블 생성 (PostgreSQL)
- Repository 기본 구조 (CRUD 함수)
- Beta 분포 파라미터 저장 (premium_mu, premium_sigma)
---
## 실현 가능성 검증
**테스트**: `rb8001/tests/test_bayesian_valuation_plan_feasibility.py`
**결과**:
- ✅ Phase 1: Neo4j 쿼리 구조 및 데이터 필드 호환성 확인 (환경변수 설정 필요)
- ✅ Phase 2: scipy.stats 사용 가능, PyMC 라이브러리 설치 필요 (requirements.txt 추가)
- ✅ Phase 3: PostgreSQL 스키마 구조 검증 완료, asyncpg 사용 가능
**결론**: 계획 실현 가능, PyMC 라이브러리 설치와 Neo4j 환경변수 설정만 추가 필요
---
## 참고
### 데이터 파일
- 한국 스타트업: `/mnt/51123data/DATA/startup/data/startup_data_20251016.json` (12,703개)
- YC 기업: `/mnt/hdd/data/DATA/startup/yc_companies_all.json` (5,490개)
- Neo4j 저장소: `/mnt/hdd/neo4j/data/` (532MB, 심볼릭 링크: `/var/lib/neo4j/data`)
### Neo4j 연결
- URI: `bolt://192.168.219.45:7687` (51123 서버)
- 사용: `app/services/memory/neo4j_client.py` (Neo4jClient)
### 관련 문서
- 데이터 마이그레이션: `troubleshooting/251016_neo4j_startup_data_migration.md`
- 양자 베이지안 모델 (이론): `research/bayesian_theory/251227_양자_베이지안_스타트업_가치평가_모델.md`
- 가치분석 원칙: `book/300_architecture/314_스타트업_가치분석_원칙.md`