- troubleshooting 문서 작성 (Phase 2-3 구현 완료) - 계획 문서 Phase 2-3 섹션 troubleshooting 링크로 대체 - 남은 작업 섹션 추가
3.3 KiB
3.3 KiB
베이지안 스타트업 가치평가 프레임워크
날짜: 2025-10-16 목표: Neo4j + 베이지안 MCMC 확률적 가치평가
개요
데이터: K-Startup 12,703개 기업 (/mnt/51123data/DATA/startup/data/startup_data_20251016.json, 14MB)
- 매출 정보: 10,484개 (82.5%)
- 투자금 정보: 9,264개 (73.0%)
- Neo4j 마이그레이션 완료: 26,117개 노드, 532MB (참고:
troubleshooting/251016_neo4j_startup_data_migration.md)
구성: Neo4j 유사 기업 → Bayesian MCMC 확률 분포 → 동적 프리미엄 학습
아키텍처
1. Neo4j → 유사 기업 Top-K 탐색 (공통 태그 K≥3)
2. Bayesian MCMC → 가치평가 확률 분포 (10,000 iterations)
3. PostgreSQL → 프리미엄 학습 및 업데이트 (Beta(α,β))
Phase 1: Neo4j 유사 기업
→ 상세: troubleshooting/260112_bayesian_valuation_phase1_implementation.md
구현 완료:
- 투자 단계 ±1 범위 필터링 (
_get_stage_range_for_query함수) - Neo4j 쿼리 개선 (invstCdKr 필터링, LIMIT 5)
- Top-5 유사 기업 반환
Phase 2: 베이지안 MCMC
→ 상세: troubleshooting/260112_bayesian_valuation_phase2_3_implementation.md
구현 완료:
calculate_posterior_with_likelihood함수 추가 (scipy.stats 로그정규분포 샘플링)- Prior × Likelihood 결합, 10,000 iterations 샘플링
- 평균, 중앙값, 90% 신뢰구간 출력
Phase 3: 동적 프리미엄
→ 상세: troubleshooting/260112_bayesian_valuation_phase2_3_implementation.md
구현 완료:
valuation_premia테이블 생성 (PostgreSQL)- Repository 기본 구조 (CRUD 함수)
- Beta 분포 파라미터 저장 (premium_mu, premium_sigma)
남은 작업
Phase 2
- 실제 Likelihood 데이터 파싱 (Neo4j에서 invstSumValText 추출)
valuate_startup()함수에calculate_posterior_with_likelihood통합
Phase 3
- Beta(α,β) 분포 업데이트 로직 (현재는 mu, sigma만 저장)
- 30일 주기 재계산 스케줄러 (scheduler_repository 활용)
- 신규 투자 데이터 자동 재학습 파이프라인
실현 가능성 검증
테스트: rb8001/tests/test_bayesian_valuation_plan_feasibility.py
결과:
- ✅ Phase 1: Neo4j 쿼리 구조 및 데이터 필드 호환성 확인 (환경변수 설정 필요)
- ✅ Phase 2: scipy.stats 사용 가능, PyMC 라이브러리 설치 필요 (requirements.txt 추가)
- ✅ Phase 3: PostgreSQL 스키마 구조 검증 완료, asyncpg 사용 가능
결론: 계획 실현 가능, PyMC 라이브러리 설치와 Neo4j 환경변수 설정만 추가 필요
참고
데이터 파일
- 한국 스타트업:
/mnt/51123data/DATA/startup/data/startup_data_20251016.json(12,703개) - YC 기업:
/mnt/hdd/data/DATA/startup/yc_companies_all.json(5,490개) - Neo4j 저장소:
/mnt/hdd/neo4j/data/(532MB, 심볼릭 링크:/var/lib/neo4j/data)
Neo4j 연결
- URI:
bolt://192.168.219.45:7687(51123 서버) - 사용:
app/services/memory/neo4j_client.py(Neo4jClient)
관련 문서
- 데이터 마이그레이션:
troubleshooting/251016_neo4j_startup_data_migration.md - 양자 베이지안 모델 (이론):
research/bayesian_theory/251227_양자_베이지안_스타트업_가치평가_모델.md - 가치분석 원칙:
book/300_architecture/314_스타트업_가치분석_원칙.md