diff --git a/journey/plans/251016_bayesian_startup_valuation.md b/journey/plans/251016_bayesian_startup_valuation.md index bb1f3ad..e9dc543 100644 --- a/journey/plans/251016_bayesian_startup_valuation.md +++ b/journey/plans/251016_bayesian_startup_valuation.md @@ -7,7 +7,11 @@ ## 개요 -**데이터**: K-Startup 12,703개 기업 +**데이터**: K-Startup 12,703개 기업 (`/mnt/51123data/DATA/startup/data/startup_data_20251016.json`, 14MB) +- 매출 정보: 10,484개 (82.5%) +- 투자금 정보: 9,264개 (73.0%) +- Neo4j 마이그레이션 완료: 26,117개 노드, 532MB (참고: `troubleshooting/251016_neo4j_startup_data_migration.md`) + **구성**: Neo4j 유사 기업 → Bayesian MCMC 확률 분포 → 동적 프리미엄 학습 --- @@ -24,30 +28,38 @@ ## Phase 1: Neo4j 유사 기업 (미구현) +**현재 상태**: Neo4j 데이터 마이그레이션 완료 (12,703개 한국 스타트업, 5,490개 YC 기업) +- Startup 노드 속성: `tagNamesKr`, `bizNamesKr`, `invstCdKr`, `empWholeVal`, `finacRevenueVal`, `invstSumValText` +- 참고: 기존 `get_dynamic_prior_from_neo4j()`는 부분 구현 (토큰 매칭만, 투자 단계 필터링 없음) + ### 입력 ```python { - "company_name": "리버스마운틴", - "stage": "seed", - "employees": 9, - "industry": ["협업툴", "SaaS"] + "company_name": "리버스마운틴", # IR 분석에서 추출 + "investment_stage": "seed", # invstCdKr 정규화 + "team_size": 9, # empWholeVal 또는 IR에서 추출 + "business_area": "협업툴,SaaS" # tagNamesKr 또는 bizNamesKr } ``` -### 검색 -- 공통 산업 태그 K개 이상 (K=3) -- 투자 단계 동일 또는 ±1 -- Top-5 유사 기업 반환 +### 검색 조건 (Cypher 쿼리) +- `tagNamesKr` 또는 `bizNamesKr`에서 공통 태그 K개 이상 (K=3) +- `invstCdKr` 투자 단계 동일 또는 ±1 (seed → pre-A/series A 허용) +- Top-5 유사 기업 반환 (`finacRevenueVal`, `invstSumValText` 포함) --- ## Phase 2: 베이지안 MCMC (미구현) +**현재 상태**: 단순 베이지안 프레임워크 사용 (`startup_valuation.py`) +- Prior: Stage 기반 고정값 + Neo4j 동적 Prior 혼합 (분위수 기반) +- Posterior: Prior × Likelihood 조정 계수 (MCMC 없음) + ### 모델 ``` -Prior: 로그정규분포 (산업/단계별 평균) -Likelihood: 유사 기업 투자금액 분포 -Posterior: MCMC 샘플링 +Prior: 로그정규분포 (산업/단계별 평균, 또는 Neo4j 유사기업 분포) +Likelihood: 유사 기업 투자금액 분포 (invstSumValText 파싱) +Posterior: MCMC 샘플링 (PyMC3/Stan, 10,000 iterations) ``` ### 출력 @@ -89,5 +101,16 @@ CREATE TABLE valuation_premia ( ## 참고 -- 데이터: `/mnt/51123data/DATA/startup/data/startup_data_20251016.json` -- Neo4j: 51123:7687 +### 데이터 파일 +- 한국 스타트업: `/mnt/51123data/DATA/startup/data/startup_data_20251016.json` (12,703개) +- YC 기업: `/mnt/hdd/data/DATA/startup/yc_companies_all.json` (5,490개) +- Neo4j 저장소: `/mnt/hdd/neo4j/data/` (532MB, 심볼릭 링크: `/var/lib/neo4j/data`) + +### Neo4j 연결 +- URI: `bolt://192.168.219.45:7687` (51123 서버) +- 사용: `app/services/memory/neo4j_client.py` (Neo4jClient) + +### 관련 문서 +- 데이터 마이그레이션: `troubleshooting/251016_neo4j_startup_data_migration.md` +- 양자 베이지안 모델 (이론): `research/bayesian_theory/251227_양자_베이지안_스타트업_가치평가_모델.md` +- 가치분석 원칙: `book/300_architecture/314_스타트업_가치분석_원칙.md`