diff --git a/journey/plans/251016_bayesian_startup_valuation.md b/journey/plans/251016_bayesian_startup_valuation.md index a879dab..bb1f3ad 100644 --- a/journey/plans/251016_bayesian_startup_valuation.md +++ b/journey/plans/251016_bayesian_startup_valuation.md @@ -1,62 +1,53 @@ # 베이지안 스타트업 가치평가 프레임워크 **날짜**: 2025-10-16 -**목표**: Neo4j + 베이지안 MCMC 기반 확률적 가치평가 +**목표**: Neo4j + 베이지안 MCMC 확률적 가치평가 --- ## 개요 **데이터**: K-Startup 12,703개 기업 -**구성**: Neo4j 유사 기업 탐색 + Bayesian MCMC 확률 분포 + 동적 프리미엄 학습 +**구성**: Neo4j 유사 기업 → Bayesian MCMC 확률 분포 → 동적 프리미엄 학습 --- ## 아키텍처 ``` -1. Neo4j 그래프 → 유사 기업 Top-K 탐색 -2. Bayesian MCMC → 가치평가 확률 분포 생성 -3. PostgreSQL → 프리미엄 학습 및 업데이트 +1. Neo4j → 유사 기업 Top-K 탐색 (공통 태그 K≥3) +2. Bayesian MCMC → 가치평가 확률 분포 (10,000 iterations) +3. PostgreSQL → 프리미엄 학습 및 업데이트 (Beta(α,β)) ``` --- -## Phase 1: Neo4j 유사 기업 탐색 (미구현) - -### 구조 -``` -(:Startup)-[:SIMILAR_TO {commonTags: K}]->(:Startup) -``` - -### 검색 기준 -- 공통 산업 태그 K개 이상 (K=3) -- 투자 단계 동일 또는 ±1 단계 -- 직원 수 유사 범위 - -### 출력 -- Top-5 유사 기업 목록 -- 투자금액, 직원 수, 공통 태그 - ---- - -## Phase 2: 베이지안 MCMC 가치평가 (미구현) +## Phase 1: Neo4j 유사 기업 (미구현) ### 입력 ```python { - "company_name": "리버스마운틴", - "stage": "seed", - "employees": 9, - "industry": ["협업툴", "SaaS"] + "company_name": "리버스마운틴", + "stage": "seed", + "employees": 9, + "industry": ["협업툴", "SaaS"] } ``` -### 베이지안 모델 +### 검색 +- 공통 산업 태그 K개 이상 (K=3) +- 투자 단계 동일 또는 ±1 +- Top-5 유사 기업 반환 + +--- + +## Phase 2: 베이지안 MCMC (미구현) + +### 모델 ``` Prior: 로그정규분포 (산업/단계별 평균) Likelihood: 유사 기업 투자금액 분포 -Posterior: MCMC 샘플링 (10,000 iterations) +Posterior: MCMC 샘플링 ``` ### 출력 @@ -68,38 +59,35 @@ Posterior: MCMC 샘플링 (10,000 iterations) --- -## Phase 3: 동적 프리미엄 학습 (미구현) +## Phase 3: 동적 프리미엄 (미구현) -### 목표 -하드코딩 제거 - 시장 데이터로 자동 업데이트 - -### 구조 +### DB 구조 ```sql CREATE TABLE valuation_premia ( - stage VARCHAR(20), - industry VARCHAR(100), + stage VARCHAR, + industry VARCHAR, premium_mu FLOAT, premium_sigma FLOAT, updated_at TIMESTAMP ); ``` -### 학습 로직 -- 신규 투자 데이터 입수 시 자동 재학습 -- Beta(α, β) 분포로 프리미엄 업데이트 -- 30일 단위 재계산 +### 학습 +- 신규 투자 데이터 → 자동 재학습 +- Beta(α,β) 분포로 업데이트 +- 30일 주기 재계산 --- ## 구현 우선순위 -1. **즉시**: Neo4j 유사 기업 탐색 (1주) -2. **단기**: MCMC 확률 분포 생성 (2주) -3. **중기**: 동적 프리미엄 학습 (1개월) +1. **즉시**: Neo4j 유사 기업 (1주) +2. **단기**: MCMC 확률 분포 (2주) +3. **중기**: 동적 프리미엄 (1개월) --- ## 참고 -- K-Startup 데이터: `/mnt/51123data/DATA/startup/data/startup_data_20251016.json` -- Neo4j: 51123 서버 7687 포트 +- 데이터: `/mnt/51123data/DATA/startup/data/startup_data_20251016.json` +- Neo4j: 51123:7687