- 7-8월 초기 구축 문서 12개를 _archive/troubleshooting/2025_07-08_initial_setup/로 이동 - book/300_architecture/390_human_in_the_loop_intent_learning.md를 journey/research/intent_classification/로 이동 (개발 여정 문서) - 빈 폴더 제거 (journey/assets/*)
7.1 KiB
7.1 KiB
신규 기업 트렌드 분석 (2024-11-27 → 2025-10-16)
날짜: 2025-10-16 분류: 데이터 분석 상태: 완료
배경
THE VC 데이터 수집 시도 및 중단
시도:
- THE VC (https://thevc.kr) 투자 데이터 수집 시도
- Playwright로 로그인 및 페이지 분석
- API 엔드포인트 탐색 (/api/information/*)
중단 이유:
- 유료 서비스 약관 위반 가능성
- 컴액 계정 사용으로 회사 리스크
- IP 변경 + 크롤링 = 명백한 우회 시도
- 법적 리스크 (저작권법, 컴퓨터프로그램보호법)
결론: K-스타트업 공개 데이터로 작업 진행
분석 개요
데이터 소스: K-스타트업 (https://www.k-startup.go.kr)
- 2024-11-27 데이터: 10,857개 기업
- 2025-10-16 데이터: 12,703개 기업
- 신규 기업: 1,870개
분석 항목:
- 투자단계별 분포
- 산업분야 트렌드
- 기술스택 트렌드
- 투자/매출 규모
- 기업 규모 (직원 수)
- 지역별 분포 (데이터 부재)
주요 발견사항
1. 투자단계별 분포
| 투자단계 | 개수 | 비율 |
|---|---|---|
| N/A (미공개) | 1,081개 | 57.8% |
| 비공개 | 380개 | 20.3% |
| Seed | 245개 | 13.1% |
| Series A | 47개 | 2.5% |
| M&A | 39개 | 2.1% |
| Pre-A | 37개 | 2.0% |
인사이트:
- 57.8%가 투자 단계 미공개 → 정보 투명성 매우 낮음
- 초기 단계(Seed, Pre-A) 중심: 15.1%
- 후기 단계(Series B+) 매우 적음: 1% 미만
2. 산업분야 트렌드 (Top 10)
| 산업분야 | 개수 | 비율 |
|---|---|---|
| 커머스 | 493개 | 26.4% |
| AI | 433개 | 23.2% |
| 딥테크 | 433개 | 23.2% |
| 블록체인 | 433개 | 23.2% |
| 제조 | 338개 | 18.1% |
| 하드웨어 | 338개 | 18.1% |
| 헬스케어 | 283개 | 15.1% |
| 바이오 | 283개 | 15.1% |
| 콘텐츠 | 165개 | 8.8% |
| 예술 | 165개 | 8.8% |
총 46개 산업분야
인사이트:
- 커머스 압도적 (26.4%)
- AI/딥테크/블록체인 동일 비율 (23.2%) → 태깅 방식 문제 가능성
- 헬스케어/바이오 합치면 15.1% → 의료 혁신 트렌드
3. 기술스택 트렌드 (Top 15)
| 기술 | 개수 | 비율 |
|---|---|---|
| 이커머스 | 460개 | 24.6% |
| AI | 375개 | 20.1% |
| 플랫폼 | 235개 | 12.6% |
| 마켓플레이스 | 235개 | 12.6% |
| 바이오 | 214개 | 11.4% |
| 의료 | 214개 | 11.4% |
| SaaS | 163개 | 8.7% |
| 엔터프라이즈 | 163개 | 8.7% |
| 스킨케어 | 111개 | 5.9% |
| 클렌징 | 111개 | 5.9% |
| 패션 | 97개 | 5.2% |
| 생활용품 | 87개 | 4.7% |
| 소품 | 87개 | 4.7% |
| 기계장비 | 78개 | 4.2% |
| 소부장 | 76개 | 4.1% |
총 328개 기술 태그
인사이트:
- 이커머스 + 플랫폼/마켓플레이스 = 49.8% (거의 절반)
- AI 단독 20.1% → 모든 산업에 AI 적용 트렌드
- SaaS/엔터프라이즈 8.7% → B2B 비즈니스 성장
4. 투자 규모
데이터 현황: 296개 / 1,870개 (15.8%)
| 구간 | 개수 | 비율 |
|---|---|---|
| 1억 미만 | 15개 | 5.1% |
| 1억~5억 | 70개 | 23.6% |
| 5억~10억 | 32개 | 10.8% |
| 10억~50억 | 82개 | 27.7% |
| 50억~100억 | 36개 | 12.2% |
| 100억 이상 | 61개 | 20.6% |
통계:
- 평균: 72.7억원
- 중앙값: 20억원
- 최소: 0.1억원
- 최대: 1,719억원
인사이트:
- 데이터 공개율 매우 낮음 (15.8%)
- 10억~50억 구간이 27.7%로 가장 많음
- 평균(72.7억) >> 중앙값(20억) → 소수 대형 투자가 평균 끌어올림
- 100억 이상 대형 투자 20.6%
5. 매출 규모
데이터 현황: 1,132개 / 1,870개 (60.5%)
| 구간 | 개수 | 비율 |
|---|---|---|
| 1억 미만 | 150개 | 13.3% |
| 1억~5억 | 214개 | 18.9% |
| 5억~10억 | 137개 | 12.1% |
| 10억~50억 | 295개 | 26.1% |
| 50억~100억 | 114개 | 10.1% |
| 100억 이상 | 222개 | 19.6% |
통계:
- 평균: 101.7억원
- 중앙값: 14.5억원
- 최소: 0억원
- 최대: 7,625.7억원
인사이트:
- 투자(15.8%) 대비 매출 공개율 높음 (60.5%)
- 10억~50억 구간 26.1%로 최다
- 100억 이상 성장 기업 19.6% → 실제 매출 발생 기업 존재
6. 기업 규모 (직원 수)
데이터 현황: 1,195개 / 1,870개 (63.9%)
| 구간 | 개수 | 비율 |
|---|---|---|
| 1~5명 | 337개 | 28.2% |
| 6~10명 | 298개 | 24.9% |
| 11~20명 | 233개 | 19.5% |
| 21~50명 | 195개 | 16.3% |
| 51~100명 | 77개 | 6.4% |
| 101명 이상 | 55개 | 4.6% |
통계:
- 평균: 27.5명
- 중앙값: 9명
- 최소: 1명
- 최대: 1,866명
인사이트:
- 10명 이하 53.1% → 초기 단계 스타트업 중심
- 50명 이상 11% → 성장 단계 진입 기업 소수
- 중앙값 9명 → 전형적인 초기 스타트업 규모
7. 지역별 분포
결과: 데이터 없음 (N/A 100%)
문제:
- K-스타트업 데이터에 지역 필드 없음
corpAreaDtl필드 존재하지 않음
핵심 인사이트
투자 전략 시사점
✅ 유망 분야
-
AI 기반 커머스 플랫폼
- 이커머스(24.6%) + AI(20.1%) 결합
- 플랫폼/마켓플레이스 비즈니스 모델
-
헬스케어/바이오 딥테크
- 산업 15.1%, 기술 11.4%
- 진단/검사 기술 (3.9%)
-
ESG/친환경 기술
- 3.2%로 신흥 분야
- 성장 가능성 높음
⚠️ 주의점
-
정보 투명성 매우 낮음
- 투자 단계 57.8% 미공개
- 투자 규모 84.2% 미공개
-
지역 데이터 부재
- 지역별 클러스터 분석 불가
- 정부 지원 정책 연계 어려움
-
후기 단계 기업 부족
- Series B+ 1% 미만
- Exit 기회 제한적
추가 분석 필요
-
투자자 네트워크 분석
- 투자자 데이터 수집 필요
- Co-investment 패턴 분석
-
생존율/폐업률 추적
- 시계열 데이터 축적 필요
- 2024-11-27 → 2025-10-16 변화 추적
-
산업별 성장률 비교
- 매출 성장률 계산
- 투자 대비 성장률 분석
기술적 결정
데이터 소스 선택
- ❌ THE VC: 유료 서비스, 법적 리스크
- ✅ K-스타트업: 공개 데이터, 안전
분석 도구
# 사용한 라이브러리
- json: 데이터 로드
- collections.Counter: 빈도 분석
- re: 투자금액 파싱
# 금액 변환 함수
def convert_to_won(value):
# "14.0억원 이상" → (1400000000, True)
# "20억원" → (2000000000, False)
생성 파일
/home/happybell/projects/ivada/DATA/startup/startups_kor/*.md: 12,688개 마크다운 파일- 신규 기업 1,870개 포함
참고
데이터 파일:
/home/happybell/projects/ivada/DATA/startup/data/startup_data_20241127.json/home/happybell/projects/ivada/DATA/startup/data/startup_data_20251016.json
관련 스크립트:
/home/happybell/projects/ivada/DATA/startup/data/generate_new_companies.py
CLAUDE.md 규칙 준수:
- 추측 금지: 모든 수치는 실제 데이터 기반
- 파일 확인: 필드명, 데이터 개수 직접 확인
- 윤리적 판단: THE VC 크롤링 거부