DOCS/journey/troubleshooting/251016_startup_trend_analysis.md
Claude-51124 22557e7132 docs: 오래된 트러블슈팅 아카이브 및 구조 정리
- 7-8월 초기 구축 문서 12개를 _archive/troubleshooting/2025_07-08_initial_setup/로 이동
- book/300_architecture/390_human_in_the_loop_intent_learning.md를 journey/research/intent_classification/로 이동 (개발 여정 문서)
- 빈 폴더 제거 (journey/assets/*)
2025-11-17 14:06:05 +09:00

7.1 KiB

신규 기업 트렌드 분석 (2024-11-27 → 2025-10-16)

날짜: 2025-10-16 분류: 데이터 분석 상태: 완료

배경

THE VC 데이터 수집 시도 및 중단

시도:

  • THE VC (https://thevc.kr) 투자 데이터 수집 시도
  • Playwright로 로그인 및 페이지 분석
  • API 엔드포인트 탐색 (/api/information/*)

중단 이유:

  • 유료 서비스 약관 위반 가능성
  • 컴액 계정 사용으로 회사 리스크
  • IP 변경 + 크롤링 = 명백한 우회 시도
  • 법적 리스크 (저작권법, 컴퓨터프로그램보호법)

결론: K-스타트업 공개 데이터로 작업 진행


분석 개요

데이터 소스: K-스타트업 (https://www.k-startup.go.kr)

  • 2024-11-27 데이터: 10,857개 기업
  • 2025-10-16 데이터: 12,703개 기업
  • 신규 기업: 1,870개

분석 항목:

  1. 투자단계별 분포
  2. 산업분야 트렌드
  3. 기술스택 트렌드
  4. 투자/매출 규모
  5. 기업 규모 (직원 수)
  6. 지역별 분포 (데이터 부재)

주요 발견사항

1. 투자단계별 분포

투자단계 개수 비율
N/A (미공개) 1,081개 57.8%
비공개 380개 20.3%
Seed 245개 13.1%
Series A 47개 2.5%
M&A 39개 2.1%
Pre-A 37개 2.0%

인사이트:

  • 57.8%가 투자 단계 미공개 → 정보 투명성 매우 낮음
  • 초기 단계(Seed, Pre-A) 중심: 15.1%
  • 후기 단계(Series B+) 매우 적음: 1% 미만

2. 산업분야 트렌드 (Top 10)

산업분야 개수 비율
커머스 493개 26.4%
AI 433개 23.2%
딥테크 433개 23.2%
블록체인 433개 23.2%
제조 338개 18.1%
하드웨어 338개 18.1%
헬스케어 283개 15.1%
바이오 283개 15.1%
콘텐츠 165개 8.8%
예술 165개 8.8%

총 46개 산업분야

인사이트:

  • 커머스 압도적 (26.4%)
  • AI/딥테크/블록체인 동일 비율 (23.2%) → 태깅 방식 문제 가능성
  • 헬스케어/바이오 합치면 15.1% → 의료 혁신 트렌드

3. 기술스택 트렌드 (Top 15)

기술 개수 비율
이커머스 460개 24.6%
AI 375개 20.1%
플랫폼 235개 12.6%
마켓플레이스 235개 12.6%
바이오 214개 11.4%
의료 214개 11.4%
SaaS 163개 8.7%
엔터프라이즈 163개 8.7%
스킨케어 111개 5.9%
클렌징 111개 5.9%
패션 97개 5.2%
생활용품 87개 4.7%
소품 87개 4.7%
기계장비 78개 4.2%
소부장 76개 4.1%

총 328개 기술 태그

인사이트:

  • 이커머스 + 플랫폼/마켓플레이스 = 49.8% (거의 절반)
  • AI 단독 20.1% → 모든 산업에 AI 적용 트렌드
  • SaaS/엔터프라이즈 8.7% → B2B 비즈니스 성장

4. 투자 규모

데이터 현황: 296개 / 1,870개 (15.8%)

구간 개수 비율
1억 미만 15개 5.1%
1억~5억 70개 23.6%
5억~10억 32개 10.8%
10억~50억 82개 27.7%
50억~100억 36개 12.2%
100억 이상 61개 20.6%

통계:

  • 평균: 72.7억원
  • 중앙값: 20억원
  • 최소: 0.1억원
  • 최대: 1,719억원

인사이트:

  • 데이터 공개율 매우 낮음 (15.8%)
  • 10억~50억 구간이 27.7%로 가장 많음
  • 평균(72.7억) >> 중앙값(20억) → 소수 대형 투자가 평균 끌어올림
  • 100억 이상 대형 투자 20.6%

5. 매출 규모

데이터 현황: 1,132개 / 1,870개 (60.5%)

구간 개수 비율
1억 미만 150개 13.3%
1억~5억 214개 18.9%
5억~10억 137개 12.1%
10억~50억 295개 26.1%
50억~100억 114개 10.1%
100억 이상 222개 19.6%

통계:

  • 평균: 101.7억원
  • 중앙값: 14.5억원
  • 최소: 0억원
  • 최대: 7,625.7억원

인사이트:

  • 투자(15.8%) 대비 매출 공개율 높음 (60.5%)
  • 10억~50억 구간 26.1%로 최다
  • 100억 이상 성장 기업 19.6% → 실제 매출 발생 기업 존재

6. 기업 규모 (직원 수)

데이터 현황: 1,195개 / 1,870개 (63.9%)

구간 개수 비율
1~5명 337개 28.2%
6~10명 298개 24.9%
11~20명 233개 19.5%
21~50명 195개 16.3%
51~100명 77개 6.4%
101명 이상 55개 4.6%

통계:

  • 평균: 27.5명
  • 중앙값: 9명
  • 최소: 1명
  • 최대: 1,866명

인사이트:

  • 10명 이하 53.1% → 초기 단계 스타트업 중심
  • 50명 이상 11% → 성장 단계 진입 기업 소수
  • 중앙값 9명 → 전형적인 초기 스타트업 규모

7. 지역별 분포

결과: 데이터 없음 (N/A 100%)

문제:

  • K-스타트업 데이터에 지역 필드 없음
  • corpAreaDtl 필드 존재하지 않음

핵심 인사이트

투자 전략 시사점

유망 분야

  1. AI 기반 커머스 플랫폼

    • 이커머스(24.6%) + AI(20.1%) 결합
    • 플랫폼/마켓플레이스 비즈니스 모델
  2. 헬스케어/바이오 딥테크

    • 산업 15.1%, 기술 11.4%
    • 진단/검사 기술 (3.9%)
  3. ESG/친환경 기술

    • 3.2%로 신흥 분야
    • 성장 가능성 높음

⚠️ 주의점

  1. 정보 투명성 매우 낮음

    • 투자 단계 57.8% 미공개
    • 투자 규모 84.2% 미공개
  2. 지역 데이터 부재

    • 지역별 클러스터 분석 불가
    • 정부 지원 정책 연계 어려움
  3. 후기 단계 기업 부족

    • Series B+ 1% 미만
    • Exit 기회 제한적

추가 분석 필요

  1. 투자자 네트워크 분석

    • 투자자 데이터 수집 필요
    • Co-investment 패턴 분석
  2. 생존율/폐업률 추적

    • 시계열 데이터 축적 필요
    • 2024-11-27 → 2025-10-16 변화 추적
  3. 산업별 성장률 비교

    • 매출 성장률 계산
    • 투자 대비 성장률 분석

기술적 결정

데이터 소스 선택

  • THE VC: 유료 서비스, 법적 리스크
  • K-스타트업: 공개 데이터, 안전

분석 도구

# 사용한 라이브러리
- json: 데이터 로드
- collections.Counter: 빈도 분석
- re: 투자금액 파싱

# 금액 변환 함수
def convert_to_won(value):
    # "14.0억원 이상" → (1400000000, True)
    # "20억원" → (2000000000, False)

생성 파일

  • /home/happybell/projects/ivada/DATA/startup/startups_kor/*.md: 12,688개 마크다운 파일
  • 신규 기업 1,870개 포함

참고

데이터 파일:

  • /home/happybell/projects/ivada/DATA/startup/data/startup_data_20241127.json
  • /home/happybell/projects/ivada/DATA/startup/data/startup_data_20251016.json

관련 스크립트:

  • /home/happybell/projects/ivada/DATA/startup/data/generate_new_companies.py

CLAUDE.md 규칙 준수:

  • 추측 금지: 모든 수치는 실제 데이터 기반
  • 파일 확인: 필드명, 데이터 개수 직접 확인
  • 윤리적 판단: THE VC 크롤링 거부