기타

[데이터] 데이터웨어하우스 종류

이영애님 2023. 5. 22. 21:44

1. AWS RedShift

  • 페타바이트(PB) 스케일 데이터의 분산 처리 가능한 웨어하우스
    • python으로 UDF 작성 가능
    • 고정비용, 예약 가격 및 가변비용 옵션 지원 (Redshift Serverless)
  • SQL (PostgreSQL) , CSV, JSON , Avro , Parquet
  • AWS Kenesis와 연동해 실시간 데이터 처리도 가능

 

2. Snowflake

  • 데이터 판매가 가능한 Data Sharing /Marketplace 제공
    • 가변비용 옵션
  • SQL , CSV, JSON , Avro , Parquet
  • 실시간 데이터 처리도 가능

 

3. Google Cloud Bigquery

  • Nested fields , repeated fields 지원하는 데이터웨어하우스
  • 가변비용, 고정비용 옵션 지원
  • SQL , CSV, JSON , Avro , Parquet
  • 실시간 데이터 처리도 가능

 

4. Apache Hive

  • 하둡 기반으로 동작하는 SQL 기반 데이터 웨어하우스
    • MapReduce 혹은 Apache Tez 위에서 동작하는 2가지 버전이 존재
    • 자바 파이썬으로 UDF 작성 가능
  • SQL (HiveQL), CSV, JSON , Avro , Parquet
  • 배치 빅데이터 프로세싱 시스템 (처리속도보다 데이터 양에 최적화됨)
  • 웹 UI , CLI 지원

 

5. Apache Presto

  • 하둡 기반으로 동작하는 SQL 기반 데이터 웨어하우스
  • SQL (PrestoQL) , CSV, JSON , Avro , Parquet
  • 배치 빅데이터 프로세싱 시스템 (처리속도에 최적화됨 - 메모리 기반)
  • 웹 UI , CLI 지원

Hive , Presto 는 점점 비슷해지는 추세다

 

6. Apache Spark

  • 배치 , 실시간 , 그래프 , 머신러닝 등 빅데이터 처리 관련 모든 기능 제공
  • 분산처리 시스템 지원
    • Yarn , K8s, …
  • 파일시스템을 연동하여 사용
  • SQL , CSV, JSON , Avro , ORC , Parquet
  • 자바 , 파이썬 , 스칼라 , R 지원

 

💡 Apache Presto

  • 대용량 SCD(Slowly-Changing Datasets) 데이터를 처리하는 테이블 포맷
  • 클라우드 스토리지 지원
  • ACID 트랜잭션과 타임여행 지원 (롤백 , 변경 기록 유지)
  • Schema Evolution 지원을 통한 컬럼 추가 및 제거 지원
  • 자바 , 파이썬 API 지원 </aside>