ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [데이터] 데이터웨어하우스 종류
    기타 2023. 5. 22. 21:44

    1. AWS RedShift

    • 페타바이트(PB) 스케일 데이터의 분산 처리 가능한 웨어하우스
      • python으로 UDF 작성 가능
      • 고정비용, 예약 가격 및 가변비용 옵션 지원 (Redshift Serverless)
    • SQL (PostgreSQL) , CSV, JSON , Avro , Parquet
    • AWS Kenesis와 연동해 실시간 데이터 처리도 가능

     

    2. Snowflake

    • 데이터 판매가 가능한 Data Sharing /Marketplace 제공
      • 가변비용 옵션
    • SQL , CSV, JSON , Avro , Parquet
    • 실시간 데이터 처리도 가능

     

    3. Google Cloud Bigquery

    • Nested fields , repeated fields 지원하는 데이터웨어하우스
    • 가변비용, 고정비용 옵션 지원
    • SQL , CSV, JSON , Avro , Parquet
    • 실시간 데이터 처리도 가능

     

    4. Apache Hive

    • 하둡 기반으로 동작하는 SQL 기반 데이터 웨어하우스
      • MapReduce 혹은 Apache Tez 위에서 동작하는 2가지 버전이 존재
      • 자바 파이썬으로 UDF 작성 가능
    • SQL (HiveQL), CSV, JSON , Avro , Parquet
    • 배치 빅데이터 프로세싱 시스템 (처리속도보다 데이터 양에 최적화됨)
    • 웹 UI , CLI 지원

     

    5. Apache Presto

    • 하둡 기반으로 동작하는 SQL 기반 데이터 웨어하우스
    • SQL (PrestoQL) , CSV, JSON , Avro , Parquet
    • 배치 빅데이터 프로세싱 시스템 (처리속도에 최적화됨 - 메모리 기반)
    • 웹 UI , CLI 지원

    Hive , Presto 는 점점 비슷해지는 추세다

     

    6. Apache Spark

    • 배치 , 실시간 , 그래프 , 머신러닝 등 빅데이터 처리 관련 모든 기능 제공
    • 분산처리 시스템 지원
      • Yarn , K8s, …
    • 파일시스템을 연동하여 사용
    • SQL , CSV, JSON , Avro , ORC , Parquet
    • 자바 , 파이썬 , 스칼라 , R 지원

     

    💡 Apache Presto

    • 대용량 SCD(Slowly-Changing Datasets) 데이터를 처리하는 테이블 포맷
    • 클라우드 스토리지 지원
    • ACID 트랜잭션과 타임여행 지원 (롤백 , 변경 기록 유지)
    • Schema Evolution 지원을 통한 컬럼 추가 및 제거 지원
    • 자바 , 파이썬 API 지원 </aside>

    '기타' 카테고리의 다른 글

    (23.8.16~) 블로그 이전  (0) 2023.08.16
    [데이터] 데이터 조직 업무  (1) 2023.05.22
    [데이터] 디지털 마켓팅과 데이터  (1) 2023.05.12
    [데이터] 데이터를 다루는 자세  (0) 2023.05.09
    [개발방법론] 테스트  (0) 2023.05.08
Designed by Tistory.