-
[데이터] 데이터웨어하우스 종류기타 2023. 5. 22. 21:44
1. AWS RedShift
- 페타바이트(PB) 스케일 데이터의 분산 처리 가능한 웨어하우스
- python으로 UDF 작성 가능
- 고정비용, 예약 가격 및 가변비용 옵션 지원 (Redshift Serverless)
- SQL (PostgreSQL) , CSV, JSON , Avro , Parquet
- AWS Kenesis와 연동해 실시간 데이터 처리도 가능
2. Snowflake
- 데이터 판매가 가능한 Data Sharing /Marketplace 제공
- 가변비용 옵션
- SQL , CSV, JSON , Avro , Parquet
- 실시간 데이터 처리도 가능
3. Google Cloud Bigquery
- Nested fields , repeated fields 지원하는 데이터웨어하우스
- 가변비용, 고정비용 옵션 지원
- SQL , CSV, JSON , Avro , Parquet
- 실시간 데이터 처리도 가능
4. Apache Hive
- 하둡 기반으로 동작하는 SQL 기반 데이터 웨어하우스
- MapReduce 혹은 Apache Tez 위에서 동작하는 2가지 버전이 존재
- 자바 파이썬으로 UDF 작성 가능
- SQL (HiveQL), CSV, JSON , Avro , Parquet
- 배치 빅데이터 프로세싱 시스템 (처리속도보다 데이터 양에 최적화됨)
- 웹 UI , CLI 지원
5. Apache Presto
- 하둡 기반으로 동작하는 SQL 기반 데이터 웨어하우스
- SQL (PrestoQL) , CSV, JSON , Avro , Parquet
- 배치 빅데이터 프로세싱 시스템 (처리속도에 최적화됨 - 메모리 기반)
- 웹 UI , CLI 지원
Hive , Presto 는 점점 비슷해지는 추세다
6. Apache Spark
- 배치 , 실시간 , 그래프 , 머신러닝 등 빅데이터 처리 관련 모든 기능 제공
- 분산처리 시스템 지원
- Yarn , K8s, …
- 파일시스템을 연동하여 사용
- SQL , CSV, JSON , Avro , ORC , Parquet
- 자바 , 파이썬 , 스칼라 , R 지원
💡 Apache Presto
- 대용량 SCD(Slowly-Changing Datasets) 데이터를 처리하는 테이블 포맷
- 클라우드 스토리지 지원
- ACID 트랜잭션과 타임여행 지원 (롤백 , 변경 기록 유지)
- Schema Evolution 지원을 통한 컬럼 추가 및 제거 지원
- 자바 , 파이썬 API 지원 </aside>
'기타' 카테고리의 다른 글
(23.8.16~) 블로그 이전 (0) 2023.08.16 [데이터] 데이터 조직 업무 (1) 2023.05.22 [데이터] 디지털 마켓팅과 데이터 (1) 2023.05.12 [데이터] 데이터를 다루는 자세 (0) 2023.05.09 [개발방법론] 테스트 (0) 2023.05.08 - 페타바이트(PB) 스케일 데이터의 분산 처리 가능한 웨어하우스