-
Data Lake
ETL
- 외부에서 DataLake , DataWarehouse 로 데이터를 가져오는 것
- Airflow (권장)
- ETL 관련 SaaS - FiveTran , Stitch Data
- 아직까지 기능이 강력하지 않아 데이터엔지니어가 없는 경우만 사용
ELT
- DataLake, DataWarehouse 에서 데이터를 처리하는 것
데이터웨어하우스
- 회사에 필요한 모든 데이터를 모아놓은 중앙 데이터베이스
- AWS Redshift , BigQuery , Snowflake
- 오픈소스 기반 하둡(Hive, Presto) / Spark
- 프로덕션 데이터베이스와 별개의 데이터 베이스
- SQL 지원
빅데이터 처리 프레임워크
- 다수의 서버로 구성되어 있다
- Fault Tolerance : 소수의 서버가 죽어도 동작해야 한다
- 확장이 용이해야 한다
시각화 대시보드
- 중요한 지표를 시간의 흐름과 함께 보여주는 것이 일반적이다
- Accessible : 언제든지 지표를 볼 수 있어야 한다
- Actionable : 등락의 의미가 분명해야 한다
- Auditable : 지표의 수치가 맞는지 확인하는 방법이 필요하다
- 매출액 , 월/주간 액티브 사용자수
- Looker , Tableau , Power BI , Superset
머신러닝
- 프로그래밍 없이 데이터로부터 패턴을 찾아 학습하는 알고리즘
- 데이터 품질과 크기가 중요하다 → Garbage In , Garbage Out
- 내부동작 설명해야 한다
데이터 디스커버리
- 데이터 카탈로그 검색 서비스
- 아문센 , 데이터허브 , 셀렉트스타