ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [데이터] 데이터 조직 업무
    기타 2023. 5. 22. 21:42

    Data Lake

    • 모든 데이터를 보존하는 스토리지

     

    ETL

    • 외부에서 DataLake , DataWarehouse 로 데이터를 가져오는 것
      • Airflow (권장)
      • ETL 관련 SaaS - FiveTran , Stitch Data
        • 아직까지 기능이 강력하지 않아 데이터엔지니어가 없는 경우만 사용

     

    ELT

    • DataLake, DataWarehouse 에서 데이터를 처리하는 것

     

     

    데이터웨어하우스

    • 회사에 필요한 모든 데이터를 모아놓은 중앙 데이터베이스
      • AWS Redshift , BigQuery , Snowflake
      • 오픈소스 기반 하둡(Hive, Presto) / Spark
    • 프로덕션 데이터베이스와 별개의 데이터 베이스
    • SQL 지원

     

     

    빅데이터 처리 프레임워크

    • 다수의 서버로 구성되어 있다
    • Fault Tolerance : 소수의 서버가 죽어도 동작해야 한다
    • 확장이 용이해야 한다

     

     

    시각화 대시보드

    • 중요한 지표를 시간의 흐름과 함께 보여주는 것이 일반적이다
      • Accessible : 언제든지 지표를 볼 수 있어야 한다
      • Actionable : 등락의 의미가 분명해야 한다
      • Auditable : 지표의 수치가 맞는지 확인하는 방법이 필요하다
      • 매출액 , 월/주간 액티브 사용자수
    • Looker , Tableau , Power BI , Superset

     

     

    머신러닝

    • 프로그래밍 없이 데이터로부터 패턴을 찾아 학습하는 알고리즘
    • 데이터 품질과 크기가 중요하다 → Garbage In , Garbage Out
    • 내부동작 설명해야 한다

     

    데이터 디스커버리

    • 데이터 카탈로그 검색 서비스
      • 테이블 , 대시보드, 파이프 라인 등
    • 아문센 , 데이터허브 , 셀렉트스타

    '기타' 카테고리의 다른 글

    (23.8.16~) 블로그 이전  (0) 2023.08.16
    [데이터] 데이터웨어하우스 종류  (2) 2023.05.22
    [데이터] 디지털 마켓팅과 데이터  (1) 2023.05.12
    [데이터] 데이터를 다루는 자세  (0) 2023.05.09
    [개발방법론] 테스트  (0) 2023.05.08
Designed by Tistory.