ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [DATA] 데이터 산업 모르는 용어 정리
    기타 2020. 8. 13. 17:22

    1- 데이터를 DW에 수집(Collection), 통합, 저장한다.

    2- DW 데이터를  정제(Cleansing), 변환(transform), 형성(shaping), 집계(Aggregation), 모델링한다.

    3- 데이터를 시각화(Visulalize), 추출(Extract)한다.

     

     데이터가 단일소스(DB)다  -> 데이터 적재(Load) 생략 

     데이터 분석을 해서 성능 저하가 없다  -> DW 생략

     데이터 변환이 필요없다  -> 데이터 모델링, 데이터 변환(transform) 생략

     

    # 1) 데이터 수집, 통합, 저장 

     

    - 원시데이터를 staging area로 수집

    - 원시데이터를 DW로 통합. ETL. ELT

     

     Staging Area - 데이터 dump의 서버. Data lake. 

     ETL - Extract-Transform-Load. 추출-변환-적재.

     ELT - Extract-Load-Transform. 추출-적재-변환. 2창 참고.

     Data Warehouse - 중앙 분석 데이터베이스. 데이터 분석을 위한 바탕.

     

    # 2) DW 내 데이터 처리. 정제. 변환. 형성

     

     Data Modeling  - 비즈니스 로직, 공식을 데이터에 적용

     Data Transform - 데이터 정제, 요약, 집계

     

    # 3) 데이터 표현 사용. 시각화 4장 참고.

     

     Ad-Hoc Analysis

     데이터 보고

     데이터 탐색 - 사용자가 데이터 탐색할 수 있도록 한다

     

    ============================================================================

     

    [데이터 적재(ETL) 도구]

    - (유료) Talend, StitchData

    - (무료) Airflow, Prefect, Meltano 

    - Holistics, Google, Data Studio 및 Tableau 와 같은 데이터 분석 플랫폼에 번들로 제공.

     

    Legacy ETL - ETL, 스키마. rdb. 온프로미스 DW (비싸고 느림). 

    Modern ETL - Cloud. real time. 스케일,보안 걱정x. 

     

    ============================================================================

    온프레미스 데이터 웨어하우스 - 보안취약. 개인정보 유출우려. 제어권한상실. 인터넷필수. 

    클라우드 데이터 웨어하우스  - 접근유용. 저장효용, 쉽고 빠른 셋업, 자동 업데이트, 비용절감.

     

    하둡(HIVE) - 대규모 병렬처리

    MPP  - 분산 DB, DW. 대규모 열 형식 처리. *SQL기반 BI 도구 지원.

     

    * Looker, Tableau

     

    데이터 레이크 - 스키마 x. 원시 데이터를 저장

    데이터 웨어하우스 - 스키마의 한계. 데이터 품질에 대한 오차. 데이터 정제시 주관개입.

    데이터 마트 - 조직의 단일 부서

    ============================================================================

     

    데이터거버넌스 - 조직에 제한된 데이터가 아닌, 전체 데이터 관리. (품질,수명주기,권한,통합)

    DataSource  - rdbms , cloud, clawling, csv ...

    DW - GCP, Snowflake

    DA.BI - ML,AL ,lokker, taleau

     

    Legacy Data Source

    - Netezza

    - Teradata

    - Oracle Exadata

    '기타' 카테고리의 다른 글

    [Docker] PostgreSQL docker 로 띄우기  (0) 2022.12.26
    [기타] Headless browser  (0) 2022.12.19
    [eclipse]  (0) 2020.06.15
    [CMD]  (0) 2020.06.15
    curl window 에서 사용하기  (0) 2019.12.05
Designed by Tistory.