기타

[DATA] 데이터 산업 모르는 용어 정리

이영애님 2020. 8. 13. 17:22

1- 데이터를 DW에 수집(Collection), 통합, 저장한다.

2- DW 데이터를  정제(Cleansing), 변환(transform), 형성(shaping), 집계(Aggregation), 모델링한다.

3- 데이터를 시각화(Visulalize), 추출(Extract)한다.

 

 데이터가 단일소스(DB)다  -> 데이터 적재(Load) 생략 

 데이터 분석을 해서 성능 저하가 없다  -> DW 생략

 데이터 변환이 필요없다  -> 데이터 모델링, 데이터 변환(transform) 생략

 

# 1) 데이터 수집, 통합, 저장 

 

- 원시데이터를 staging area로 수집

- 원시데이터를 DW로 통합. ETL. ELT

 

 Staging Area - 데이터 dump의 서버. Data lake. 

 ETL - Extract-Transform-Load. 추출-변환-적재.

 ELT - Extract-Load-Transform. 추출-적재-변환. 2창 참고.

 Data Warehouse - 중앙 분석 데이터베이스. 데이터 분석을 위한 바탕.

 

# 2) DW 내 데이터 처리. 정제. 변환. 형성

 

 Data Modeling  - 비즈니스 로직, 공식을 데이터에 적용

 Data Transform - 데이터 정제, 요약, 집계

 

# 3) 데이터 표현 사용. 시각화 4장 참고.

 

 Ad-Hoc Analysis

 데이터 보고

 데이터 탐색 - 사용자가 데이터 탐색할 수 있도록 한다

 

============================================================================

 

[데이터 적재(ETL) 도구]

- (유료) Talend, StitchData

- (무료) Airflow, Prefect, Meltano 

- Holistics, Google, Data Studio 및 Tableau 와 같은 데이터 분석 플랫폼에 번들로 제공.

 

Legacy ETL - ETL, 스키마. rdb. 온프로미스 DW (비싸고 느림). 

Modern ETL - Cloud. real time. 스케일,보안 걱정x. 

 

============================================================================

온프레미스 데이터 웨어하우스 - 보안취약. 개인정보 유출우려. 제어권한상실. 인터넷필수. 

클라우드 데이터 웨어하우스  - 접근유용. 저장효용, 쉽고 빠른 셋업, 자동 업데이트, 비용절감.

 

하둡(HIVE) - 대규모 병렬처리

MPP  - 분산 DB, DW. 대규모 열 형식 처리. *SQL기반 BI 도구 지원.

 

* Looker, Tableau

 

데이터 레이크 - 스키마 x. 원시 데이터를 저장

데이터 웨어하우스 - 스키마의 한계. 데이터 품질에 대한 오차. 데이터 정제시 주관개입.

데이터 마트 - 조직의 단일 부서

============================================================================

 

데이터거버넌스 - 조직에 제한된 데이터가 아닌, 전체 데이터 관리. (품질,수명주기,권한,통합)

DataSource  - rdbms , cloud, clawling, csv ...

DW - GCP, Snowflake

DA.BI - ML,AL ,lokker, taleau

 

Legacy Data Source

- Netezza

- Teradata

- Oracle Exadata