-
[DATA] 데이터 산업 모르는 용어 정리기타 2020. 8. 13. 17:22
1- 데이터를 DW에 수집(Collection), 통합, 저장한다.
2- DW 데이터를 정제(Cleansing), 변환(transform), 형성(shaping), 집계(Aggregation), 모델링한다.
3- 데이터를 시각화(Visulalize), 추출(Extract)한다.
데이터가 단일소스(DB)다 -> 데이터 적재(Load) 생략
데이터 분석을 해서 성능 저하가 없다 -> DW 생략
데이터 변환이 필요없다 -> 데이터 모델링, 데이터 변환(transform) 생략
# 1) 데이터 수집, 통합, 저장
- 원시데이터를 staging area로 수집
- 원시데이터를 DW로 통합. ETL. ELT
Staging Area - 데이터 dump의 서버. Data lake.
ETL - Extract-Transform-Load. 추출-변환-적재.
ELT - Extract-Load-Transform. 추출-적재-변환. 2창 참고.
Data Warehouse - 중앙 분석 데이터베이스. 데이터 분석을 위한 바탕.
# 2) DW 내 데이터 처리. 정제. 변환. 형성
Data Modeling - 비즈니스 로직, 공식을 데이터에 적용
Data Transform - 데이터 정제, 요약, 집계
# 3) 데이터 표현 사용. 시각화 4장 참고.
Ad-Hoc Analysis
데이터 보고
데이터 탐색 - 사용자가 데이터 탐색할 수 있도록 한다
============================================================================
[데이터 적재(ETL) 도구]
- (유료) Talend, StitchData
- (무료) Airflow, Prefect, Meltano
- Holistics, Google, Data Studio 및 Tableau 와 같은 데이터 분석 플랫폼에 번들로 제공.
Legacy ETL - ETL, 스키마. rdb. 온프로미스 DW (비싸고 느림).
Modern ETL - Cloud. real time. 스케일,보안 걱정x.
============================================================================
온프레미스 데이터 웨어하우스 - 보안취약. 개인정보 유출우려. 제어권한상실. 인터넷필수.
클라우드 데이터 웨어하우스 - 접근유용. 저장효용, 쉽고 빠른 셋업, 자동 업데이트, 비용절감.
하둡(HIVE) - 대규모 병렬처리
MPP - 분산 DB, DW. 대규모 열 형식 처리. *SQL기반 BI 도구 지원.
* Looker, Tableau
데이터 레이크 - 스키마 x. 원시 데이터를 저장
데이터 웨어하우스 - 스키마의 한계. 데이터 품질에 대한 오차. 데이터 정제시 주관개입.
데이터 마트 - 조직의 단일 부서
============================================================================
데이터거버넌스 - 조직에 제한된 데이터가 아닌, 전체 데이터 관리. (품질,수명주기,권한,통합)
DataSource - rdbms , cloud, clawling, csv ...
DW - GCP, Snowflake
DA.BI - ML,AL ,lokker, taleau
Legacy Data Source
- Netezza
- Teradata
- Oracle Exadata
'기타' 카테고리의 다른 글
[Docker] PostgreSQL docker 로 띄우기 (0) 2022.12.26 [기타] Headless browser (0) 2022.12.19 [eclipse] (0) 2020.06.15 [CMD] (0) 2020.06.15 curl window 에서 사용하기 (0) 2019.12.05