-
현업에서 깨끗한 데이터란 존재하지 않는다
- 데이터를 믿지 말고, 실제 레코드 몇 개를 살펴 본다
- 데이터의 품질을 체크한다
- 중복된 레코드들 체크하기
- 최근 데이터의 존재 여부 체크하기 (freshness)
- 타임 스탬프 필드가 있다면 최근에도 업데이트된 레코드가 있는지 확인
- 언제부터 레코드가 생성되었는지 확인
- 월별로 레코드수를 확인해보는 것도 좋은 버릇
- Primary key uniqueness가 지켜지는지 체크
- 값이 비어있는 컬럼 체크
- 품질 체크는 코딩의 unit test 형태로 만들어 매번 검증한다
Data Discovery Problems
- 회사가 성장할 수록 많은 테이블이 존재하게 된다
- 무슨 테이블에 내가 원하고 신뢰할 수 있는 정보가 들어있나?
- 테이블에 대해 질문을 하고 싶은데 누구에게 질문을 해야하나?
- 주기적으로 안쓰는 테이블 제거한다
- 테이블 검색엔진과 관련된 오픈소스를 이용한다
- DataHub (LinkedIn), Amundsen (Lyft), ...
- Select Star, DataFrame, …