DataTalksClub DE Zoomcamp 회고록

수강 배경

데이터 엔지니어링을 체계적으로 학습하고 싶었습니다. 각 개념이 어떤 맥락에서 왜 사용되는지에 대한 깊이 있는 이해가 필요하다고 느꼈습니다. (특히 Spark에 대한 설명이 이해하기 쉬웠고, group by가 동작하는 메커니즘 등을 통해 분산 환경에서 어떻게 연산이 수행되는지 잘 알 수 있었습니다.) 무료로 제공되는 커리큘럼 중 가장 체계적이라고 판단해 DataTalksClub DE Zoomcamp를 선택했습니다.

커리큘럼 흐름

Week	주제	핵심 내용
Week 3-1	OLTP vs OLAP	데이터 웨어하우스의 목적과 설계 차이
Week 3-2	Google BigQuery	컬럼형 저장소, 파티셔닝, 클러스터링
Week 4	Analytics Engineering	AE의 역할, Raw → Analytics-ready 변환
Week 4-1	dbt 실습	모델링, 테스트, 문서화 자동화
Week 5	Data Platform (bruin)	통합 데이터 플랫폼 관점
Week 6	Batch Pipeline (Spark)	분산 배치 처리
Week 7	Stream (Kafka)	이벤트 스트리밍, 실시간 파이프라인

배운 것들

개념적으로 정리된 것들

OLTP vs OLAP의 설계 철학 차이 — 정규화와 비정규화가 각각 어떤 문제를 해결하기 위해 존재하는지 명확해졌습니다.
Analytics Engineering의 위치 — 데이터 엔지니어와 분석가 사이에서 dbt가 왜 필요한지 이해하게 됐습니다.
배치와 스트리밍의 적합한 사용 시점 — 모든 것을 스트리밍으로 처리할 필요는 없고, 비용·복잡도·요구 지연시간을 기준으로 선택해야 한다는 것을 배웠습니다.

실무와 연결된 것들

Zoomcamp를 들으면서 각 도구가 어떤 문제를 해결하기 위해 만들어졌는지, 어떤 상황에서 선택해야 하는지를 이해하게 됐습니다.

Lambda Architecture — 배치 레이어와 스피드 레이어를 분리해야 하는 이유를 이 과정에서 명확히 이해했습니다.
dbt — 데이터 변환 로직을 SQL로 관리하고 버전 관리할 수 있다는 점이 인상적이었습니다.

아쉬운 점

Week 1~2는 Docker, Terraform 기반의 인프라 설정이었는데, 이미 어느 정도 익숙한 내용이라 빠르게 넘어갔습니다. 처음 접하는 분들에게는 난이도가 있을 것 같습니다.
실습 환경이 GCP 기반이라 비용이 발생할 수 있는 부분이 있었습니다. 로컬 환경으로 대체하는 과정에서 공식 가이드와 차이가 생기기도 했습니다.

다음 단계

dbt를 실제 프로젝트의 배치 레이어 변환에 적용해 볼 계획입니다.
Spark 최적화(파티셔닝 전략, 셔플 최소화)를 더 깊이 공부할 예정입니다.
CDC 파이프라인 프로젝트를 진행 할 예정입니다.

Gray's DataHub

탐색기

회고록