-
[2026-data-engineering-zoomcamp] Data Warehouse, Big Query에 대한 이해 - 3주차엔지니어가 되자/Data Engineering 2026. 2. 23. 16:08
해외 Data Engineering 부트캠프 Data Engineering Zoom Camp
3주차 Data Warehouse - Big Query 내용 개인 강의 노트입니다.
https://github.com/DataTalksClub/data-engineering-zoomcamp
GitHub - DataTalksClub/data-engineering-zoomcamp: Data Engineering Zoomcamp is a free 9-week course on building production-ready
Data Engineering Zoomcamp is a free 9-week course on building production-ready data pipelines. The next cohort starts in January 2026. Join the course here 👇🏼 - DataTalksClub/data-engineering-zoomcamp
github.com
코스 목표
- Data Warehouse에 대한 이해
- Big Query 이해도 향상
링크
- 슬라이드: https://docs.google.com/presentation/d/1a3ZoBAXFk8-EhUsd7rAZd-5p_HpltkzSeujjRGB2TAI/edit?slide=id.p#slide=id.p
- HW: https://github.com/DataTalksClub/data-engineering-zoomcamp/blob/main/cohorts/2026/03-data-warehouse/homework.md
data-engineering-zoomcamp/cohorts/2026/03-data-warehouse/homework.md at main · DataTalksClub/data-engineering-zoomcamp
Data Engineering Zoomcamp is a free 9-week course on building production-ready data pipelines. The next cohort starts in January 2026. Join the course here 👇🏼 - DataTalksClub/data-engineering-zoomcamp
github.com
DTalks-DataEng-Data Warehouse
Data Warehouse
docs.google.com
강의 정리
데이터 웨어하우스란?
https://www.youtube.com/watch?v=jrHljAoD6nM&list=PL3MmuxUbc_hJed7dXYoJw8DoCuVHhGEQb&index=35

Clustering in Bigquery
https://www.youtube.com/watch?v=-CqXf7vhhDs&list=PL3MmuxUbc_hJed7dXYoJw8DoCuVHhGEQb&index=36&t=193s
클러스터링이란?
- 단일 파티션 내에서 특정 값을 기준으로 조회속도를 빠르게 하기 위해 기준에 따라 정렬을 수행하는 것

- 빅쿼리는 백그라운드에서 오토 클러스터링을 진행함
- 오토 리클러스터링은 파티션 내에서만 작동함
- 쿼리의 성능에 영향 안줌
- 비용 청구되지 않음
빅쿼리 Best Practice
https://www.youtube.com/watch?v=k81mLJVX08w&list=PL3MmuxUbc_hJed7dXYoJw8DoCuVHhGEQb&index=26
비용 절감
- *를 사용한 풀스캔 금지
- columnar DB의 특성상 사용할 컬럼만 불러오는 것이 효율적 (cost-wise)
- 쿼리 실행전 비용 예측해보기
- 파티셔닝/클러스터링 적용
- 데이터 쿼리 이전에 범위 좁히고 비용 줄이는 것 가능
쿼리 성능
- 파티셔닝 컬럼 기준 필터링
- 데이터 비정규화
- nested 형태 적극 사용
- 외부 데이터 소스 적극 사용
- 자바스크립트 유져팡션 사용 자제
- 조인패턴 최적화
- 가장 큰 크기의 테이블을 처음으로 위치시 큰 것이 권장됨
- 이 경우 내부적으로 Broad Cast Hash join 이 작동되도록 설계되어있음
- 가장 큰 크기의 테이블을 처음으로 위치시 큰 것이 권장됨
빅쿼리 내부 아키텍쳐
https://www.youtube.com/watch?v=eduHi1inM4s&list=PL3MmuxUbc_hJed7dXYoJw8DoCuVHhGEQb&index=39
크게 3가지 Layer로 구성
- storage(Colossus)
- network(Jupiter)
- compute(Dremel)
DB의 가장 큰 병목인 IO 문제를 연산과 저장구조를 분리하여 그 사이를 대량의 초고속 네트워크 회선으로 연결하여
속도를 극대화한 아키텍쳐

- 작업을 작은 단위로 chunking하는 아키텍쳐 —> 빠름
반응형'엔지니어가 되자 > Data Engineering' 카테고리의 다른 글
Airflow 아키텍쳐 2.0 -> 3.0 변경사항 알아보기 (0) 2026.02.23 [2026-data-engineering-zoomcamp] Analytics Engineering이란?- 4주차 (0) 2026.02.23 [2026-data-engineering-zoomcamp] Docker - 1주차 (0) 2026.02.05 Analytics 관련 내용 정리 (Data warehouse/Search/Streaming) (0) 2025.01.13 AWS EC2에 Docker 환경 배포 작업기 - WAS(Django) / Web Server(Nginx) / Mysql DB (0) 2024.01.02