[2026-data-engineering-zoomcamp] Data Warehouse, Big Query에 대한 이해

[2026-data-engineering-zoomcamp] Data Warehouse, Big Query에 대한 이해 - 3주차

엔지니어가 되자/Data Engineering 2026. 2. 23. 16:08

해외 Data Engineering 부트캠프 Data Engineering Zoom Camp

3주차 Data Warehouse - Big Query 내용 개인 강의 노트입니다.

https://github.com/DataTalksClub/data-engineering-zoomcamp

GitHub - DataTalksClub/data-engineering-zoomcamp: Data Engineering Zoomcamp is a free 9-week course on building production-ready

Data Engineering Zoomcamp is a free 9-week course on building production-ready data pipelines. The next cohort starts in January 2026. Join the course here 👇🏼 - DataTalksClub/data-engineering-zoomcamp

github.com

코스 목표

Data Warehouse에 대한 이해
Big Query 이해도 향상

링크

data-engineering-zoomcamp/cohorts/2026/03-data-warehouse/homework.md at main · DataTalksClub/data-engineering-zoomcamp

github.com

DTalks-DataEng-Data Warehouse

Data Warehouse

docs.google.com

강의 정리

데이터 웨어하우스란?

https://www.youtube.com/watch?v=jrHljAoD6nM&list=PL3MmuxUbc_hJed7dXYoJw8DoCuVHhGEQb&index=35

Clustering in Bigquery

https://www.youtube.com/watch?v=-CqXf7vhhDs&list=PL3MmuxUbc_hJed7dXYoJw8DoCuVHhGEQb&index=36&t=193s

클러스터링이란?

단일 파티션 내에서 특정 값을 기준으로 조회속도를 빠르게 하기 위해 기준에 따라 정렬을 수행하는 것

빅쿼리는 백그라운드에서 오토 클러스터링을 진행함
- 오토 리클러스터링은 파티션 내에서만 작동함
- 쿼리의 성능에 영향 안줌
- 비용 청구되지 않음

빅쿼리 Best Practice

https://www.youtube.com/watch?v=k81mLJVX08w&list=PL3MmuxUbc_hJed7dXYoJw8DoCuVHhGEQb&index=26

비용 절감

*를 사용한 풀스캔 금지
- columnar DB의 특성상 사용할 컬럼만 불러오는 것이 효율적 (cost-wise)
쿼리 실행전 비용 예측해보기
파티셔닝/클러스터링 적용
- 데이터 쿼리 이전에 범위 좁히고 비용 줄이는 것 가능

쿼리 성능

파티셔닝 컬럼 기준 필터링
데이터 비정규화
nested 형태 적극 사용
외부 데이터 소스 적극 사용
자바스크립트 유져팡션 사용 자제
조인패턴 최적화
- 가장 큰 크기의 테이블을 처음으로 위치시 큰 것이 권장됨
  - 이 경우 내부적으로 Broad Cast Hash join 이 작동되도록 설계되어있음

빅쿼리 내부 아키텍쳐

https://www.youtube.com/watch?v=eduHi1inM4s&list=PL3MmuxUbc_hJed7dXYoJw8DoCuVHhGEQb&index=39

크게 3가지 Layer로 구성

storage(Colossus)
network(Jupiter)
compute(Dremel)

DB의 가장 큰 병목인 IO 문제를 연산과 저장구조를 분리하여 그 사이를 대량의 초고속 네트워크 회선으로 연결하여

속도를 극대화한 아키텍쳐

작업을 작은 단위로 chunking하는 아키텍쳐 —> 빠름

'엔지니어가 되자 > Data Engineering' 카테고리의 다른 글

Airflow 아키텍쳐 2.0 -> 3.0 변경사항 알아보기 (0)	2026.02.23
[2026-data-engineering-zoomcamp] Analytics Engineering이란?- 4주차 (0)	2026.02.23
[2026-data-engineering-zoomcamp] Docker - 1주차 (0)	2026.02.05
Analytics 관련 내용 정리 (Data warehouse/Search/Streaming) (0)	2025.01.13
AWS EC2에 Docker 환경 배포 작업기 - WAS(Django) / Web Server(Nginx) / Mysql DB (0)	2024.01.02

ABOUT ME

Joe's 라이브러리

코스 목표

링크

강의 정리

'엔지니어가 되자 > Data Engineering' 카테고리의 다른 글

티스토리툴바

ABOUT ME

코스 목표

링크

강의 정리

'엔지니어가 되자 > Data Engineering' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바