본문 바로가기

전체 글

(40)
[글또] Spark 정리하기 (1/2) - 개념, RDD 다른 분들이 정리해주신 블로그 기록을 따라가며 개인적으로 정리를 시작! Spark이란? - Spark은 "General Purpose High Performance Distributed Platform (범용 목적의 분산 고성능 클러스터링)"이다. - Spark이 처음에는 SQL과 같은 데이터 연산 처리를 위한 하나의 문법 정도가 아닐까 하고 막연하게 생각하고 있었는데 기존 정리된 블로그들을 따라가다보니 하나의 데이터 처리 플랫폼 라이브러리에 가깝다는 생각이 든다. 하나의 노드로는 처리하기 힘든 대규모의 데이터를 여러개의 분산된 노드들을 통해 데이터를 처리할 수 있도록 도와주는 데이터 처리 플랫폼. - 그렇기 때문에 Spark 클러스터/플랫폼 위에서 SQL을 수행하는 것은 물론이고, ML라이브러리 (Ex..
[글또] 아마존 레드시프트(AWS Redshift) 이해하기 회사에서 사용하고 있는 데이터 웨어하우스인 AWS Redshift를 아무런 고민없이 사용하다가 어떻게 돌아가는지 궁금해서 한번 알아보았습니다. 김용우 님의 글을 주로 참고했습니다. (링크) 레드시프트(AWS Redshift) - 레드시프트는 아마존 웹서비스에서 제공하는 대용량 병렬처리 관계형 데이터 웨어하우스 서비스 - 일반적인 트랜잭션을 위한 데이터베이스보다는 분석목적의 데이터 저장소에 가깝다 - 병렬처리 관계형 데이터베이스로 리더 - 팔로워 노드 기반의 연산을 수행 - 외부 서비스와의 통신은 오로지 리더 노드(Leader Node)에서만 이루어지게 됨 - 데이터의 업데이트는 S3를 경유하여 이루어짐 - Compute Node의 경우 이론상 여러개로 무한 증식이 가능 - 기존 사용하던 리더 - 팔로워 ..
[글또] 글또 6기를 시작하면서 Why 글또? 나는 왜 글또에 지원했나 2021년의 나는 데이터 엔지니어링 역량을 지향하고 있고 그 역할을 회사에서 성공적으로 수행하기 위해 부족한 부분을 채워나가는 중에 있다. 2020년까지의 나는 데이터 분석 포지션을 지향하며 ML이나 분석 프레임 등에 대해 알아가기 위해 시간을 쓰려고 했지만 방향을 틀었고 지금은 그 쪽 방향에 시간을 쓰는 것을 멈춘 상태이다. 지금 회사는 어린아이를 가진 부모님들을 타겟으로 하고 있는 스타트업이고, 여기서 데이터 엔지니어 포지션을 담당하고 있다. MSA 구조의 서비스를 운영하는 회사라서 데이터가 여기저기 흩어져 있는데 그것들을 모으는 데이터 레이크/마트를 구축하고 운영관리 하는 일이 주된 업무이다. 이 데이터를 가장 많이 찾는 사람들은 개발팀 외의 현직 분들이다. ..