본문 바로가기

분류 전체보기

(39)
[글또] Spark 정리하기(2/2) - Dataframe, Dataset 스파크의 데이터구조 개념중 Dataframe과 Dataset에 대하여 정리합니다. Dataframe 기존의 RDD한계 때문에.. 메모리나 디스크에 저장공간이 충분하지 않을 경우 동작하지 않음 구조화 데이터와 비구조화 된 데이터를 함께 저장하여 효율성 감소 직렬화(JAVA)와 Garbage Collection을 사용하여 메모리 오버헤드 증가 별도 최적화 엔진 별도로 존재하지 않음 > 최적화 작업이 필요 .. Spark 진영에서는 1.3v 부터 Dataframe 개념을 도입 Schema RDD라고 불리기도 함 기본적으로 Structured Data 구조로 이루어지게 된다. 행과 열이 존재하며 그렇기 때문에 SparkSQL등을 통해 SQL 질의를 처리할 수 있게 된다. (1.3v 이후로 가장 큰 장점) GC(..
[글또] Spark 정리하기 (1/2) - 개념, RDD 다른 분들이 정리해주신 블로그 기록을 따라가며 개인적으로 정리를 시작! Spark이란? - Spark은 "General Purpose High Performance Distributed Platform (범용 목적의 분산 고성능 클러스터링)"이다. - Spark이 처음에는 SQL과 같은 데이터 연산 처리를 위한 하나의 문법 정도가 아닐까 하고 막연하게 생각하고 있었는데 기존 정리된 블로그들을 따라가다보니 하나의 데이터 처리 플랫폼 라이브러리에 가깝다는 생각이 든다. 하나의 노드로는 처리하기 힘든 대규모의 데이터를 여러개의 분산된 노드들을 통해 데이터를 처리할 수 있도록 도와주는 데이터 처리 플랫폼. - 그렇기 때문에 Spark 클러스터/플랫폼 위에서 SQL을 수행하는 것은 물론이고, ML라이브러리 (Ex..
[글또] 아마존 레드시프트(AWS Redshift) 이해하기 회사에서 사용하고 있는 데이터 웨어하우스인 AWS Redshift를 아무런 고민없이 사용하다가 어떻게 돌아가는지 궁금해서 한번 알아보았습니다. 김용우 님의 글을 주로 참고했습니다. (링크) 레드시프트(AWS Redshift) - 레드시프트는 아마존 웹서비스에서 제공하는 대용량 병렬처리 관계형 데이터 웨어하우스 서비스 - 일반적인 트랜잭션을 위한 데이터베이스보다는 분석목적의 데이터 저장소에 가깝다 - 병렬처리 관계형 데이터베이스로 리더 - 팔로워 노드 기반의 연산을 수행 - 외부 서비스와의 통신은 오로지 리더 노드(Leader Node)에서만 이루어지게 됨 - 데이터의 업데이트는 S3를 경유하여 이루어짐 - Compute Node의 경우 이론상 여러개로 무한 증식이 가능 - 기존 사용하던 리더 - 팔로워 ..
[글또] 글또 6기를 시작하면서 Why 글또? 나는 왜 글또에 지원했나 2021년의 나는 데이터 엔지니어링 역량을 지향하고 있고 그 역할을 회사에서 성공적으로 수행하기 위해 부족한 부분을 채워나가는 중에 있다. 2020년까지의 나는 데이터 분석 포지션을 지향하며 ML이나 분석 프레임 등에 대해 알아가기 위해 시간을 쓰려고 했지만 방향을 틀었고 지금은 그 쪽 방향에 시간을 쓰는 것을 멈춘 상태이다. 지금 회사는 어린아이를 가진 부모님들을 타겟으로 하고 있는 스타트업이고, 여기서 데이터 엔지니어 포지션을 담당하고 있다. MSA 구조의 서비스를 운영하는 회사라서 데이터가 여기저기 흩어져 있는데 그것들을 모으는 데이터 레이크/마트를 구축하고 운영관리 하는 일이 주된 업무이다. 이 데이터를 가장 많이 찾는 사람들은 개발팀 외의 현직 분들이다. ..
[네트워크] HTTP 정리 - 헤더/캐시 인프런에서 김영한님의 "모든 개발자를 위한 HTTP 웹 기본 지식" 강의를 수강하고 정리한 문서입니다. (더 자세한 내용은 강의를 참고) HTTP Header(헤더) - 기본 개요 헤더에는 HTTP 전송에 필요한 모든 부가정보가 들어있다. 메시지 바디의 내용, 바디의 크기, 서버 정보, 캐시정보... 메시지 바디의 데이터를 해석할 수 있는 정보를 제공해준다. (데이터유형, 데이터 길이 등) 표현방식: header-field = field-name ":" OWS field-value OWS Ex; Content-Type: text/html;charset=UTF-8 표현 (Representation) 기존 RFC2616 에서 사용되던 엔티티(Entity)라는 용어가 폐기되고.. .. 표현(Representa..
[네트워크]HTTP 정리 - 기본 개념 인프런에서 김영한님의 "모든 개발자를 위한 HTTP 웹 기본 지식" 강의를 수강하고 정리한 문서입니다. (더 자세한 내용은 강의를 참고) HTTP 기본 (1/2) HTTP란? Hyper Text Transmission Protocol의 약자 클라이언트-서버 아키텍쳐에서 통신을 위해 사용되는 프로토콜의 하나 현재 구현되어 있는 웹, 앱 등 대다수의 아키텍쳐는 이 HTTP 기반으로 구성되어있음 따라서, IT서비스 뿐만 아니라 데이터를 주고 받는 통신을 알기 위해서는 HTTP에 대한 이해가 필수 HTTP를 이해하기 위한, 인터넷 네트워크 기본 Internet Network 네트워크 상의 통신 규약 중 하나인 HTTP(Hyper Text Transmission Protocol)은 약속 IP (인터넷 프로토콜) ..
[시행착오노트] MySQL rank 함수 구현 활용? 그룹별 rank를 row별로 사용할 때 활용 랭크 순위 기준을 order by를 통해 적용, 그룹 기준을 partition by를 통해 적용 다수의 컬럼에 적용 가능 MySQL에서는 기본 제공되지 않은 함수로 커스터마이징하여 활용해야함 ORACLE, Redshift 등 다른 RDB 내의 함수 select rank () over (partition by GROUP_COL order by ORDER_COL) as rank_colname My SQL 예시 select * from ( select @ROW_NUM := IF(@PREV_VALUE = A.GROUP_COLNAME, @ROW_NUM + 1, 1) AS ROW_NUMBER, @PREV_VALUE := A.GROUP_COLNAME, A.* fro..
[시행착오노트] pandas 고유값 카운트: value_counts() pandas의 dataframe 사용시, SQL의 count(distinct colName) 문법을 사용하고 싶을 때 사용하는 함수 Syntax: Series.value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True) 예시: 링크: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.value_counts.html pandas.Series.value_counts — pandas 1.2.4 documentation Rather than count values, group them into half-open bins, a convenience ..
[시행착오노트] RDB 접속용 Sequel pro 빌드버전 이슈: Mac에서 편하게 사용할 수 있는 DB접속 IDE로 Sequel pro를 유용하게 사용하는데, 종종 DB접속시에 알 수 없는 이슈로 크래시가 날 때가 있다. 해결: 그런 경우 빌드버전으로 접근하면 이유는 알 수 없지만.. 이슈가 해결되는 경우가 종종 있어 다운로드 링크를 남겨두기. 링크: https://sequelpro.com/test-builds Test Builds sequelpro.com
[즐거움찾기] 빕구르망 음식점 자하 손만두 후기 백신 접종 휴가 전날.. 백신접종 이후에는 몸살 때문에 당분간 몸을 움직일 수가 없다 그래서 몸둥이를 이끌고 나홀로 초저녁 인왕산 트래킹에 도전! 등산은 생각보다 오래 걸리지 않았다. 경복궁 1번출구에서 시작하여 인왕산 정상까지 약 3-40분 정도면 성인 기준으로 충분히 등정할 수 있는 거리였다. 올라왔던 길의 반대편인 부암동쪽으로해서 내려가서 근처에서 저녁을 해결하고 집으로 가기로 결정하고 하산을 했다. 예전부터 빕구르망 리스트 하나씩 정복해가는 것에는 관심이 많았는데, 마침 하산길에 부암동 빕구르망 리스트 중 하나인 자하손만두 식당이 있는 것을 발견하고 저녁식사를 해결하러 방문했다. 메뉴판을 보니 만두한판과 빈대떡 등 맛있어보이는 메인 메뉴들이 많았지만, 나홀로 방문한 식객이기도 하고 만둣국이 시그니..