전체 글 (42) 썸네일형 리스트형 [글또] 스칼라와 친해지기 (개념/설치/문법) Java에서 갈라져 나온 언어인 스칼라를 정리해보자 1. 소개 - 스위스 로잔 연방 공과대학교(EPFL)의 마틴 오더스키(Martin Odersky)가 개발했다. - 자바의 제너릭 설계에도 참여했던 마틴 오더스키가 설계 도중 창안 - 그렇기 때문에 자연스럽게 스칼라도 Java 계열의 언어이며 JVM위에서 동작하도록 고안되었다. - Scalable language를 줄여서 Scala가 되었다고 한다. - 초기 학습곡선이 꽤 높다고 한다. (무엇이 다른 언어에 비해 초기학습곡선을 높게 만든걸까?) - 미국에서 2018년부터 현재까지 프로그래머 연봉 1위의 언어라고 한다. - 아마 빅데이터 엔지니어링 관련하여 Spark과 호환이 가장 좋은 언어이기 때문이지 않을까 생각중. - 빅데이터 엔지니어 연봉 = 스칼라.. [글또] Spark 정리하기(2/2) - Dataframe, Dataset 스파크의 데이터구조 개념중 Dataframe과 Dataset에 대하여 정리합니다. Dataframe 기존의 RDD한계 때문에.. 메모리나 디스크에 저장공간이 충분하지 않을 경우 동작하지 않음 구조화 데이터와 비구조화 된 데이터를 함께 저장하여 효율성 감소 직렬화(JAVA)와 Garbage Collection을 사용하여 메모리 오버헤드 증가 별도 최적화 엔진 별도로 존재하지 않음 > 최적화 작업이 필요 .. Spark 진영에서는 1.3v 부터 Dataframe 개념을 도입 Schema RDD라고 불리기도 함 기본적으로 Structured Data 구조로 이루어지게 된다. 행과 열이 존재하며 그렇기 때문에 SparkSQL등을 통해 SQL 질의를 처리할 수 있게 된다. (1.3v 이후로 가장 큰 장점) GC(.. [글또] Spark 정리하기 (1/2) - 개념, RDD 다른 분들이 정리해주신 블로그 기록을 따라가며 개인적으로 정리를 시작! Spark이란? - Spark은 "General Purpose High Performance Distributed Platform (범용 목적의 분산 고성능 클러스터링)"이다. - Spark이 처음에는 SQL과 같은 데이터 연산 처리를 위한 하나의 문법 정도가 아닐까 하고 막연하게 생각하고 있었는데 기존 정리된 블로그들을 따라가다보니 하나의 데이터 처리 플랫폼 라이브러리에 가깝다는 생각이 든다. 하나의 노드로는 처리하기 힘든 대규모의 데이터를 여러개의 분산된 노드들을 통해 데이터를 처리할 수 있도록 도와주는 데이터 처리 플랫폼. - 그렇기 때문에 Spark 클러스터/플랫폼 위에서 SQL을 수행하는 것은 물론이고, ML라이브러리 (Ex.. 이전 1 2 3 4 5 6 7 8 ··· 14 다음