RDD
-
[스파크 완벽 가이드] Chapter 12 - RDDDev/Spark 2020. 11. 15. 17:22
* 해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. RDD 저수준 API는 RDD, SparkContext, Accumulator, Broadcast variable로 이루어짐 12.1 저수준 API란 RDD: 분산 데이터 처리 API Accumulator, Broadcast Variable: 분산형 공유 변수 12.1.1 저수준 API는 언제 사용할까 고수준 API에서 제공하지 않는 기능이 필요한 경우. RDD를 사용해 개발된 기존 코드를 유지해야 하는 경우 사용자가 정의한 공유 변수를 다뤄야 하는 경우 스파크의 모든 워크로드: 저수준 기능을 사용하는 기초적인 형태로 컴파일됨 DataFrame 트랜스포메이션 ->..
-
[스파크] RDD, Dataframe, DatasetDev/BigData 2020. 6. 18. 15:15
(빅데이터 분석을 위한 스파크2 프로그래밍 1.1.5의 내용을 제 입맛대로 이해해본 내용입니다) ○모델 (프로그래밍에서) 현실 세계의 사물, 개념을 프로그래밍 언어로 설명하는 과정 데이터를 처리하기 위한 스파크 모델 -> RDD, Dataframe, Dataset RDD는 스파크에서 데이터를 처리하기 위해 가장 처음으로 나온 모델 Dataframe과 Dataset은 RDD의 단점 혹은 아쉬운 점을 해소하기 위해 나온 모델 ○RDD "분산 데이터"에 대한 모델. "값"으로 표현되는 데이터만 가리키는 것이 아님 -> 데이터를 다루는 방법까지 포함(Java의 클래스를 생각하면 된다) "스파크가 사용하는 핵심 데이터 모델로서 다수의 서버에 걸쳐 분산 방식으로 저장된 데이터 요소들의 집합을 의미하며, 병렬처리가 ..