Dev/BigData
-
[Hadoop] Hadoop 2 vs 3Dev/BigData 2020. 6. 26. 17:43
예전에 입사 후 했던 하둡 버전 비교. 1. 자바 최소 요구 버전 Hadoop 2.x: Java 7 Hadoop 3.x: Java 8 2. Fault Tolerance Hadoop 2.x : can be handled by replication (which is wastage of space) Hadoop 3.x : can be handled by Erasure coding Erasure Coding •Fault-tolerance를 위한 데이터 보존 기법 중 하나 •흔히 RAID-5에서 사용됨 •데이터 저장 시 EC Codec으로 데이터를 균일한 사이즈의 Data Cell/Parity Cell로 인코딩 •데이터 로드 시 Data Cell과 Parity Cell로 구성된 EC Group에서 유실된 Cell..
-
[스파크] RDD, Dataframe, DatasetDev/BigData 2020. 6. 18. 15:15
(빅데이터 분석을 위한 스파크2 프로그래밍 1.1.5의 내용을 제 입맛대로 이해해본 내용입니다) ○모델 (프로그래밍에서) 현실 세계의 사물, 개념을 프로그래밍 언어로 설명하는 과정 데이터를 처리하기 위한 스파크 모델 -> RDD, Dataframe, Dataset RDD는 스파크에서 데이터를 처리하기 위해 가장 처음으로 나온 모델 Dataframe과 Dataset은 RDD의 단점 혹은 아쉬운 점을 해소하기 위해 나온 모델 ○RDD "분산 데이터"에 대한 모델. "값"으로 표현되는 데이터만 가리키는 것이 아님 -> 데이터를 다루는 방법까지 포함(Java의 클래스를 생각하면 된다) "스파크가 사용하는 핵심 데이터 모델로서 다수의 서버에 걸쳐 분산 방식으로 저장된 데이터 요소들의 집합을 의미하며, 병렬처리가 ..