-
[Hadoop] Hadoop 2 vs 3Dev/BigData 2020. 6. 26. 17:43
예전에 입사 후 했던 하둡 버전 비교.
1. 자바 최소 요구 버전
Hadoop 2.x: Java 7
Hadoop 3.x: Java 8
2. Fault Tolerance
Hadoop 2.x : can be handled by replication (which is wastage of space)
Hadoop 3.x : can be handled by Erasure coding
Erasure Coding
•Fault-tolerance를 위한 데이터 보존 기법 중 하나
•흔히 RAID-5에서 사용됨
•데이터 저장 시 EC Codec으로 데이터를 균일한 사이즈의 Data Cell/Parity Cell로 인코딩
•데이터 로드 시 Data Cell과 Parity Cell로 구성된 EC Group에서 유실된 Cell에 대해 해당 그룹에 남아있는 Cell들로부터 재구성하여 원본 데이터를 복구하는 디코딩 작업 실행
HDFS-EC
•Intel ISA-L의 Reed-Solomon 알고리즘을 통해 Erasure Coding 수행(스토리지 성능, 처리량, 보안, 안정성 개선)
•EC는 Exclusive-OR 식 기반 -> Reed-Solomon 알고리즘을 적용하여 Multiple failures 보장
•각 개별 디렉토리에 hdfs erasurecode –setPolicy 커맨드로 규칙 적용
3. Storage Scheme, Overhead
Hadoop 2.x : 3X replication scheme, 200% overhead in storage space
Hadoop 3.x : support for erasure coding in HDFS, 50% overhead in storage space
Example:
'Dev > BigData' 카테고리의 다른 글
[스파크] RDD, Dataframe, Dataset (0) 2020.06.18