ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [Hadoop] Hadoop 2 vs 3
    Dev/BigData 2020. 6. 26. 17:43

    예전에 입사 후 했던 하둡 버전 비교.

     

     

     

    1. 자바 최소 요구 버전

     

    Hadoop 3.0 가이드에 적혀있는 최소 요구 버전

    Hadoop 2.x: Java 7

    Hadoop 3.x: Java 8

     

    2. Fault Tolerance

     

    Hadoop 2.x : can be handled by replication (which is wastage of space)

    Hadoop 3.x : can be handled by Erasure coding

     

    Erasure Coding

    Fault-tolerance를 위한 데이터 보존 기법 중 하나

    흔히 RAID-5에서 사용됨

    데이터 저장 시 EC Codec으로 데이터를 균일한 사이즈의 Data Cell/Parity Cell인코딩

    데이터 로드 시 Data Cell Parity Cell로 구성된 EC Group에서 유실된 Cell에 대해 해당 그룹에 남아있는 Cell들로부터 재구성하여 원본 데이터를 복구하는 디코딩 작업 실행

     

    HDFS-EC

    Intel ISA-LReed-Solomon 알고리즘을 통해 Erasure Coding 수행(스토리지 성능, 처리량, 보안, 안정성 개선)

    EC Exclusive-OR 식 기반 -> Reed-Solomon 알고리즘을 적용하여 Multiple failures 보장

    각 개별 디렉토리에 hdfs erasurecodesetPolicy 커맨드로 규칙 적용

     

    3. Storage Scheme, Overhead

    Hadoop 2.x : 3X replication scheme, 200% overhead in storage space

    Hadoop 3.x : support for erasure coding in HDFS, 50% overhead in storage space

     

    Example:

     

    'Dev > BigData' 카테고리의 다른 글

    [스파크] RDD, Dataframe, Dataset  (0) 2020.06.18

    댓글

Designed by Tistory.