Dev/Spark
-
[스파크 완벽 가이드] Chapter 6 - 다양한 데이터 타입 다루기 (2)Dev/Spark 2020. 10. 18. 14:36
*해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. * 내용이 너무 길어 나눠 게시합니다. (1) povia.tistory.com/38 [스파크 완벽 가이드] Chapter 6 - 다양한 데이터 타입 다루기 (1) *해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. * 내용이 너무 길어 나눠 게시합니다. 표현식 생성 방� povia.tistory.com 6.4 수치형 데이터 타입 다루기 count: 가장 기본적으로, 많이 다루는 작업 pow: 제곱 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 ..
-
[스파크 완벽 가이드] Chapter 7 - 집계 연산 (2)Dev/Spark 2020. 10. 18. 02:39
* 해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. * 내용이 너무 길어 나눠 게시합니다. povia.tistory.com/39 [스파크 완벽 가이드] Chapter 7 - 집계 연산 (1) *해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. * 내용이 너무 길어 나눠 게시합니다. 집계 연산에 대� povia.tistory.com 7.2 그룹화(Grouping) Grouping할 대상 컬럼(들)을 설정한 후 대상 컬럼(들), 혹은 타 컬럼들을 가공하기 위해 사용 컬럼(들)의 그룹화(RelationalGroupedDataset으..
-
[스파크 완벽 가이드] Chapter 7 - 집계 연산 (1)Dev/Spark 2020. 10. 18. 02:07
* 해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. * 내용이 너무 길어 나눠 게시합니다. 집계 연산에 대해 설명하는 장 집계: 무언가를 함께 모으는 행위 집계 함수: 키/그룹 지정 후 하나 이상의 컬럼을 변환하는 집계 함수, 여러 입력 값 -> 그룹별 결과 생성 Ex) 특정 그룹의 평균값 구하기 등의 수치형 데이터 요약 7.1 집계 함수 org.apache.spark.sql.functions 패키지에서 찾을 수 있음 사용 데이터 github.com/databricks/Spark-The-Definitive-Guide databricks/Spark-The-Definitive-Guide Spark: The Defini..
-
[스파크 완벽 가이드] Chapter 6 - 다양한 데이터 타입 다루기 (1)Dev/Spark 2020. 10. 16. 00:21
*해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. * 내용이 너무 길어 나눠 게시합니다. 표현식 생성 방법, 데이터 처리 방법에 대해 익힘 Booleans Numbers Strings Date, Timestamp Null Complex Types(Array, Map 등) 사용자 정의 함수(User Defined Function, UDF) 6.1 API 찾기 Spark -> 업데이트가 주기적으로 빨리 됨(현재 3.01) 주로 봐야할 부분 Dataset, Dataframe 메서드(DataFrameStatFunctions, DataFrameNaFunctions 등) Column 🗨참고용 Docs 페이지들 Spark Sc..
-
[스파크 완벽 가이드] Chapter 2 - 스파크 간단히 살펴보기Dev/Spark 2020. 10. 4. 17:17
* 해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. 스파크의 기본 아키텍쳐 커져가는 데이터를 분석(프로세싱)하기 위해서는 더 많은 자원이 필요 더 많은 자원 -> Scale up, Scale out을 통해 이루어짐 Scale up: 하드웨어의 자원을 늘리는 것 Scale out: 하드웨어 자체를 늘리는 것 Spark: Cluster에서 데이터를 프로세싱하기 위한 프레임워크 클러스터 매니저: Cluster에서의 자원 할당을 관리하는 관리자 스파크 애플리케이션에서의 작업 과정 드라이버: main() 함수 프로세스 익스큐터: 드라이버 프로세스가 SparkContext, SparkSession에 할당한 작업 수행 클러스터..