spark
-
[스파크 완벽 가이드] Chapter 6 - 다양한 데이터 타입 다루기 (2)Dev/Spark 2020. 10. 18. 14:36
*해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. * 내용이 너무 길어 나눠 게시합니다. (1) povia.tistory.com/38 [스파크 완벽 가이드] Chapter 6 - 다양한 데이터 타입 다루기 (1) *해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. * 내용이 너무 길어 나눠 게시합니다. 표현식 생성 방� povia.tistory.com 6.4 수치형 데이터 타입 다루기 count: 가장 기본적으로, 많이 다루는 작업 pow: 제곱 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 ..
-
[스파크 완벽 가이드] Chapter 7 - 집계 연산 (2)Dev/Spark 2020. 10. 18. 02:39
* 해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. * 내용이 너무 길어 나눠 게시합니다. povia.tistory.com/39 [스파크 완벽 가이드] Chapter 7 - 집계 연산 (1) *해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. * 내용이 너무 길어 나눠 게시합니다. 집계 연산에 대� povia.tistory.com 7.2 그룹화(Grouping) Grouping할 대상 컬럼(들)을 설정한 후 대상 컬럼(들), 혹은 타 컬럼들을 가공하기 위해 사용 컬럼(들)의 그룹화(RelationalGroupedDataset으..
-
[스파크 완벽 가이드] Chapter 7 - 집계 연산 (1)Dev/Spark 2020. 10. 18. 02:07
* 해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. * 내용이 너무 길어 나눠 게시합니다. 집계 연산에 대해 설명하는 장 집계: 무언가를 함께 모으는 행위 집계 함수: 키/그룹 지정 후 하나 이상의 컬럼을 변환하는 집계 함수, 여러 입력 값 -> 그룹별 결과 생성 Ex) 특정 그룹의 평균값 구하기 등의 수치형 데이터 요약 7.1 집계 함수 org.apache.spark.sql.functions 패키지에서 찾을 수 있음 사용 데이터 github.com/databricks/Spark-The-Definitive-Guide databricks/Spark-The-Definitive-Guide Spark: The Defini..
-
[스파크 완벽 가이드] Chapter 6 - 다양한 데이터 타입 다루기 (1)Dev/Spark 2020. 10. 16. 00:21
*해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. * 내용이 너무 길어 나눠 게시합니다. 표현식 생성 방법, 데이터 처리 방법에 대해 익힘 Booleans Numbers Strings Date, Timestamp Null Complex Types(Array, Map 등) 사용자 정의 함수(User Defined Function, UDF) 6.1 API 찾기 Spark -> 업데이트가 주기적으로 빨리 됨(현재 3.01) 주로 봐야할 부분 Dataset, Dataframe 메서드(DataFrameStatFunctions, DataFrameNaFunctions 등) Column 🗨참고용 Docs 페이지들 Spark Sc..
-
[스파크 완벽 가이드] Chapter 2 - 스파크 간단히 살펴보기Dev/Spark 2020. 10. 4. 17:17
* 해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. 스파크의 기본 아키텍쳐 커져가는 데이터를 분석(프로세싱)하기 위해서는 더 많은 자원이 필요 더 많은 자원 -> Scale up, Scale out을 통해 이루어짐 Scale up: 하드웨어의 자원을 늘리는 것 Scale out: 하드웨어 자체를 늘리는 것 Spark: Cluster에서 데이터를 프로세싱하기 위한 프레임워크 클러스터 매니저: Cluster에서의 자원 할당을 관리하는 관리자 스파크 애플리케이션에서의 작업 과정 드라이버: main() 함수 프로세스 익스큐터: 드라이버 프로세스가 SparkContext, SparkSession에 할당한 작업 수행 클러스터..
-
2020-08-12 오늘의 일지Dev/개발일지 2020. 8. 12. 17:48
aws의 s3에서 데이터를 받아와 Spark에서 이를 csv로 저장하는 프로토타입을 만들기로 했다. 구현 방향을 잡기 위해 일단 awssdk(v2)를 사용해 s3의 데이터를 작업용 랩탑에 저장하고, 저장된 데이터들을 Spark를 사용해 csv로 변환 후 저장하는 방향으로 두개로 나눠 구현했다. 1) s3 데이터 -> 로컬 데이터의 형식은 parquet이고, s3의 버킷 내에 폴더/년/월/일/parquet파일 구조로 이루어져 있었다. AwsCredentials을 사용해 인증키들을 설정하고(accessKeyId, secretAccessKey) S3Client Object를 빌드해 가져왔다. (인증키가 이미 PC에 있다면 EnvironmentVariableCredentialsProvider.create()를 ..
-
[스파크] RDD, Dataframe, DatasetDev/BigData 2020. 6. 18. 15:15
(빅데이터 분석을 위한 스파크2 프로그래밍 1.1.5의 내용을 제 입맛대로 이해해본 내용입니다) ○모델 (프로그래밍에서) 현실 세계의 사물, 개념을 프로그래밍 언어로 설명하는 과정 데이터를 처리하기 위한 스파크 모델 -> RDD, Dataframe, Dataset RDD는 스파크에서 데이터를 처리하기 위해 가장 처음으로 나온 모델 Dataframe과 Dataset은 RDD의 단점 혹은 아쉬운 점을 해소하기 위해 나온 모델 ○RDD "분산 데이터"에 대한 모델. "값"으로 표현되는 데이터만 가리키는 것이 아님 -> 데이터를 다루는 방법까지 포함(Java의 클래스를 생각하면 된다) "스파크가 사용하는 핵심 데이터 모델로서 다수의 서버에 걸쳐 분산 방식으로 저장된 데이터 요소들의 집합을 의미하며, 병렬처리가 ..
-
2020.05.08 오늘의 일지Dev/개발일지 2020. 6. 1. 02:57
SparkSession 실행 관련 1 2 3 4 5 6 7 8 9 10 11 12 13 public SparkSession setSpark(){ SparkSession spark = SparkSession.builder() .master("local[*]") // Cluster DeployMode일 경우 주석처리 .config("spark.submit.deployMode","cluster") // Local 마스터일 경우 주석처리 .config("spark.driver.host", "localhost") // Cluster DeployMode일 경우 주석처리 .config("spark.cleaner.referenceTracking.cleanCheckpoints", "true") .appName("MyAp..