Dev
-
[스파크 완벽 가이드] Chapter 6 - 다양한 데이터 타입 다루기 (3)Dev/Spark 2020. 10. 25. 18:51
*해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. * 내용이 너무 길어 나눠 게시합니다. (1) povia.tistory.com/38 [스파크 완벽 가이드] Chapter 6 - 다양한 데이터 타입 다루기 (1) *해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. * 내용이 너무 길어 나눠 게시합니다. 표현식 생성 방 povia.tistory.com (2) povia.tistory.com/41 [스파크 완벽 가이드] Chapter 6 - 다양한 데이터 타입 다루기 (2) *해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이..
-
[스파크 완벽 가이드] Chapter 6 - 다양한 데이터 타입 다루기 (2)Dev/Spark 2020. 10. 18. 14:36
*해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. * 내용이 너무 길어 나눠 게시합니다. (1) povia.tistory.com/38 [스파크 완벽 가이드] Chapter 6 - 다양한 데이터 타입 다루기 (1) *해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. * 내용이 너무 길어 나눠 게시합니다. 표현식 생성 방� povia.tistory.com 6.4 수치형 데이터 타입 다루기 count: 가장 기본적으로, 많이 다루는 작업 pow: 제곱 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 ..
-
[스파크 완벽 가이드] Chapter 7 - 집계 연산 (2)Dev/Spark 2020. 10. 18. 02:39
* 해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. * 내용이 너무 길어 나눠 게시합니다. povia.tistory.com/39 [스파크 완벽 가이드] Chapter 7 - 집계 연산 (1) *해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. * 내용이 너무 길어 나눠 게시합니다. 집계 연산에 대� povia.tistory.com 7.2 그룹화(Grouping) Grouping할 대상 컬럼(들)을 설정한 후 대상 컬럼(들), 혹은 타 컬럼들을 가공하기 위해 사용 컬럼(들)의 그룹화(RelationalGroupedDataset으..
-
[스파크 완벽 가이드] Chapter 7 - 집계 연산 (1)Dev/Spark 2020. 10. 18. 02:07
* 해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. * 내용이 너무 길어 나눠 게시합니다. 집계 연산에 대해 설명하는 장 집계: 무언가를 함께 모으는 행위 집계 함수: 키/그룹 지정 후 하나 이상의 컬럼을 변환하는 집계 함수, 여러 입력 값 -> 그룹별 결과 생성 Ex) 특정 그룹의 평균값 구하기 등의 수치형 데이터 요약 7.1 집계 함수 org.apache.spark.sql.functions 패키지에서 찾을 수 있음 사용 데이터 github.com/databricks/Spark-The-Definitive-Guide databricks/Spark-The-Definitive-Guide Spark: The Defini..
-
[스파크 완벽 가이드] Chapter 6 - 다양한 데이터 타입 다루기 (1)Dev/Spark 2020. 10. 16. 00:21
*해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. * 내용이 너무 길어 나눠 게시합니다. 표현식 생성 방법, 데이터 처리 방법에 대해 익힘 Booleans Numbers Strings Date, Timestamp Null Complex Types(Array, Map 등) 사용자 정의 함수(User Defined Function, UDF) 6.1 API 찾기 Spark -> 업데이트가 주기적으로 빨리 됨(현재 3.01) 주로 봐야할 부분 Dataset, Dataframe 메서드(DataFrameStatFunctions, DataFrameNaFunctions 등) Column 🗨참고용 Docs 페이지들 Spark Sc..
-
[스파크 완벽 가이드] Chapter 2 - 스파크 간단히 살펴보기Dev/Spark 2020. 10. 4. 17:17
* 해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. 스파크의 기본 아키텍쳐 커져가는 데이터를 분석(프로세싱)하기 위해서는 더 많은 자원이 필요 더 많은 자원 -> Scale up, Scale out을 통해 이루어짐 Scale up: 하드웨어의 자원을 늘리는 것 Scale out: 하드웨어 자체를 늘리는 것 Spark: Cluster에서 데이터를 프로세싱하기 위한 프레임워크 클러스터 매니저: Cluster에서의 자원 할당을 관리하는 관리자 스파크 애플리케이션에서의 작업 과정 드라이버: main() 함수 프로세스 익스큐터: 드라이버 프로세스가 SparkContext, SparkSession에 할당한 작업 수행 클러스터..
-
2020-09-17 오늘의 일지Dev/개발일지 2020. 9. 17. 17:59
WebMvcConfigurer의 addResourceHandlers addResourceHandler는 요청하기 위한 식별자 addResourceLocations는 실제 파일의 경로 의 형식으로 지정한다. 예를 들어 /etc/img/126.jpg를 읽어오기 위해서 addResourceHandlers에 ("/image_view/**")라고 addResourceHandler("/image_view/**").addResourceLocations( "file:/etc/img/" ); 로 설정한 경우 jsp에서는 로만 적용한다면 이미지가 정상적으로 출력된다.
-
2020-09-08 오늘의 일지Dev/개발일지 2020. 9. 8. 15:21
mysql 쿼리를 작성하다 보니 불현듯 까먹을까봐 저장. limit의 경우 몇개까지를 제한한다의 의미도 있지만 파라메터를 두개 사용할 경우 앞의 숫자는 skip의 의미를, 뒤의 숫자는 제한의 의미를 갖게 된다. 예를 들어 select ~~~~ limit 10,10의 경우 모든 결과 셋이 나온 다음에 그 중에서 앞의 10개는 건너뛰고 10개를 출력하라는 의미가 된다. limit 10이라고 작성을 할 경우 앞의 0개를 건너뛰고(0이 생략된 것) 10개 제한으로 출력하라는 의미로 이해했다. 페이징 처리에서 이를 사용해야겠다.