분류 전체보기
-
[스파크 완벽 가이드] Chapter 12 - RDDDev/Spark 2020. 11. 15. 17:22
* 해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. RDD 저수준 API는 RDD, SparkContext, Accumulator, Broadcast variable로 이루어짐 12.1 저수준 API란 RDD: 분산 데이터 처리 API Accumulator, Broadcast Variable: 분산형 공유 변수 12.1.1 저수준 API는 언제 사용할까 고수준 API에서 제공하지 않는 기능이 필요한 경우. RDD를 사용해 개발된 기존 코드를 유지해야 하는 경우 사용자가 정의한 공유 변수를 다뤄야 하는 경우 스파크의 모든 워크로드: 저수준 기능을 사용하는 기초적인 형태로 컴파일됨 DataFrame 트랜스포메이션 ->..
-
[스파크 완벽 가이드] Chapter 11 - DatasetDev/Spark 2020. 11. 15. 04:44
* 해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. Dataset? Dataset: 구조적 API의 기본 데이터 타입, Scala와 Java에서만 사용 가능 Dataframe: Dataset[Row] 11.1 Dataset을 사용할 시기 DataFrame 기능만으로는 수행할 연산을 표현할 수 없을 때 복잡한 비즈니스 로직을 SQL이나 DataFrame 대신 단일 함수로 인코딩해야 하는 경우 성능 저하를 감수하면서 타입 안정성(type-safe)을 가진 데이터 타입을 사용하고 싶을 때 사용할 Function과 대상 Object의 데이터 타입이 맞지 않는 경우 처럼 데이터 타입이 유효하지 않은 작업을 수행하지 못하도록..
-
[스파크 완벽 가이드] 목차Dev/Spark 2020. 10. 27. 09:46
CHAPTER 2 스파크 간단히 살펴보기 povia.tistory.com/37 [스파크 완벽 가이드] Chapter 2 스파크 간단히 살펴보기 스파크의 기본 아키텍쳐 커져가는 데이터를 분석(프로세싱)하기 위해서는 더 많은 자원이 필요 더 많은 자원 -> Scale up, Scale out을 통해 이루어짐 Scale up: 하 povia.tistory.com CHAPTER 6 다양한 데이터 타입 다루기 povia.tistory.com/38 [스파크 완벽 가이드] Chapter 6 - 다양한 데이터 타입 다루기 (1) *해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. * 내용이 너무 길어 나눠 게시합니다. 표현식 생성..
-
2020-10-26 오늘의 일지Dev/개발일지 2020. 10. 26. 15:55
Hive에서 Table을 생성할 경우 CREATE 문에 COMMENT를 한글로 작성하면 깨져서 저장됨. 해결 방법: Hive Metastore의 character set을 변경 heum-story.tistory.com/34 [리눅스] mysql,mariadb 한글 깨짐 현상 해결 방법(hive metastore) Hive에서 desc로 테이블 조회 시 한글 comment가 깨지는 경우가 있는데 hive의 metastore DB 한글 설정이 안되서 그럽니다. 아래 조치 방법입니다. 1. my.cnf 수정 [root@localhost]$ vi /etc/my.cnf my.cnf 파일.. heum-story.tistory.com 이 페이지에 자세하게 적혀있으니 확인해서 사용하면 결과가 정상적으로 출력되는 것을 ..
-
[프로그래머스] 완주하지 못한 선수Dev/알고리즘 2020. 10. 26. 10:04
문제: programmers.co.kr/learn/courses/30/lessons/42576 코딩테스트 연습 - 완주하지 못한 선수 수많은 마라톤 선수들이 마라톤에 참여하였습니다. 단 한 명의 선수를 제외하고는 모든 선수가 마라톤을 완주하였습니다. 마라톤에 참여한 선수들의 이름이 담긴 배열 participant와 완주한 선수 programmers.co.kr ArrayList를 쓰면 효율성 테스트 실패 HashSet을 쓰면 문제 조건을 맞추지 못함(HashSet은 중복을 허용하지 않기 때문) HashMap에 completion의 모든 값을 키로 넣어주고, 그것의 갯수를 체크해 값에 넣어준다. 이후 participant 배열을 하나씩 검색해 HashMap에 해당 participant가 있는지 확인한다. 1..
-
[스파크 완벽 가이드] Chapter 6 - 다양한 데이터 타입 다루기 (3)Dev/Spark 2020. 10. 25. 18:51
*해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. * 내용이 너무 길어 나눠 게시합니다. (1) povia.tistory.com/38 [스파크 완벽 가이드] Chapter 6 - 다양한 데이터 타입 다루기 (1) *해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. * 내용이 너무 길어 나눠 게시합니다. 표현식 생성 방 povia.tistory.com (2) povia.tistory.com/41 [스파크 완벽 가이드] Chapter 6 - 다양한 데이터 타입 다루기 (2) *해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이..
-
[스파크 완벽 가이드] Chapter 6 - 다양한 데이터 타입 다루기 (2)Dev/Spark 2020. 10. 18. 14:36
*해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. * 내용이 너무 길어 나눠 게시합니다. (1) povia.tistory.com/38 [스파크 완벽 가이드] Chapter 6 - 다양한 데이터 타입 다루기 (1) *해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. * 내용이 너무 길어 나눠 게시합니다. 표현식 생성 방� povia.tistory.com 6.4 수치형 데이터 타입 다루기 count: 가장 기본적으로, 많이 다루는 작업 pow: 제곱 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 ..
-
[스파크 완벽 가이드] Chapter 7 - 집계 연산 (2)Dev/Spark 2020. 10. 18. 02:39
* 해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. * 내용이 너무 길어 나눠 게시합니다. povia.tistory.com/39 [스파크 완벽 가이드] Chapter 7 - 집계 연산 (1) *해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. * 내용이 너무 길어 나눠 게시합니다. 집계 연산에 대� povia.tistory.com 7.2 그룹화(Grouping) Grouping할 대상 컬럼(들)을 설정한 후 대상 컬럼(들), 혹은 타 컬럼들을 가공하기 위해 사용 컬럼(들)의 그룹화(RelationalGroupedDataset으..