Streaming
-
[스파크 완벽 가이드] Chapter 20 - 스트림 처리의 기초Dev/Spark 2020. 12. 12. 21:33
* 해당 포스트는 "스파크 완벽 가이드" 책을 읽고 난 이후의 정리 내용입니다. 자세한 내용은 "스파크 완벽 가이드" 책을 통해 확인해주세요. Apache Spark에서는 RDD와 유사한 연산을 실시간 처리로 수행할 수 있게 하는 DStream API와 Dataset, Dataframe을 사용해 실시간 처리를 수행하는 Structured Streaming으로 나뉨 1. 스트림 처리란 스트림 처리: 신규 데이터를 끊임없이 처리해 결과를 만들어내는 행위, 입력 데이터 무한, 시작과 끝이 정해져 있지 않음 입력 데이터: 스트림 처리 시스템에 도착한 일련의 이벤트(Ex: 신용카드 전표 정보, 웹 사이트 클릭, IoT 장비의 센서 데이터 등) 스트리밍 App: 이벤트 스트림이 도착하면 다양한 쿼리 연산을 수행, ..