scala
-
2020-08-12 오늘의 일지Dev/개발일지 2020. 8. 12. 17:48
aws의 s3에서 데이터를 받아와 Spark에서 이를 csv로 저장하는 프로토타입을 만들기로 했다. 구현 방향을 잡기 위해 일단 awssdk(v2)를 사용해 s3의 데이터를 작업용 랩탑에 저장하고, 저장된 데이터들을 Spark를 사용해 csv로 변환 후 저장하는 방향으로 두개로 나눠 구현했다. 1) s3 데이터 -> 로컬 데이터의 형식은 parquet이고, s3의 버킷 내에 폴더/년/월/일/parquet파일 구조로 이루어져 있었다. AwsCredentials을 사용해 인증키들을 설정하고(accessKeyId, secretAccessKey) S3Client Object를 빌드해 가져왔다. (인증키가 이미 PC에 있다면 EnvironmentVariableCredentialsProvider.create()를 ..