Immersion In Data

AWS

AWS기반 데이터 분석 파이프라인 구축[1]

sungjunminn 2022. 9. 30. 14:55

AWS기반 데이터 분석 파이프라인을 구축해보자.
https://catalog.us-east-1.prod.workshops.aws/workshops/44c91c21-a6a4-4b56-bd95-56bd443aa449/ko-KR

 

Workshop Studio

catalog.us-east-1.prod.workshops.aws


Analytics on AWS workshop Process


사용 서비스 설명

  • Amazon Kinesis : 스트리밍 데이터(실시간 데이터) 수집, 처리 서비스
  • Amazon S3 : 클라우드 스토리지 서비스
  • AWS Glue : 서버리스 데이터 통합 서비스
  • Amazon Athena : S3에 저장된 데이터를 분석할 수 있는 대화식 쿼리 서비스
  • Amazon EMR : 대규모 분산 데이터 처리 작업 클라우드 빅데이터 플랫폼
  • AWS Lambda : 서버리스 컴퓨팅 플랫폼
  • Amazon Redshift : 클라우드 데이터 웨어하우스
  • Amazon QuickSight : 클라우드 BI 서비스
  • Amazon SageMaker : 클라우드 jupyter 노트북

 

학습 결과

  • 서버리스 데이터 레이크 아키텍처 설계
  • Amazon S3 스토리지를 사용하여 데이터를 Data Lake로 수집하는 데이터 처리 파이프라인 구축
  • 실시간 스트리밍 데이터에 Amazon Kinesis 사용
  • 실시간 데이터 분석을 위해 Amazon Kinesis Data Analytics 사용
  • AWS Glue를 사용하여 데이터 세트 자동 분류
  • 데이터 변환
  • AWS Glue 개발 엔드포인트에 연결된 Amazon SageMaker Jupyter 노트북에서 대화형 ETL 스크립트 실행
  • Glue Studio를 사용하여 AWS Glue에서 ETL 작업을 실행하고 모니터링
  • Glue DataBrew를 사용하여 데이터 준비
  • EMR을 사용하여 Spark 변환 작업 실행
  • AWS Glue에서 Amzon Redshift로 데이터 적재
  • Amazon Redshit 모범 설계 사례 소개
  • Amazon Athena를 사용하여 쿼리문을 사용하고, Amazon QuickSight를 사용하여 시각화