AWS기반 데이터 분석 파이프라인을 구축해보자.
https://catalog.us-east-1.prod.workshops.aws/workshops/44c91c21-a6a4-4b56-bd95-56bd443aa449/ko-KR
Analytics on AWS workshop Process
사용 서비스 설명
- Amazon Kinesis : 스트리밍 데이터(실시간 데이터) 수집, 처리 서비스
- Amazon S3 : 클라우드 스토리지 서비스
- AWS Glue : 서버리스 데이터 통합 서비스
- Amazon Athena : S3에 저장된 데이터를 분석할 수 있는 대화식 쿼리 서비스
- Amazon EMR : 대규모 분산 데이터 처리 작업 클라우드 빅데이터 플랫폼
- AWS Lambda : 서버리스 컴퓨팅 플랫폼
- Amazon Redshift : 클라우드 데이터 웨어하우스
- Amazon QuickSight : 클라우드 BI 서비스
- Amazon SageMaker : 클라우드 jupyter 노트북
학습 결과
- 서버리스 데이터 레이크 아키텍처 설계
- Amazon S3 스토리지를 사용하여 데이터를 Data Lake로 수집하는 데이터 처리 파이프라인 구축
- 실시간 스트리밍 데이터에 Amazon Kinesis 사용
- 실시간 데이터 분석을 위해 Amazon Kinesis Data Analytics 사용
- AWS Glue를 사용하여 데이터 세트 자동 분류
- 데이터 변환
- AWS Glue 개발 엔드포인트에 연결된 Amazon SageMaker Jupyter 노트북에서 대화형 ETL 스크립트 실행
- Glue Studio를 사용하여 AWS Glue에서 ETL 작업을 실행하고 모니터링
- Glue DataBrew를 사용하여 데이터 준비
- EMR을 사용하여 Spark 변환 작업 실행
- AWS Glue에서 Amzon Redshift로 데이터 적재
- Amazon Redshit 모범 설계 사례 소개
- Amazon Athena를 사용하여 쿼리문을 사용하고, Amazon QuickSight를 사용하여 시각화
'AWS' 카테고리의 다른 글
AWS기반 데이터 분석 파이프라인 구축[3] (1) | 2022.10.04 |
---|---|
AWS기반 데이터 분석 파이프라인 구축[2] (0) | 2022.09.30 |
[AWS] Open VPN을 이용한 AWS EC2 접속 (0) | 2022.07.19 |
[AWS] 관리형 VPN 설정 방법 (0) | 2022.07.11 |
[AWS] VPC 구성 (0) | 2022.07.08 |