AWS기반 데이터 분석 파이프라인 구축[3]

AWS

sungjunminn 2022. 10. 4. 17:26

실습과정

Amazon Glue : 원본 데이터에서 크롤러를 정의하여 테이블 형태로 AWS Glue data catalog를 채운다.

(데이터 카탈로그 : S3의 데이터를 테이블처럼 만드는 것을 카탈로그를 만든다고 함. 데이터를 글루 데이터 카탈로그에 등록시켜 놓으면 AWS의 다른 분석 서비스에서 활용할 수 있음)

Amazon Athena : AWS 대화형 쿼리 서비스

1. IAM 역할 생성

AWS Glue 서비스를 사용하기 전 IAM 콘솔로 이동하여 권한을 정의함.

2. Amazon Glue crawler 사용

AWS Glue 콘솔 좌측 패널의 Crawlers 선택

Create crawler 선택

크롤러 이름 : analyticsworkshopcrawler

Add a data source 선택

Data source : S3,

Browse를 선택하여 전에 생성한 버킷을 선택

위에서 생성한 IAM 역할 선택

3. 크롤러가 저장할 데이터베이스 생성

글루란 사실상 데이터베이스 안에 테이블을 만드는 것인데, 현재는 데이터베이스가 없으므로 Add database를 통해 analyticsworkshopdb라는 데이터베이스 생성 후 선택

4. 크롤러 실행

analyticsworkshopcrawler 체크 후 Run 버튼을 선택

(버킷으로 가서 폴더를 탐색하고, 테이블 형태로 알아서 등록해줌)

5. 크롤러 실행 결과 보기

table 탭을 선택하면 테이블이 생성된 것을 확인할 수 있다.

6. Amazon Athena로 쿼리 작성

Athena에 접속한 뒤 해야 할 설정

다시 편집기 탭에서 쿼리 작성 후 실행을 시켜본다.

결과값이 아래 나오게 된다.

sjmin