Immersion In Data

AWS

AWS기반 데이터 분석 파이프라인 구축[3]

sungjunminn 2022. 10. 4. 17:26

실습과정

  • S3에 저장된 데이터를 크롤러의 도움을 받아 글루 데이터 카탈로그에 등록

 

 

Amazon Glue : 원본 데이터에서 크롤러를 정의하여 테이블 형태로 AWS Glue data catalog를 채운다. 

(데이터 카탈로그 : S3의 데이터를 테이블처럼 만드는 것을 카탈로그를 만든다고 함. 데이터를 글루 데이터 카탈로그에 등록시켜 놓으면 AWS의 다른 분석 서비스에서 활용할 수 있음)

Amazon Athena : AWS 대화형 쿼리 서비스 

 

1. IAM 역할 생성

AWS Glue 서비스를 사용하기 전 IAM 콘솔로 이동하여 권한을 정의함.

 

 

 

 

 

  • 역할 만들기 - AWS서비스, Glue 서비스 선택
  • AmazonS3FullAccess 권한 부여
  • AWSGlueServiceRole : Glue 관련 접근 권한
  • 역할 이름 : AnalyticsworkshopGlueRole

 

2. Amazon Glue crawler 사용

AWS Glue 콘솔 좌측 패널의 Crawlers 선택

 

Create crawler 선택

 

 

크롤러 이름 : analyticsworkshopcrawler

 

Add a data source 선택

 

Data source : S3,

Browse를 선택하여 전에 생성한 버킷을 선택

 

위에서 생성한 IAM 역할 선택

 

3. 크롤러가 저장할 데이터베이스 생성

글루란 사실상 데이터베이스 안에 테이블을 만드는 것인데, 현재는 데이터베이스가 없으므로 Add database를 통해 analyticsworkshopdb라는 데이터베이스 생성 후 선택 

 

4.  크롤러 실행

analyticsworkshopcrawler 체크 후 Run 버튼을 선택

 

(버킷으로 가서 폴더를 탐색하고, 테이블 형태로 알아서 등록해줌)

 

5. 크롤러 실행 결과 보기

 

 

table 탭을 선택하면 테이블이 생성된 것을 확인할 수 있다. 

 

6. Amazon Athena로 쿼리 작성

 

Athena에 접속한 뒤 해야 할 설정

  • 쿼리문으로 생성된 데이터들을 저장할 장소 세팅
  • S3 버킷에 query_results라는 이름의 폴더 생성
  • setting → manage에 접속하여 s3://sj-analytics-workshop-bucket/query_results을 입력

 

 

다시 편집기 탭에서 쿼리 작성 후 실행을 시켜본다. 

 

 

결과값이 아래 나오게 된다.