Immersion In Data

AWS

AWS기반 데이터 분석 파이프라인 구축[5]

sungjunminn 2022. 10. 12. 17:28

실습과정

  • Amazon Athena의 표준 SQL 쿼리를 사용하여 Glue 카탈로그에 등록된 데이터를 탐색
  • Athena를 사용하여 Amazon Quicksight에서 대시보드/시각화를 구축

 

 

AWS Athena : Amazon Athena는 표준 SQL을 사용하여 데이터를 간편하게 분석할 수 있는 대화식 쿼리 서비스이다. 

(Athena는 서버리스 서비스이므로 관리할 인프라가 없으며 실행한 쿼리에 대해서만 비용을 지불함.)

AWS Quicksight : Amazon QuickSight는 아마존이 제공하는 서버리스 매니지드 BI 상품이다. 특정 데이터에 대한 시각화 대시보드를 생성하고 다른 사용자와 공유할 수 있다. 

 

1. 쿼리 결과를 저장할 S3 버킷 만들기

Amazon Athena에 접속한 뒤 쿼리 결과를 저장할 S3 버킷을 먼저 만들어야 하므로 다음 단계를 따라 설정한다. 

  • 저장될 버킷 생성 : sj-query-results-bucket
  • 버킷을 생성한 후 Athena 콘솔로 돌아가서 콘솔 왼쪽 상단의 설정 클릭 후 관리 클릭
  • 방금 생성한 버킷의 이름과 마지막에 '/'를 포함하여 입력
  • Save

 

 

2. Athena를 사용하여 변환된 데이터 탐색

 

데이터 원본 : AwsDataCatalog를 선택하여 AWS Glue 카탈로그에 접근

데이터베이스 : analyticsworkshopdb

아래 쿼리 실행

SELECT artist_name,
       count(artist_name) AS count
FROM processed_data
GROUP BY artist_name
ORDER BY count desc

 

 

 

 

3. Amazon Quicksight 계정 가입

 

Amazon Quicksight 콘솔로 들어간다. 

  • Enterprise 선택 후 Continue 클릭

 

 

 

 

데이터 세트를 클릭하여 우측 상단의 새 데이터 세트를 클릭해준다. .

 

Athena 선택

 

 

데이터 원본 이름 설정하고 데이터 원본 생성

데이터 원본 이름 : analyticsworkshop

Athena Workgroup : primary

 

 

테이블 선택 화면으로 들어오면, 

카탈로그 : AwsDataCatalog

데이터베이스 : analyticsworkshopdb

테이블 : processed_data 

를 선택한다. 

 

데이터 세트 생성 완료하기로 들어오게 되면, 

SPICE for quicker analytics를 선택하여 프로세싱한다. (시각화에 걸리는 시간을 줄여주는 AWS 인메모리 엔진)

 

 

 

4. Amazon Quicksight를 사용하여 시각화 구축

 

데이터 세트가 생성되었다면, 

 

 

  • 시각적 객체유형 : 히트맵
  • 행 : device_id
  • 열 : track_name

위와 같은 설정을 통해 '어떤 사용자가 반복적으로 트랙을 듣고 있는지'를 시각화한다. 

 

 

  • 시각화 화면 추가 : 왼쪽 상단의 +추가버튼에서 시각적 객체 추가
  • 시각적 객체 유형 : 트리맵
  • 그룹화 기준 : artist_name

위와 같은 설정을 통해 '가장 많이 연주된 아티스트'를 시각화한다.