Immersion In Data

AWS 12

AWS Glue를 통한 Snowflake로의 ETL 수행하기

1. IAM 역할 생성S3의 데이터를 접근하기 위한 AmazonS3FullAccess, Glue 서비스를 위한 AWSGlueServiceRole, 보안 암호를 위한 SecretsManagerReadWrite 권한을 가진 역할을 생성합니다.  2. S3 bucket 생성 및 데이터 업로드S3 버킷을 생성하고, 그 버킷에 데이터를 업로드합니다.  3. Glue Database/Table 생성  4. Glue Crawler 생성Crawler 생성이 완료되었다면, Run crawler 버튼을 통해 크롤러를 실행합니다. 크롤러 실행이 완료되었다면, Data Catalog가 생성되었습니다.  5. AWS Secrets Manager 보안 암호 생성값에 Snowflake의 User, Password, Warehous..

AWS 2024.06.03

AWS기반 데이터 분석 파이프라인 구축[8]

학습 결과 서버리스 데이터 레이크 아키텍처 설계Amazon S3 스토리지를 사용하여 데이터를 Data Lake로 수집하는 데이터 처리 파이프라인 구축실시간 스트리밍 데이터에 Amazon Kinesis 사용AWS Glue를 사용하여 데이터 세트 자동 분류AWS Glue 개발 엔드포인트에 연결된 Amazon SageMaker Jupyter 노트북에서 대화형 ETL 스크립트 실행Glue에서 Amazon Redshift로 데이터 적재Amazon Athena를 사용하여 데이터를 쿼리하고 Amazon QuickSight를 사용하여 시각화   삭제 할 리소스실습을 마무리하면서 사용했던 리소스를 정리하지 않으면 AWS 사용 요금이 계속해서 발생한다. 따라서 아래 모든 단계에 따라 생성된 모든 리소스를 삭제한다. 1. ..

AWS 2022.10.19

AWS기반 데이터 분석 파이프라인 구축[7]

실습과정Amazon Redshift 클러스터를 설정하고 S3 데이터를 Amazon Redshift로 로드  1. Redshift IAM 역할 생성 이 단계에서는 Redshift 클러스터를 위한 IAM 역할을 생성한다.   AWS 서비스 선택다른 AWS 서비스 사용 사례 : RedshiftRedshift - Customizable 선택AmazonS3FullAccess, AWSGlueConsoleFullAccess 권한 추가   역할 이름 : Analyticsworkshop_RedshiftRole2단계 권한추가에 전에 추가한 정책 확인  2. Redshift 클러스터 생성 이 단계에서는 2노드 Redshift 클러스터를 생성하여 작은 스타 스키마 데이터베이스를 생성한다.    클러스터 식별자 : redshi..

AWS 2022.10.19

AWS기반 데이터 분석 파이프라인 구축[6]

실습과정Lambda 함수를 작성하여 Athena가 S3의 processed_data에서 Hits 별 Top5 Popular Songs를 쿼리하여 가져오는 코드를 호스팅  AWS Athena : 표준 SQL을 사용하여 데이터를 간편하게 분석할 수 있는 대화식 쿼리 서비스(Athena는 서버리스 서비스이므로 관리할 인프라가 없으며 실행한 쿼리에 대해서만 비용을 지불함)AWS Lambda : 서버를 관리하지 않고도 코드를 실행할 수 있는 AWS에서 제공하는 서버리스 컴퓨팅 시스템(서버리스 : 서버가 없는 것이 아니라 서버에 대한 요청을 처리하는 로직을 함수 단위로 정의하여 요청이 들어올 때마다 함수를 호출하는 방식) 1. Lambda 함수 생성Lambda 서비스를 사용하기 위해 lambda 함수를 생성한다. ..

AWS 2022.10.18

AWS기반 데이터 분석 파이프라인 구축[5]

실습과정Amazon Athena의 표준 SQL 쿼리를 사용하여 Glue 카탈로그에 등록된 데이터를 탐색Athena를 사용하여 Amazon Quicksight에서 대시보드/시각화를 구축  AWS Athena : Amazon Athena는 표준 SQL을 사용하여 데이터를 간편하게 분석할 수 있는 대화식 쿼리 서비스이다. (Athena는 서버리스 서비스이므로 관리할 인프라가 없으며 실행한 쿼리에 대해서만 비용을 지불함.)AWS Quicksight : Amazon QuickSight는 아마존이 제공하는 서버리스 매니지드 BI 상품이다. 특정 데이터에 대한 시각화 대시보드를 생성하고 다른 사용자와 공유할 수 있다.  1. 쿼리 결과를 저장할 S3 버킷 만들기Amazon Athena에 접속한 뒤 쿼리 결과를 저장할..

AWS 2022.10.12

AWS기반 데이터 분석 파이프라인 구축[4]

실습과정AWS Glue ETL을 사용하여 데이터를 처리하고, 그 결과를 다시 S3에 저장Glue 개발 엔드포인트와 SageMaker 노트북을 사용하여 데이터 변환 단계 진행(PySpark)  AWS Glue dev endpoint : AWS Glue 스크립트를 개발하고 테스트할 수 있는 환경 (엔드포인트가 데이터 스토어에 엑세스한 후 개발 엔드포인트에 연결하는 노트북을 생성. 노트북을 사용하여 ETL 스크립트를 작성하고 테스트할 수 있다.)AWS SageMaker : Jupyter notebook과 동일한 환경 제공 1. AWS Glue Dev Endpoint 생성PySpark를 사용하여 Glue ETL 스크립트를 대화식으로 개발하기 위해 Glue 개발 엔드포인트를 생성한다. (AWS Glue - 데이터..

AWS 2022.10.07

AWS기반 데이터 분석 파이프라인 구축[3]

실습과정S3에 저장된 데이터를 크롤러의 도움을 받아 글루 데이터 카탈로그에 등록  Amazon Glue : 원본 데이터에서 크롤러를 정의하여 테이블 형태로 AWS Glue data catalog를 채운다. (데이터 카탈로그 : S3의 데이터를 테이블처럼 만드는 것을 카탈로그를 만든다고 함. 데이터를 글루 데이터 카탈로그에 등록시켜 놓으면 AWS의 다른 분석 서비스에서 활용할 수 있음)Amazon Athena : AWS 대화형 쿼리 서비스  1. IAM 역할 생성AWS Glue 서비스를 사용하기 전 IAM 콘솔로 이동하여 권한을 정의함.     역할 만들기 - AWS서비스, Glue 서비스 선택AmazonS3FullAccess 권한 부여AWSGlueServiceRole : Glue 관련 접근 권한역할 이름..

AWS 2022.10.04

AWS기반 데이터 분석 파이프라인 구축[2]

전제조건 AWS 계정에서 AdminstratorAccess에 대한 액세스 권한이 있어야 한다.us-east-1 리전에서 실행되어야 한다. 가이드의 링크에 따라 새 탭에서 여는 것이 가장 좋다. 최신 브라우저에서 실습을 진행한다.  실습과정Raw 데이터 추출, 변환, 적재 Amazon Kinesis Data Firehose : 스트리밍 데이터를 안정적으로 캡처하고, 변환하여 데이터 레이크에 전달하는 추출, 변환, 로드 서비스 (스트리밍 데이터 : 고객, 애플리케이션, 시스템에서 실시간으로 생성되는 데이터)Amazon S3 : 클라우드 객체 스토리지 서비스 1. S3 버킷 생성데이터를 적재하기 위한 저장소를 만들어 주기 위해 S3 버킷을 생성한다.   data폴더 안에 raw라는 폴더 추가 생성   버킷 :..

AWS 2022.09.30

AWS기반 데이터 분석 파이프라인 구축[1]

AWS기반 데이터 분석 파이프라인을 구축해보자. https://catalog.us-east-1.prod.workshops.aws/workshops/44c91c21-a6a4-4b56-bd95-56bd443aa449/ko-KR Workshop Studiocatalog.us-east-1.prod.workshops.awsAnalytics on AWS workshop Process사용 서비스 설명Amazon Kinesis : 스트리밍 데이터(실시간 데이터) 수집, 처리 서비스Amazon S3 : 클라우드 스토리지 서비스AWS Glue : 서버리스 데이터 통합 서비스Amazon Athena : S3에 저장된 데이터를 분석할 수 있는 대화식 쿼리 서비스Amazon EMR : 대규모 분산 데이터 처리 작업 클라우드 빅..

AWS 2022.09.30

[AWS] Open VPN을 이용한 AWS EC2 접속

구성 순서 1. Open VPN GUI 설치 2. Open VPN GUI 어플에서 클라이언트 구성 파일 열기(연결) 3. AWS EC2에 접속하는 RDP파일 다운로드 4. 암호 해독 5-1. admin계정 접속 5-2. 사용자 계정 생성 후 접속 1. Open VPN GUI 다운로드 https://openvpn.net/community-downloads/으로 접속해서 해당하는 운영체제로 다운을 받는다. Community Downloads | OpenVPN Visit this page to download the latest version of the open source VPN, OpenVPN. openvpn.net 2. Open VPN GUI 어플에서 클라이언트 구성 파일 열기(연결) [AWS] 관리형..

AWS 2022.07.19