Immersion In Data

Hadoop 4

Hadoop 설치

1. ubuntu에 open-jdk 설치 1) 패키지 갱신 sudo apt update 2) open jdk 설치 sudo apt install openjdk-8-jdk -y 2. hadoop용 계정 생성 1) localhost와 ssh통신을 위한 openssh-server open-client 설치 sudo apt install openssh-server openssh-client -y 2) 계정 추가 및 비밀번호 설정 sudo adduser hdoop 3) hdoop 계정으로 접속 su - hdoop 4) hadoop 유저를 위한 비밀번호 없는 ssh통신 가능하게 하기 ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/a..

Hadoop 2022.12.06

맵리듀스(MapReduce)

맵리듀스(MapReduce) 대용량 데이터 처리를 위한 분산 프로그래밍 모델 맵리듀스 프레임워크를 이용하면 대규모 분산 컴퓨팅 환경에서 대량의 데이터를 병렬로 분석 가능하다. 프로그래머가 직접 작성하는 맵과 리듀스라는 두 개의 메소드로 구성된다. 흩어져 있는 데이터를 수직화하여, 그 데이터를 각각의 종류별로 모으고(Map) → 필터링과 sorting을 거쳐 데이터를 뽑아내는(Reduce) 분산처리 기술과 관련 프레임워크를 의미한다. 맵(Map) 흩어져 있는 데이터를 연관성 있는 데이터들로 분류하는 작업(key, value의 형태) 리듀스(Reduce) Map에서 출력된 데이터에서 중복 데이터를 제거하고 원하는 데이터를 추출하는 작업 맵리듀스 잡(MapReduce Job) : Client 수행 작업 단위 ..

Hadoop 2022.09.21

하둡 분산형 파일 시스템(Hadoop Distributed File System, HDFS)

하둡 분산형 파일 시스템(Hadoop Distributed File System, HDFS) 하둡 네트워크에 연결된 기기에 데이터를 저장하는 분산형 파일 시스템 하둡 분산 파일 시스템은 하둡 프레임워크를 위해 자바 언어로 작성된 분산 확장 파일 시스템이다. HDFS는 여러 기계에 대용량 파일을 나눠서 저장한다. 데이터들을 여러 서버에 중복해서 저장하므로써 데이터 안정성을 얻는다. 특징 1. HDFS는 데이터를 저장하면, 다수의 노드에 복제 데이터도 함께 저장해서 데이터 유실을 방지 2. HDFS에 파일을 저장하거나, 저장된 파일을 조회하려면 스트리밍 방식으로 데이터에 접근 3. 한번 저장한 데이터는 수정할 수 없고, 읽기만 가능해서 데이터 무결성을 유지 4. 데이터 수정은 불가능하지만 파일 이동, 삭제,..

Hadoop 2022.09.21

하둡 에코시스템(Hadoop Ecosystem)

하둡 에코시스템(Hadoop Ecosystem) 하둡은 대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈소스 프레임워크이다. 간단한 프로그래밍 모델을 사용하여 여러대의 컴퓨터 클러스터에 대규모 데이터 세트를 분산 처리할 수 있게 해주는 프레임워크라고 할 수 있다. 일반적으로 HDFS와 MapReduce 프레임워크로 시작되었으나, 여러 데이터 저장, 실행 엔진, 프로그래밍 및 데이터 처리와 같은 하둡 생태계(Hadoop Ecosystem) 전반을 포함하는 의미로 확장되었다. 하둡 에코시스템은 그 프레임워크를 이루고 있는 다양한 서브 프로젝트들의 모임이다. - 하둡의 코어 프로젝트 : HDFS(분산 데이터 저장), MapReduce(분산 처리) - 하둡의 서브 프로젝트 : 나머지 프로젝트 → 워크플로우..

Hadoop 2022.09.21