Home
TIL
Cancel

데이터엔지니어링 한눈에 보기2 - 하둡 프레임워크 구성

1. 핵심 컴포넌트 1. HDFS 데이터를 설정가능한 블록(기본값:128MB)으로 저장하며 회복성 및 병렬처리를 위해 여러대 서버에 각 블록에 복제본을 저장 네임 노드 : 마스터 서버에 실행되는 프로세스로 파일 자체의 메타데이터를 모두 관리. 데이터 노드이 가용공간, 렉 지역성을 고려하여 파이프라인을 구성함 데이터노드 : 클러스터에 있는 ...

빅데이터 수집2 - Kafka

Kafka란 MOM(Message Oriented Middleware) 소프트웨어 중 하나로 대규모로 발생하는 메시지성 데이터를 비동기 방식으로 중 재 역할 플럼이 실시간으로 데이터를 수집해 카프카 토픽에 전송하면 카프카는 토픽에 임시저장하고 있다가 컨슈머 프로그램이 작동하면 토픽에서 데이터를 가져간다. 최종 목적지의 에러로 플럼의 체널에 데이터들...

빅데이터 수집1 - Flume 설치

Flume 구성 graph LR; A[Source]-->B[Interceptor]; B-->C[Channel]; C-->D[Sink]; Source : 다양한 원천 시스템에서 데이터를로드 Interceptor : 데이터 필터링 및 가공하는 컴포넌트(생략 가능) Channel : Source와 Sink를 연걸(임시저...

[Linux] Pyspark 메모리 부족

pyspark 사용할때 Cannot allocate moemry (errono=12) org.apache.hadoop.yarn.server.webproxy.amfilter.AmIpFilter OpenJDK 64-Bit Server VM warning: INFO: os::commit_memory(0x00000000f7780000, 39845888, 0...

vagrant ssh - permission denied(publickey)

호스트끼리 통신하려고 ssh 키를 새로 만들었다가 vagrant ssh로 접속이 되지않았다. id_rsa값이 새로 생겨서 그런것 같다. 해결방법 - private_key 갱신 생성된 호스트의 id_rsa 값을 복사하여 [vagrant_home]/.vagrant/machines/[vm name]/virtualbox/private_key에 붙여넣기하...

[Linux] 여러 서버 한번에 환경설정하기(pscp)

pssh 명령어로 한번에 설정값을 넘기려했는데 출력값을 인자로 넘기는 방법을 찾지 못해서 pscp기능을 사용했다. 그런데 vagrant로 접속을하면서 vagrant가 기본유저로 되어있어 root 상태로 명령어를 실행하지 못해서 설정파일들을 설정할 수 없었다.ㅠㅠ 그래서 번거롭지만 설정 파일을 먼저 각 서버에 보내고 설정파일을 수정해주었다. 파일 전송...

[Linux] pssh 설치했는데 안될때

Command ‘pssh’ not found 해결방법 링크 추가하기 출처 pssh not working

[Linux] ssh config 설정하기

~/.ssh/config 파일 생성 Config 설정 Host [호스트이름] HostName [private IP] User [user name] PORT [port번호] IdentityFile [키 위치] 보안을 위해 권한 제한 chmod 440 config ※ Vagrant로 생성한 VM을 추가하...

하둡 설치하기(CentOS7)

설치 환경 : CentOS7 1. 준비 1. java 설치 sduo yum install -y java-1.8.0-openjdk 2. hadoop 설치 wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz tar -zxvf hadoop-2.7.3.tar.g...

데이터엔지니어링 한눈에 보기 - Hadoop echo system

Hadoop이란? 단일 소프퉤어가 아니라 분산 시스템을 구성하는 다수의 소프트웨어로 이루어진 집합체. 대규모 분산 시스템을 구축하기 위한 공통 플랫폼의 역할 분산 시스템의 구성요소 분산파일 시스템    ex)HDFS 리소스 관리자         ex)YARN 분산 데이터 처리    ex)MapReduce 컴포넌트 ...