우분투 하둡 설치 - ubuntu hadub seolchi

[Ubuntu 20.04 LTS에 Hadoop 3.2.1 설치]

1. ssh 설치

sudo apt-get install ssh sudo apt-get install pdsh

2. 권한 변경

sudo chmod -R 777 /home/lsy1206/.bashrc nano .bashrc ssh-keygen -t rsa -P "" cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys ssh localhost exit sudo apt-get update

3. java 설치

oracle에서 java 1.8 linux download 적당한 곳에 압축파일 해제 sudo tar -xvzf ~/Downloads/jdk-8u301.........

+ 환경변수 설정

sudo chmod -R 777 /etc/environment

4.  하둡 다운로드 -> 압축해제!

wget //downloads.apache.org/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz

5. 하둡 설정파일 변경 

1) JAVA_HOME 설정

nano ~/hadoop/etc/hadoop/hadoop-env.sh

2) Hadoop Configuration file 설정
    core-site.xml / hdfs-site.xml / mapred-site.xml / yarn.xml

    core-site.xml 설정 : 하둡실행 초기화면

    hdfs-site.xml 설정 : 
    네임노드, 데이터노드 디렉토리 생성

mkdir -p /home/lsy1206/hadoop/hdfs/namenode mkdir -p /home/lsy1206/hadoop/hdfs/datanode

    mapred-site.xml 설정

    yarn-site.xml

6. hadoop 환경변수설정

hdfs namenode 를 포맷한다

/bin/hdfs namenode -format

7. DFS 데몬 실행/중지 및 hadoop에 작동중인 프로세스 확인

sbin/start-dfs.shjps

yarn도 마저 실행해서 확인해준다.

start-yarn.sh
dfs 데몬 실행
dfs 데몬 정지

하둡?

Hadoop은 여러 클러스터에서 대규모 데이터 셋을 분산 처리할 수 있게 하는 프레임워크입니다. 아마 빅데이터 수업이나 데이터마이닝 수업을 하실 때 하둡을 설치할 일이 생기실텐데, 저 또한 이러한 이유로 설치를 하게 되었습니다. 이 포스팅을 보는 분들은 적어도 저처럼 힘들게 깔지 않기를 바라면서 포스팅을 합니다! (VMware설치를 선행하시고 진행하시기 바랍니다)

1. JAVA 8 설치

1) apt 업데이트

sudo apt-get update

2) JAVA 8 설치

sudo apt-get install openjdk-8-jdk openjdk-8-jre

3) 설치 확인

java -version

2. SSH 설정

1) Openssh Server 설치

sudo apt-get install openssh-server sudo apt-get install pdsh

2) ssh키 생성

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

3) ssh키 비밀번호 해제

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

4) 키가 포함된 파일의 권한 변경

chmod 0600 ~/.ssh/authorized_keys

5) ssh 확인

ssh localhost

3. 하둡 설치

1) 하둡 다운로드

: //www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.1.3/hadoop-3.1.3.tar.gz

원하는 버전을 선택하셔서 설치하셔도 무관합니다.

wget //archive.apache.org/dist/hadoop/common/hadoop-3.1.3/hadoop-3.1.3.tar.gz

2) 압축풀기

tar -xzvf hadoop-3.1.3.tar.gz

3) 디렉토리 이동

본인 계정이름을 넣어주면 되는데, 다음부터는 편의상 yejin(제 이름)으로 작성하겠습니다.

mv hadoop-3.1.3 /home/본인계정이름/hadoop

4. 하둡 설정

1) 환경 변수 설정창으로 진입

sudo nano ~/.bashrc

2) 환경 변수 설정

export HADOOP_HOME="/home/yejin/hadoop" export PATH=$PATH:$HADOOP_HOME/bin export PATH=$PATH:$HADOOP_HOME/sbin export HADOOP_MAPRED_HOME=${HADOOP_HOME} export HADOOP_COMMON_HOME=${HADOOP_HOME} export HADOOP_HDFS_HOME=${HADOOP_HOME} export YARN_HOME=${HADOOP_HOME} export HADOOP_CLASSPATH=$(hadoop classpath)

3) 적용

source ~/.bashrc

4) env.sh 수정

하둡 관련 파일들을 수정할 때 HADOOP_HOME/etc/hadoop 으로 이동 후에 진행하셔야 하며, 자신의 jdk 경로를 입력한 후 저장합니다.

cd /home/yejin/hadoop/etc/hadoopsudo nano hadoop-env.sh export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

5) core-site.xml 수정

sudo nano core-site.xml<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/yejin/hadoop_tmp</value> </property> </configuration>

6) hdfs-site.xml 수정

sudo nano hdfs-site.xml<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>

7) mapred-site.xml 수정

sudo nano mapred-site.xml<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>yarn.app.mapreduce.am.env</name> <value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value> </property> <property> <name>mapreduce.map.env</name> <value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value> </property> <property> <name>mapreduce.reduce.env</name> <value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value> </property> </configuration>

8) yarn-site.xml 수정

sudo nano yarn-site.xml<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> </configuration>

9) 적용

cd source ~/.bashrc

5. 하둡 실행

1) namenode 포맷

cd /home/yejin/hadoop/binhdfs namenode -format

2) hdfs , yarn 실행

cd /home/yejin/hadoop/sbinstart-dfs.shstart-yarn.sh

start-dfs.sh를 입력했을 때 아래처럼 permission deny가 발생하면 해당 명령어를 입력해주고 다시 start-dfs.sh를 수행하면 됩니다.

echo "ssh" | sudo tee /etc/pdsh/rcmd_default

3) 확인

jps2961 ResourceManager 2482 DataNode 3077 NodeManager 2366 NameNode 2686 SecondaryNameNode 3199 Jps

끝!!

제가 하둡을 설치하면서 발생했던 오류를 해결하기 위해서 참고했던 사이트입니다. 참고하시고 도움을 받으셨으면 좋겠습니다!

//beelinekim.tistory.com/15

xming 오류 (Could not connect: Connection refused)

얼마동안 윈도우 리눅스를 켜지 않다가 필요할 일이 있어서 eog를 띄웠는데 되지 않았다. 오류는 (eog:285): EOG-WARNING **: 22:04:22.333: EOG could not save some of your preferences in its settings direct..

beelinekim.tistory.com

//gethlemn.tistory.com/33

[hadoop] start-all.sh 실행 후 jps 검색 시 Namenode, Datanode, Nodemanager 등이 실행되지 않을 때 해결 방법

하둡을 start-all.sh로 실행시키고 jps를 통해 job을 확인해 보면 보통 아래와 같이 6가지의 job들이 조회되어야 한다. start와 stop을 반복시키다 보면 제대로 실행되지 않을 경우가 있다. 1. start-all.sh와

gethlemn.tistory.com

Toplist

최신 우편물

태그