Hadoop Pseudo-Distributed Operation
공부/하둡(Hadoop) / 2010. 5. 18. 15:18
가상 분산 모드에서는 하둡 데몬이 여러개의 자바 프로세스를 동작 시킴으로써 싱글 노드에서 가상 분산 모드로 동작할 수 있게 해준다.
1. 가상 분산 모드를 위해서는 몇가지 파일을 수정해야 한다.
2. 암호문 없이 ssh 접속 가능하게 설정
(아래 명령어를 이용해 localhost를 신뢰관계로 등록한다.
3. 실행
2) Hadoop 데몬 실행
$ bin/start-all.sh
4. 확인
1. 가상 분산 모드를 위해서는 몇가지 파일을 수정해야 한다.
1) conf/core-site.xml 파일 수정
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
2) conf/hdfs-site.xml 파일 수정
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
3) conf/mapred-site.xml 파일 수정
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
2. 암호문 없이 ssh 접속 가능하게 설정
(아래 명령어를 이용해 localhost를 신뢰관계로 등록한다.
$ ssh-keygen
엔터
엔터
엔터
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
3. 실행
1) 새로운 분산 파일 시스템 포맷
$ bin/hadoop namenode -format
2) Hadoop 데몬 실행
$ bin/start-all.sh
4. 확인
1) jps 명령어를 통한 하둡 데몬 확인
$ jps
$ jps
(Jps, NameNode, SecondaryNameNode, TaskTracker, JobTracker, DataNode)
2) 네임노드 및 잡 트랙커를 웹 브라우져를 통해 확인
http://localhost:50070/ - NameNode
http://localhost:50030/ - JobTracker
http://localhost:50030/ - JobTracker
3) 테스트
$ bin/hadoop fs -put conf input
(인풋 파일을 분산 파일 시스템에 복사)
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'
4) 출력 파일 검사
$ bin/hadoop fs -get output output
(아웃풋 파일을 분산 파일 시스템에서 로컬 파일 시스템으로 복사)
$ cat output/*
or 분산 파일 시스템에서 아웃풋 파일을 직접 볼 수 있다.
$ bin/hadoop fs -cat output/*
or 분산 파일 시스템에서 아웃풋 파일을 직접 볼 수 있다.
$ bin/hadoop fs -cat output/*
5. 종료
$ bin/stop-all.sh
(데몬 종료)
(데몬 종료)