블로그 이미지
홍신[弘信]

카테고리

분류 전체보기 (59)
보안 (34)
공부 (20)
여행 (0)
문화 (1)
기록 (0)
나름 (3)
Total
Today
Yesterday

달력

« » 2025.1
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31

공지사항

최근에 올라온 글

에너지 관리 시스템(EMS: Energy Management System)

EMS는 국가산업의 원동력인 전기를 경제적으로 생산하여 안정적으로 궁급하기 위하여 전력 설비를 감시, 제어하며 계통해석 및 모의훈련 기능을 수행하는 종합 전력IT기반의 종합 에너지 관리 시스템이다. 산업 발전에 따라 전력 계통이 복잡해지면서 단순한 감시, 제어 기능 외에 자동 발전 제어, 경제 급전, 전력 계통 해석 기능과 같은 고급 기능이 필요하게 되었다. 이러한 요구에 부응하기 위하여 기존의 SCADA(원방감시 시스템) 시스템에 자동발전제어, 경제급전, 전력 계통 해석 등의 기능을 추가하여 전력계통운영을 위한 EMS 시스템이 등자앟게 되었으며 우리나라에서도 1979년도 부터 도입하여 사용하고 있다.


송변전 원방감시 시스템(SCADA: Supervisory Control And Data Acquisition)

SCADA 시스템은 발전 및 전력계통, 정수 및 하수처리, 플랜트 자동화, 공정제어, 열병합 발전계통, 가스 석유 등에 응용할 수 있는 종합 자동화 시스템으로 통신 경로상의 아날로그 또는 디지털 신호를 사용하여 원격장치의 상태 정보 데이터를 원격소장치(RTU)로 수집, 수신, 기록, 표시하여 중앙 제어 시스템이 원격 장치를 감시 제어하는 시스템을 말한다.


변전소 자동화 시스템(SAS: Substation Automation System)

전력 계통 감시제어 시스템의 핵심적인 기능을 수행하고 있는 변전소의 운영 시스템을 IT 시스템과 통신 인프라를 통하여 디지털 기술 기반의 자동화 시스템을 구성하는 것을 의미하며, 디지털 보호계전기, 디지털 IED(Intelligent Electronic Device), 감시 제어 시스템을 주축으로 변전소 운전정보 취득과 감시제어 설비 및 자동 운전 프로그램을 연계하여 인력요소를 최소화하는 변전소의 종합 자동화 운영 체제를 구축하는 것이라 정의할 수 있다.


배전 자동화 시스템(DAS: Distribution Automation System)

배전 선로를 종합적으로 감시하여 전력공급신뢰도를 향상시키기 위해 도입된 시스템이다. 이를 구현하기 위해 배전 선로에 설치되어 있는 다양한 개폐장치 및 배전설비의 현장정보를 단말장치를 이용하여 감시, 계측하여 통신장치를 통해 실시간으로 중앙장치에 제공함으로써 현장 배전선로를 실시간으로 모니터링 할 수 있다. 특히 고장 구간을 신속히 파악함과 동시에 원거리에 산재해 있는 자동화용 개폐장치를 원격 제어하여 정전구간 축소 및 고장 정전시간을 단축시킬 수 있는 종합 시스템이다.


원격검침 시스템(AMR: Automatic Meter Reading)

전기, 가스, 수도 등의 사용량을 검침원이 직접 방문해 수작업으로 검침하던 일을 컴퓨터와 통신기술을 이용해 중앙검침센터에서 자동으로 수행하는 시스템으로써 오검침으로 인한 민원의 소지가 제거되고 전력을 효율적인 관리가 가능한 기술이다.

Posted by 홍신[弘信]
, |

전력 계통(Power System)

전기를 생산, 수송하여 소비하는 각종 설비가 유기적으로 결합하여 하나의 시스템을 구성한 것을 총칭하여 젼력 계통이라 한다. 전력 계통은 전기 사업의 핵심을 이루는 것이며 그 설비 내용은 전력을 생산하는 수력 발전소, 화력 발전소, 원자력 발전소 등의 발전 설비와 생산된 전력을 수송하고 배분하기 위한 송전선, 변전소, 배전선 등의 수송 설비(=유통 설비) 및 수송 배분된 전력을 일반 가정이나 공장에서 소비하기 위한 수용 설비 등으로 구성된다.


전력 계통의 특질

(1) 시스템의 대규모성
우리 나라에서 전기를 사용하지 않는 곳은 없으며 이를 공급하기 위한 전력 계통도 전국적인 규모의 거대한 시스템으로 형성되고 있음.
 
(2) 생산과 소비의 동시성
전력 계통에서는 생산과 소비가 동시에 이루어지고 소비량의 변화에 따라서 실시간으로 생산량을 조절해 주어야 함

(3) 계통 특성의 다양성
계통마다 발전, 수송, 수용 설비 등의 구성 내용이 다르므로 계통에 따라 각각 다른 운용 특성을 가짐.

(4) 중단없는 공급의 중요성
전기 사업의 사명은 양질의 전력을 중단됨이 없이 저렴하게 공금하는 데 있음. 단순히 전력 에너지를 공급하는게 아니라 언제 어디서나 한시도 중단됨이 없이 수용가에게 양질의 전기를 공급하여야 함.


전력 계통 공학이란?

전력 계통으로 하여금 그 본래의 의무를 다히기 위한 기능을 경제적으로, 또한 충분한 신뢰도와 안정도를 가지고 실현할 것을 그 최종적인 목표로 삼고 있음.
Posted by 홍신[弘信]
, |

 

스마트 그리드 환경에서의 마케팅 전략

(Marketing Strategy on the Smart Grid)

                      

 전기 에너지는 우리의 삶에 있어서 필수불가결한 요소이며 사회가 제대로 흘러가게 하는 원동력이다. 컴퓨터와 인터넷을 이용해 대부분의 업무를 처리하는 현실에서 전기 에너지의 부재는 큰 문제를 일으킬 수 있다. 이러한 전기 에너지에 관한 업무를 관장하고 있는 한국 전력 공사(이하 한전)는 현재 큰 위기를 맞고 있다. 현재의 전기 요금은 원가의 96%수준으로 전기 판매가 늘어날수록 한전이 손해를 보고 있는 구조이다. 지난해 한전의 부채는 약 28조8900억원으로, 올해 1분기에도 1조797억원의 영업 손실을 기록했다. 문제는 그뿐만이 아니다. 현재의 전력 시스템에서는 더 많은 소비에 대비하기 위해 하루에 사용하는 사용량보다 10%정도 많은 전기를 생산하고 있다. 하지만 전기는 기본적으로 저장이 되지 않기 때문에 버리는 전기가 많아 에너지 효율이 떨어진다. 게다가 우리나라의 전력 생산은 화력과 원자력, 수력에 의존하고 있으며 화력은 엄청난 온실 가스를 방출한다. 따라서 기본적인 전력은 원자력과 수력을 사용하고 낮에 전력 사용이 증가할 때 적절한 화력으로 전력을 보충하는 방법을 사용하고 있다. 이것에 그치지 않고 전기 사용량과 공급량, 전력선의 상태까지 확인 가능하며 이를 통해 꼭 필요한 만큼 전기를 생산하거나 생산량에 맞춰 전기를 사용할 수 있다면 더 효율적으로 전기를 사용하면서 지구 온난화도 막을 수 있다. 이것을 가능하게 해주는 기술이 스마트 그리드이다. 스마트 그리드는 차세대 전력망을 뜻하는 말로 기존의 발전, 송·변전, 배전, 소비에 걸쳐 정보기술을 접목하여 에너지의 효율을 높이기 위한 기술이다.  

 스마트 그리드는 좋은 기술임이 분명하나 그 성공이 보장되어 있는 것은 아니다. 스마트 그리드의 성공은 전기 소비자의 참여에 달려있다고 볼 수 있으며 소비자의 참여가 없다면 소통 없는 반쪽짜리 기술일 뿐이다. 따라서 소비자가 적극적으로 참여할 수 있도록 유도하는 마케팅 전략이 수립되어야 한다. 스마트 그리드 기술에 적용할 수 있는 마케팅 전략은 크게 소비자 교육, 직접적인 소비자 접촉, 사업 동맹 협력, 광고와 홍보, 대체 가격 책정, 직접적인 혜택의 6가지 분류로 나누어 볼 수 있다. 다음에서 각각의 분류에 대해 자세히 알아보도록 하겠다.

 1) 소비자 교육(Consumer Education)

 소비자 교육에서는 스마트 그리드의 인식 및 홍보를 위해서 안내 책자, 고지서 내 정보 삽입, 교육 과정, 이메일을 통한 정보 제공 등과 같은 다양한 방법들이 사용될 수 있다. 소비자 교육은 가장 기본적인 마케팅 전략이라 할 수 있으며 다른 전략과 함께 사용하는 것이 효과적이다.

 2) 직접적인 소비자 접촉(Direct Comsumer Contact)

 직접적인 소비자 접촉이란 스마트 그리드의 이해를 높이기 위해 에너지 공급자 또는 정부 관계자와 소비자 간의 대면 의사소통을 의미한다. 워크샵, 전시회 등에서 소비자와의 접촉이 가능하며 이를 통해 소비자로부터의 피드백을 바로 얻을 수 있다는 장점이 있다.

 3) 사업 동맹 협력(Trade Ally Cooperation)

 사업 동맹이라는 것은 에너지 공급자와 소비자 사이에서 일어나는 일련의 절차에 대해 영향을 미칠 수 있는 모든 단체라 정의할 수 있다. 주요 사업 동맹은 집, 건물 등을 건축하는 건축업자 및 계약자, 지역 전문가, 가전제품 생산 회사 및 판매점 등으로 볼 수 있다. 사업 동맹 단체의 형태에 따라 다양한 범위의 서비스가 제공될 수 있으며 이것은 기술 이전, 교육, 인증 및 증명 등이 있다. 사업 동맹 단체에서는 스마트 그리드 기술이 자신의 회사에 도움이 된다고 판단한다면 이 기술의 도입 및 홍보를 적극적으로 도울 것이다.

 4) 광고와 홍보 (advertising and promotion)

 광고는 소비자에게 정보를 알리고 설득하기 위한 의사소통 방법으로써 다양한 미디어를 통해 사용될 수 있다. 광고 미디어는 라디오, TV, 잡지, 신문, 옥외 광고 등이 있으며 홍보는 주로 인터뷰, 기자 회견, 전시회, 쿠폰, 컨테스트 등과 같이 광고를 돕기 위한 활동으로 구성된다. TV 광고가 중·장년층에게 효과적이라면 인터넷을 이용한 홍보는 청소년 및 젊은층에게 파급력이 더 크다고 할 수 있다.

 5) 대체 가격 책정(Alternative pricing)

 대체 가격 책정이라는 것은 현재의 가격에서 스마트 그리드 환경으로 변화할 때 얼마만큼의 가격을 책정하는 것이 효율적인가를 결정하는 것이다. 가격 결정 구조는 시간별 사용량, 계절별 사용량, 사용량 비율 등을 포함한다. 대체 가격 결정 전략의 주요 장점은 에너지 공급자가 비용을 적게 들이거나 또는 전혀 들지 않을 수도 있다는 것이다. 이러한 가격 책정을 통해 소비자는 금전적인 인센티브를 받을 수 있게 된다.

 6) 직접적인 혜택(Direct Incentives, Direct Benefits)

 직접적인 혜택은 주로 단기간에 시장에 진입하거나 장비 구입 또는 자금 회수 기간을 줄여서 더욱 투자를 이끌어내기 위해 사용된다. 실시간 요금제를 반영하여 절감된 금액만큼 현금을 돌려주는 것과 같은 인센티브는 소비자의 생활 방식의 변화, 건물에 대한 추가적인 기기 설치 요구나 성능에 대한 검증 없이도 소비자의 저항을 줄일 수 있다는 장점이 있다.  추가적인 직접적인 혜택으로는 무료로 사용할 수 있도록 지원해주거나, 보조금을 지급하는 방법이 사용될 수 있다. 이러한 소비자에 대한 혜택은 더욱 많은 비용의 소비가 이루어 질 수 있지만 소비자의 반응을 빠르게 얻어낼 수 있으며 이를 통해 가치 있는 경험적인 데이터를 얻을 수 있다.

 본 문서에서는 스마트 그리드에 적용 가능한 마케팅 전략에 대해 6가지 분류로 나누어 알아보았다. 스마트 그리드는 역사의 흐름이며 언젠가는 우리 주위에 녹아들어 자연스럽게 누구나 활용하여 전기 에너지의 효율적인 사용을 가능하게 할 것이다. 하지만 스마트 그리드 기술이 정착하기 위해서는 많은 시행착오를 겪어야 하며 여기에는 고객의 참여가 필요하다. 한전 및 정부 관련 부서, 기타 관련 기관에서는 실시간 요금제 시범사업 및 인센티브 도입, 컨퍼런스 개최 등과 같은 마케팅 전략을 성공적으로 사용해 왔지만 여전히 스마트 그리드가 무엇인지 모르는 소비자가 대부분이다. 그러므로 앞으로도 스마트 그리드의 홍보를 위해 상위에 기술한 마케팅 전략을 적절히 조합하여 사용한다면 고객의 적극적인 참여를 이끌어낼 수 있을 것이라 기대한다.


참고자료

Clark W. Gellings, P.E. "The Smart Grid - Enabling Energy Efficiency and Demand Response", The Fairmont Press, 2009년 8월

 

Posted by 홍신[弘信]
, |
Other people do this without any problems. However why I can't do this!!
That because there is some missing line at blogs and web pages which I found from google. Holy shit.

You can run with this command very nicely. Your welcome? No Sweat.



$ mkdir wordcount_classes
$ javac -classpath hadoop-0.20.2-core.jar -d wordcount_classes WordCount.java
$ jar cvf wordcount.jar -C wordcount_classes/ .

$ mkdir -p wordcount/input
$ echo "Hello Word Bye World" > wordcount/input/file01
$ echo "Hello Hadoop Goodbye Hadoop" > wordcount/input/file02
$ bin/hadoop fs -put wordcount/input wordcount/input
$ bin/hadoop dfs -ls wordcount/input/
Found 2 items
/usr/local/oss/hadoop-0.17.0/wordcount/input/file02     <r 1>   28      2008-08-05 01:44        rw-rw-r--       makoto  makoto
/usr/local/oss/hadoop-0.17.0/wordcount/input/file01     <r 1>   21      2008-08-05 01:45        rw-rw-r--       makoto  makoto

$ bin/hadoop dfs -cat wordcount/input/file01
Hello World By World
$ bin/hadoop dfs -cat wordcount/input/file02
Hello Hadoop GoodBye Hadoop

$ bin/hadoop jar wordcount.jar org.myorg.WordCount wordcount/input wordcount/output

$ bin/hadoop fs -ls wordcount/output
Found 2 items
drwxr-xr-x   - root supergroup          0 2010-01-05 17:46 /user/root/wordcount/output/_logs
-rw-r--r--   2 root supergroup         41 2010-01-05 17:46 /user/root/wordcount/output/part-00000

$ bin/hadoop fs -cat wordcount/output/part-00000
Bye     1
Goodbye 1
Hadoop  2
Hello   2
World   2

Reference (Examples from below sites are not perfect)
http://gmyoul.tistory.com/11
http://code.google.com/p/newtech/wiki/HadoopMapReduceFirstStep
Posted by 홍신[弘信]
, |

----------------------  WordCount -------------------------

http://blog.naver.com/PostView.nhn?blogId=kh_24&logNo=30085252376&redirect=Dlog&widgetTypeCall=true\
2대 이상 장비로 구축하는 Hadoop, hBase 분산 데이터 처리 시스템

http://nadayh.tistory.com/entry/Hadoop%EC%9D%84-%EC%9D%B4%EC%9A%A9%ED%95%9C-Map-Reduce-%EC%98%88%EC%A0%9C-Counter-1
Hadoop을 이용한 Map Reduce예제 - Counter(1)

http://nadayh.tistory.com/entry/Hadoop을-이용한-Map-Reduce-예제-Distributed-Grep
Hadoop을 이용한 Map Reduce예제 - Distributed Grep

http://www.edwardkim.pe.kr/?p=66
Hadoop MapReduce의 가장 기본 예제 - WordCount - 코드 설명


----------------------- 하둡 설정 --------------------------

http://v-lad.org/tutorials/Hadoop/00%20-%20Intro.html
-> 윈도우환경에서 이클립스까지

http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_%28Multi-Node_Cluster%29#Tutorial_approach_and_structure
-> 우분투에서 하둡 설정

http://mail-archives.apache.org/mod_mbox/hadoop-core-user/200808.mbox/%3C004d01c90747$ebfe3df0$1904050a@armukherjeelp%3E
-> cannot connect to the map reduce location eclipse

http://guru1013.egloos.com/category/hadoop
-> [한글] 설명 잘 되어 있음

http://www.jaso.co.kr/103
-> [한글] 설명 잘 되어 있음

기타
http://blog.ring.idv.tw/comment.ser?i=231
http://www.mail-archive.com/core-user@hadoop.apache.org/msg03053.html

Posted by 홍신[弘信]
, |
완전 분산 모드에서는 두대 이상의 컴퓨터를 이용해 실제 분산 환경을 구축한다.

우분투 10.04 LT 를 마스터, 윈도우 XP 32bit를 슬레이브로 완전 분산 모드를 구축해보았다.
윈도우 비스타, 7에서는 cygwin_sshd 서비스를 시작하는데 문제가 있어 xp를 사용하였다.

1. 마스터 파일 설정
1) conf/core-site.xml 파일 수정
<configuration>
  <property>
    <name>fs.default.name</name>
    <value>hdfs://마스터IP:9000</value>
  </property>
</configuration>

2) conf/hdfs-site.xml 파일 수정
<configuration>
<property>
<name>dfs.name.dir</name><value>/hdfs/name</value>
        </property>
        <property>
                 <name>dfs.data.dir</name><value>/hdfs/data</value>
        </property>
        <property>
                <name>dfs.replication</name><value>2</value>
        </property>
        <property>
                <name>dfs.block.size</name><value>1048576</value>
</property>
</configuration>

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>2</value>
  </property>
</configuration>

3) conf/mapred-site.xml 파일 수정
<configuration>
  <property>
    <name>mapred.job.tracker</name>
      <value>마스터ip:9001</value>
  </property>
  <property>
                <name>mapred.system.dir</name>
                  <value>/hdfs/mapreduce/system</value>
  </property>
  <property>
                <name>mapred.local.dir</name>
                  <value>/hdfs/mapreduce/local</value>
  </property>
</configuration>

4) masters 파일 수정
마스터ip

5) slaves 파일 수정
마스터ip
슬레이브ip

2. 슬레이브 파일 설정
1) conf/core-site.xml 파일 수정
<configuration>
  <property>
    <name>fs.default.name</name>
    <value>hdfs://마스터IP:9000</value>
  </property>
</configuration>

2) conf/hdfs-site.xml 파일 수정
<configuration>
<property>
                <name>dfs.name.dir</name>
                <value>/hdfs/name</value>
         </property>
         <property>
                 <name>dfs.data.dir</name>
                 <value>/hdfs/data</value>
         </property>
         <property>
                <name>dfs.replication</name>
                <value>2</value>
         </property>
         <property>
                <name>dfs.block.size</name>
                <value>1048576</value>
</property>
</configuration>

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>2</value>
  </property>
</configuration>

3) conf/mapred-site.xml 파일 수정
<configuration>
<property>
        <name>mapred.job.tracker </name>
        <value>슬레이브ip:9001</value>
</property>
<property>
        <name>mapred.system.dir</name>
        <value>/hdfs/mapreduce/system</value>
</property>
<property>
        <name>mapred.local.dir</name>
        <value>/hdfs/mapreduce/local</value>
</property>
</configuration>

4) masters, slaves
수정 안해도 됨

3. 암호문 없이 ssh 접속 가능하게 설정 (마스터와 슬레이브 모두 시행)
    (아래 명령어를 이용해 localhost를 신뢰관계로 등록한다.
$ ssh-keygen
 엔터
 엔터
 엔터
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

4. 상호간 ssh 접속 가능하게 설정
1) 서로 신뢰관계 등록
마스터의 ~/.ssh/authorized_keys에 슬레이브의 id_dsa.pub파일 내용을 붙인다.
슬레이브의 ~/.ssh/authorized_keys에 마스터의 id_dsa.pub파일 내용을 붙인다.

2) 포트 개방
윈도우 클라이언트의 방화벽에서 22번 포트를 예외로 등록한다.
리눅스 클라이언트의 방화벽에서 22번 포트를 예외로 등록한다.
(sudo apt-get install firestarter 명령어를 통해 firestarter를 설치하고 policy에 포트를 추가하면 된다.)

3) 테스트
마스터와 슬레이브에서 ssh 마스터, ssh 슬레이브 명령어를 통해 접속에 이상없는지
여부를 테스트 한다.

5. 실행
1) 마스터에서 새로운 분산 파일 시스템 포맷 (슬레이브에서는 실행안함)
$ bin/hadoop namenode -format

2) Hadoop 데몬 실행
$ bin/start-all.sh

4. 확인
1) jps 명령어를 통한 하둡 데몬 확인
$ jps
(마스터 - Jps, NameNode, SecondaryNameNode, TaskTracker, JobTracker, DataNode)
(슬레이브 - Jps, DataNode, TaskTracker)

2) 네임노드 및 잡 트랙커를 웹 브라우져를 통해 확인
http://localhost:50070/  - NameNode
http://localhost:50030/  - JobTracker

3) 테스트
$ ./bin/hadoop fs -put conf input
(인풋 파일을 분산 파일 시스템에 복사)
$ ./bin/hadoop jar hadoop-0.20.2-examples.jar grep input output 'dfs[a-z.]+'

3) 출력 파일 검사
$ bin/hadoop fs -get output output
(아웃풋 파일을 분산 파일 시스템에서 로컬 파일 시스템으로 복사)
$ cat output/*

or 분산 파일 시스템에서 아웃풋 파일을 직접 볼 수 있다.
$ bin/hadoop fs -cat output/*

5. 종료
$ bin/stop-all.sh
(데몬 종료)
Posted by 홍신[弘信]
, |
가상 분산 모드에서는 하둡 데몬이 여러개의 자바 프로세스를 동작 시킴으로써 싱글 노드에서 가상 분산 모드로 동작할 수 있게 해준다.

1. 가상 분산 모드를 위해서는 몇가지 파일을 수정해야 한다.

1) conf/core-site.xml 파일 수정
<configuration>
  <property>
    <name>fs.default.name</name>
    <value>hdfs://localhost:9000</value>
  </property>
</configuration>

2) conf/hdfs-site.xml 파일 수정
<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
</configuration>

3) conf/mapred-site.xml 파일 수정
<configuration>
  <property>
    <name>mapred.job.tracker</name>
    <value>localhost:9001</value>
  </property>
</configuration>

2. 암호문 없이 ssh 접속 가능하게 설정
    (아래 명령어를 이용해 localhost를 신뢰관계로 등록한다.
$ ssh-keygen
 엔터
 엔터
 엔터
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

3. 실행
1) 새로운 분산 파일 시스템 포맷
$ bin/hadoop namenode -format

2) Hadoop 데몬 실행
$ bin/start-all.sh

4. 확인
1) jps 명령어를 통한 하둡 데몬 확인
$ jps
(Jps, NameNode, SecondaryNameNode, TaskTracker, JobTracker, DataNode)

2) 네임노드 및 잡 트랙커를 웹 브라우져를 통해 확인
http://localhost:50070/  - NameNode
http://localhost:50030/  - JobTracker

3) 테스트
$ bin/hadoop fs -put conf input
(인풋 파일을 분산 파일 시스템에 복사)
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'

4) 출력 파일 검사
$ bin/hadoop fs -get output output
(아웃풋 파일을 분산 파일 시스템에서 로컬 파일 시스템으로 복사)
$ cat output/*

or 분산 파일 시스템에서 아웃풋 파일을 직접 볼 수 있다.
$ bin/hadoop fs -cat output/*

5. 종료
$ bin/stop-all.sh
(데몬 종료)
Posted by 홍신[弘信]
, |
하둡은 기본적으로 단독 작업 모드로 작동한다. (비분산 모드, 디버깅이 쉽다)

다음의 커맨드를 넣고 제대로 동작하는지 확인한다.

$ mkdir input
$ cp conf/*.xml input
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'
$ cat output/*

* 참고: http://guru1013.egloos.com/2582288
Posted by 홍신[弘信]
, |
하둡을 시작하기 위해 HDFS 환경을 구성한다.
개발 및 실행 플랫폼으로써 리눅스가 지원되며 윈도우 32비트 버전은 개발 플랫폼으로 지원된다. 분산 작업이 윈도우 환경에서 제대로 테스트 되지 않았기 때문에 실행 플랫폼으로는 지원하지 않는다.

1. 운영체제
리눅스에서 구현하기 위해서는 Ubuntu 10.04 LT를 추천한다.
윈도우에서 구현하기 위해서는 Cygwin이 필요하다.

2. 필수 프로그램
자바 1.5이상
ssh (cygwin에서는 패키지에서 openssh를 선택, 우분투에서는 시냅틱 관리자에서
      선택 후 설치한다.)

하둡의 최신 릴리즈를 다운로드 받는다. 현재 0.20.0이 최신이다.
http://hadoop.apache.org/hdfs/releases.html

자신의 홈디렉토리 아래 압축을 해제한 후,
conf/hadoop-env.sh 파일을 수정한다.

아래와 같이 자바홈을 명시해주고
export JAVA_HOME=/usr/lib/jvm/java-1.6.0-openjdk

(윈도우 환경에서는 cygwin 설치 디렉토리에 가면 cygwin.bat파일을 수정하여
다음과 같이 자바홈을 등록한다.
set JAVA_HOME=/cygdrive/c/Java/jdk1.6.0_11
그리고 hadoop-env.sh에 다음과 같이 자바홈을 넣으면 된다.
export JAVA_HOME=$JAVA_HOME)

그리고 나서 ipv6를 사용하지 않도록 설정한다. (해줘야한다고 하는데 꼭 해야하는지는 의문)
동일파일 제일 아래나 아무곳에 삽입하면 된다.
export HADOOP_OPTS=-Djava.net.preferIPv4Stack=true

CYGWIN에서 다음의 명령어를 실행하고 ssh서버를 실행한다.
# ssh-host-config
윈도우 - 실행 : services.msc (제어판->관리도구->서비스) 를 눌러 CYGWIN_SSHD를 시작한다.

이로써 하둡 클러스터를 실행할 준비가 끝났다.

하둡은 Stand-Alone Operation (단독작업 모드), Pseudo-Distributed Operation(가상 분산 작업)
Fully-Distributed Operation(완전 분산 작업)의 세가지 모드로 실행할 수 있으며 각각에 대한
설정방법을 알아보도록 하겠다.

참고: Hadoop Quickstart - http://hadoop.apache.org/hdfs/

Posted by 홍신[弘信]
, |

Hadoop Overview

공부/하둡(Hadoop) / 2010. 5. 18. 14:42
하둡(Hadoop)이란 방대한 데이터를 저장하고 처리하기 위한 오픈소스 분산 시스템이다. 우리나라의 클루넷이란 곳에서는 이 하둡을 이용해 스토리지 가상화 기술을 구현하였다. 야후에서는 검색 클러스터링으로 사용하고 있으며 2008년 1월에는 테라바이트를 정렬하는 벤치마크에서 야후의 하둡 클러스터가 상용 분산 시스템을 앞질렀다.

하둡의 아키텍쳐는 다음과 같이 구성된다.
  Nutch: Open Source Search Engine
  MapReduce: Distributed Data Processing
  HBase: Distributed Data Store
  HDFS: Distributed File System
  Commodity PC Server Cluster

MapReduce 프레임워크는 페타바이트 이상의 대용량 데이터를 신뢰할 수 없는 컴퓨터로 구성된 클러스터 환경에서 병렬처리를 지원하기 위한 일종의 함수형 프로그래밍으로 Map와 Reduce라는 함수를 기반으로 구성된다.
(자세히 알기를 원한다면 논문 참조 - Jeffrey Dean and Sanjay Ghemawat, "MapReduce:
Simplified Data Processing on Large Clusters", Google, inc)

HBase는 Hadoop의 HDFS를 지원하기 위한 구글의 BigTable 구현체이다.

하둡 분산 파일 시스템(HDFS)은 고가의 스토리지를 이용하지 않고 네트워크를 이용해 저가 디스크를 가상적으로 단일 파일시스템으로 묶어줄 수 있다. HDFS 에서는 파일을 64MB로 쪼개서 개별 서버에 분산 저장하며 Namenode는 파일 메타 정보를 저장하고 위치 정보를 알려주는 역할, Datanode는 실제 파일 블록을 저장하고 읽기/쓰기 요청을 직접 처리한다. 또한 데이터의 안정성을 보장하기 위해 하나의 블록을 세곳의 서버에 복사해 저장한다.

*마이크로 소프트웨어 3,4,5월호 "하둡을 이용한 분산 프로그래밍 시작하기" 참고
 imaso.co.kr에 가면 전자책으로 볼 수 있으며 pdf다운로드도 가능하다 (유료 - 500pt)


Posted by 홍신[弘信]
, |

최근에 달린 댓글

최근에 받은 트랙백

글 보관함