(黃獻德) Hsien-De Huang | E-Mail:TonTon (at) TWMAN.ORG | TonTon (痛痛)
Malware Analysis Network in Taiwan (MiT) | 惡意程式分析網在台灣 (抬丸郎)
Deep Learning (深度學習), Malware Analysis (惡意程式分析), Ontology (知識本體)
Android Reverse Engineering (Android 逆向工程), Type-2 Fuzzy Logic (第二型模糊邏輯)

ONE PIECE (海賊王)

ONE PIECE (海賊王)

2013年3月2日

應用 Crawlzilla 和 DRBL 到 F102@ILT


團隊網頁: 自由軟體實驗室: http://free.nchc.org.tw 
財團法人國家實驗研究院 國家高速網路與計算中心

把 Crawlzilla 的 Hadoop 版裝在 DRBL 上面,
主要是可以應用到 TY Chuang 的研究計畫 ...
安裝過程我這邊就不多加解釋 ... 
差別在於我是裝在 DRBL 的環境
當然另外也有 DRBL-Hadoop 可以用 !

單機版安裝設定

叢集版安裝設定

差別在於先依照單機版的裝法裝在 Server 上 ! 
然後透過 DRBL 的功能來把 Client 裝起來 !

Server 端可用的指令 (su 成 crawler):
/opt/crawlzilla/nutch/bin/hadoop-daemon.sh stop namenode
/opt/crawlzilla/nutch/bin/hadoop-daemon.sh start namenode

/opt/crawlzilla/nutch/bin/hadoop-daemon.sh stop datanode
/opt/crawlzilla/nutch/bin/hadoop-daemon.sh start datanode

/opt/crawlzilla/nutch/bin/hadoop-daemon.sh stop jobtracker
/opt/crawlzilla/nutch/bin/hadoop-daemon.sh start jobtracker

/opt/crawlzilla/nutch/bin/hadoop-daemon.sh stop tasktracker
/opt/crawlzilla/nutch/bin/hadoop-daemon.sh start tasktracker


Client 端指令(su 成 crawler):
drbl-doit mount /dev/hda1 /home/crawler/crawlzilla/workspace/nutch-crawler
(mount /dev/sda1 /home/crawler/crawlzilla/workspace/nutch-crawler)
PS: 這邊是 mount client 端的硬碟來用,要注意是 hda 還 sda,主要原因是因為 DRBL 的 Client 都是 Diskless (無碟) 如果不這樣掛上Client端的硬碟,那全部都是在對Server端的硬碟做 I/O .... 其效能是可想而知啦 !

drbl-doit -u crawler /opt/crawlzilla/nutch/bin/hadoop-daemon.sh start datanode
drbl-doit -u crawler /opt/crawlzilla/nutch/bin/hadoop-daemon.sh stop datanode

這邊則是啟動 client 端的 service
drbl-doit -u crawler /opt/crawlzilla/nutch/bin/hadoop-daemon.sh start tasktracker
drbl-doit -u crawler /opt/crawlzilla/nutch/bin/hadoop-daemon.sh stop tasktracker


至於下面幾張圖就是系統執行結果

這邊再附上一些錯誤訊息的解法,一整個大感謝 Yao-Tsung Wang 大師級專家大力幫忙跟指導 !


########Incompatible namespaceIDs########
rm -rf /home/crawler/crawlzilla/workspace/nutch-crawler/dfs/data/
改用 crawler 執行
chown crawler:crawler /home/crawler/crawlzilla/workspace/nutch-crawler/dfs/

2013-03-01 02:21:02,848 ERROR datanode.DataNode - java.io.IOException: Incompatible namespaceIDs in /home/crawler/crawlzilla/workspace/nutch-crawler/dfs/data     namenode namespaceID = 1651105197; datanode namespaceID = 39488291


#####FSNamesystem initialization failed##########
/opt/crawlzilla/nutch/bin/hadoop namenode -format

2013-03-01 16:59:29,925 ERROR namenode.FSNamesystem - FSNamesystem initialization failed.
java.io.IOException: NameNode is not formatted.

值得一提的是網頁管理介面也變的好漂亮呢 !


上面弄那麼多就是要幫忙做這個
遊戲設計知識索引及創意評量系統
(Game-Metacognition-Creativity, GMC)


主要包含三個子系統,其研究方法及進行步驟分別為:(1) 知識索引庫管理系統:透過開放原始碼之搜尋引擎工具(Crawzilla採DRBL-based 的 Hadoop),客製化開發知識索引庫管理系統,管理數位遊戲內容資訊與成功案例等相關領域知識,簡化使用者從搜尋、探索到獲取正確資訊的過程,降低其資訊尋求的負擔,並將傳統的資訊檢索轉變為知識探索,提升數位遊戲故事資訊尋求的效率;(2) 建置創意評量系統:搜集使用者瀏覽知識索引庫管理系統的紀錄,萃取出其特徵並與外部搜尋資源整合,提供評量者甚至使用者良好檢視、分析工具,提供創造力提升及數位遊戲故事領域適性化內容、分析評估及改善建議;(3)建置第二型模糊領域知識庫模型:整合前述子系統,搜集分析網站及使用者行為等資料,並導入第二型模糊語意推論分析方法進行多元化分析,提供快速多元及多層次數據分析比對,提升數位遊戲故事資訊尋求的精準度及滿意度。