應用 Crawlzilla 和 DRBL 到 F102@ILT

官方網頁: http://code.google.com/p/crawlzilla/

團隊網頁: 自由軟體實驗室: http://free.nchc.org.tw
財團法人國家實驗研究院國家高速網路與計算中心

把 Crawlzilla 的 Hadoop 版裝在 DRBL 上面，
主要是可以應用到 TY Chuang 的研究計畫 ...

安裝過程我這邊就不多加解釋 ...
差別在於我是裝在 DRBL 的環境
當然另外也有 DRBL-Hadoop 可以用 !

單機版安裝設定

叢集版安裝設定

差別在於先依照單機版的裝法裝在 Server 上 !
然後透過 DRBL 的功能來把 Client 裝起來 !

Server 端可用的指令 (su 成 crawler):

/opt/crawlzilla/nutch/bin/hadoop-daemon.sh stop namenode
/opt/crawlzilla/nutch/bin/hadoop-daemon.sh start namenode

/opt/crawlzilla/nutch/bin/hadoop-daemon.sh stop datanode
/opt/crawlzilla/nutch/bin/hadoop-daemon.sh start datanode

/opt/crawlzilla/nutch/bin/hadoop-daemon.sh stop jobtracker
/opt/crawlzilla/nutch/bin/hadoop-daemon.sh start jobtracker

/opt/crawlzilla/nutch/bin/hadoop-daemon.sh stop tasktracker
/opt/crawlzilla/nutch/bin/hadoop-daemon.sh start tasktracker

Client 端指令(su 成 crawler):

drbl-doit mount /dev/hda1 /home/crawler/crawlzilla/workspace/nutch-crawler
(mount /dev/sda1 /home/crawler/crawlzilla/workspace/nutch-crawler)
PS: 這邊是 mount client 端的硬碟來用，要注意是 hda 還 sda，主要原因是因為 DRBL 的 Client 都是 Diskless (無碟) 如果不這樣掛上Client端的硬碟，那全部都是在對Server端的硬碟做 I/O .... 其效能是可想而知啦 !

drbl-doit -u crawler /opt/crawlzilla/nutch/bin/hadoop-daemon.sh start datanode
drbl-doit -u crawler /opt/crawlzilla/nutch/bin/hadoop-daemon.sh stop datanode

這邊則是啟動 client 端的 service
drbl-doit -u crawler /opt/crawlzilla/nutch/bin/hadoop-daemon.sh start tasktracker
drbl-doit -u crawler /opt/crawlzilla/nutch/bin/hadoop-daemon.sh stop tasktracker

至於下面幾張圖就是系統執行結果

這邊再附上一些錯誤訊息的解法，一整個大感謝 Yao-Tsung Wang 大師級專家大力幫忙跟指導 !

########Incompatible namespaceIDs########

rm -rf /home/crawler/crawlzilla/workspace/nutch-crawler/dfs/data/

改用 crawler 執行

chown crawler:crawler /home/crawler/crawlzilla/workspace/nutch-crawler/dfs/

2013-03-01 02:21:02,848 ERROR datanode.DataNode - java.io.IOException: Incompatible namespaceIDs in /home/crawler/crawlzilla/workspace/nutch-crawler/dfs/data namenode namespaceID = 1651105197; datanode namespaceID = 39488291

#####FSNamesystem initialization failed##########

/opt/crawlzilla/nutch/bin/hadoop namenode -format

2013-03-01 16:59:29,925 ERROR namenode.FSNamesystem - FSNamesystem initialization failed.

java.io.IOException: NameNode is not formatted.

值得一提的是網頁管理介面也變的好漂亮呢 !

上面弄那麼多就是要幫忙做這個

遊戲設計知識索引及創意評量系統

(Game-Metacognition-Creativity, GMC)

主要包含三個子系統，其研究方法及進行步驟分別為：(1) 知識索引庫管理系統：透過開放原始碼之搜尋引擎工具(Crawzilla採DRBL-based 的 Hadoop)，客製化開發知識索引庫管理系統，管理數位遊戲內容資訊與成功案例等相關領域知識，簡化使用者從搜尋、探索到獲取正確資訊的過程，降低其資訊尋求的負擔，並將傳統的資訊檢索轉變為知識探索，提升數位遊戲故事資訊尋求的效率；(2) 建置創意評量系統：搜集使用者瀏覽知識索引庫管理系統的紀錄，萃取出其特徵並與外部搜尋資源整合，提供評量者甚至使用者良好檢視、分析工具，提供創造力提升及數位遊戲故事領域適性化內容、分析評估及改善建議；(3)建置第二型模糊領域知識庫模型：整合前述子系統，搜集分析網站及使用者行為等資料，並導入第二型模糊語意推論分析方法進行多元化分析，提供快速多元及多層次數據分析比對，提升數位遊戲故事資訊尋求的精準度及滿意度。

TonTon Huang Ph.D. | Deep Learning 101

搜尋此網誌

應用 Crawlzilla 和 DRBL 到 F102@ILT