(黃獻德) Hsien-De Huang | E-Mail:TonTon (at) TWMAN.ORG | TonTon (痛痛)
Malware Analysis Network in Taiwan (MiT) | 惡意程式分析網在台灣 (抬丸郎)
Deep Learning (深度學習), Malware Analysis (惡意程式分析), Ontology (知識本體)
Android Reverse Engineering (Android 逆向工程), Type-2 Fuzzy Logic (第二型模糊邏輯)

ONE PIECE (海賊王)

ONE PIECE (海賊王)

2014年1月14日

透過 Sitemap 及 Google 網站管理員工具 將 Google Custom Search 客製化成知識索引評量系統

其實本來是打算自己硬幹個系統出來 ... 也花了不少時間做前置工作研究 ...
無奈我整個太小看所謂的 " 中文分詞 " ... 再加上時間問題,最後決定委請大神協助

DRBL-based Hadoop-1.2.1 整合 Nutch-1.7 及 Solr 4.5
大數據 Solr 4.5.1 with Tomcat6 on CentOS 6.4 x64

這東西仔細想想,其實跟未來想做的也很接近 ... 差別在 dataset 是中文的巴哈姆特的網站內的遊戲介紹的客製化搜尋引擎,而我打算做的則是 惡意程式行為 的 log 報表這樣 ! 就是弄出一個客製化的知識索引評量系統

所以後來試了幾個方法:
1. 在 Cluster-based 的 Hadoop 上自建一套 solr 跟 nutch 讓它去爬正常的巴哈的網站;爬是爬回來了,但卡在中文分詞,搜尋時直接整個吐給我這樣 ! Orz

2. 用 Google Custom Search 去爬,是非常順利的建好索引,而且中文分詞也一整個超強大,但是 ... 這樣搜集不到使用者的行為資料 ...

最後,左思右想的 ... 才好不容易想到這個做法或許可能成功 .... 方法就是先把想被建索引的巴哈的網站直接暴力拷貝一份 ! XD ... 然後自己弄成網站再讓 Google 來做索引

這邊要注意的就是這個東西嘞 ! 過去都是使用 Google Site 或者是 Blogger 很方便就能建好 Sitemap ( 關於 Sitemap:https://support.google.com/webmasters/answer/156184?hl=zh-Hant#156184 )

Google 可能無法找到您網站上的所有網頁,而 Sitemap 正好可以彌補不足的資訊。簡單來說,XML Sitemap (通常稱為 Sitemap,字首 S 大寫) 就是網站中的網頁清單。建立並提交 Sitemap 可協助 Google 掌握您網站上的所有網頁,包括一般的 Google 檢索程序可能檢索不到的網址。
Google 可接受多種格式的網頁 Sitemap,但是建議您根據 Sitemap 通訊協定來建立 Sitemap,因為這樣您就可以將同樣的檔案提交至其他屬於 sitemaps.org 成員的搜尋引擎,例如 Bing 和 Yahoo!。



但想要用大神的工具就是要好好的讀一下祂的說明 ....


http://www.freesitemapgenerator.com

就這樣我選了這個網站 ... 然後感覺起來還頗好用的 ! 只是建索引的過程實在有點久這樣


然後意外想起了還有這個工具可以用

網站管理員工具:https://www.google.com/webmasters/


要求 Google 檢索網頁或網站 讓您的網站出現在 Google 的搜尋結果中是件非常簡單的事,而且完全免費,您甚至不需要將網站提交給 Google。Google 是全自動化的搜尋引擎,使用自動尋檢程式定期檢索網路,並尋找可加入索引的網站。實際上,列入搜尋結果中的絕大多數網站都不是人工提交的,而是自動尋檢程式軟體檢索網路時找到並自動添加進來。



因為大神也說了不能保證,所以只好自己心血來潮先用裡面 Google 模擬器來試試

Google 無法保證一定會檢索您的所有網址或是為您的所有網址建立索引。不過,我們會透過您 Sitemap 中的資料來瞭解網站的結構,進而在日後改善檢索器的排程方式,更有效地檢索您的網站。提交 Sitemap 絕對不會造成負面影響;反之,在多數情況下,網站管理員都能因此而受惠。


想不到非常意外的真的可以這樣爬取


而且可以很順利的直接送出


大神之所以是大神就是因為一轉眼居然馬上就搜的到資料 ... 但是管理介面上顯示的壓根還沒開始建索引耶 ! 真是勵害 !


不過,為了安全起見我還是上傳了一份 Sitemap 檔 ...

最後不能忘記的就是要記得把  Google Custom Search 設定讓它爬取你建的網站


我只能說大神真的就是大神 ... 真的一轉眼馬上就可以把自己建的網站做好索引然後順利的搜尋到這樣 ... 最後最重要的就是幫你這個網站設定好 Google 分析 ... 那就可以在特定的索引資料庫裡搜集到來瀏覽網頁的使用者的行為啦 !!! 這也就是下面這個計畫想要做的啦 !!! 希望最後可以弄的完美一點這樣 ! XD

從設計思維探討多層次數位遊戲設計創意激發系統之導入成效 (NSC 102-2511-S-024 -006) 
Dept. Information and Learning Technology, National University of Tainan, Tainan, Taiwan