(黃獻德) Hsien-De Huang | E-Mail:TonTon (at) TWMAN.ORG | TonTon (痛痛)
Malware Analysis Network in Taiwan (MiT) | 惡意程式分析網在台灣 (抬丸郎)
Deep Learning (深度學習), Malware Analysis (惡意程式分析), Ontology (知識本體)
Android Reverse Engineering (Android 逆向工程), Type-2 Fuzzy Logic (第二型模糊邏輯)

ONE PIECE (海賊王)

ONE PIECE (海賊王)

2016年9月12日

[教學] 應用深度學習與大數據分析識別詐騙(騷擾)電話


訓練跟測試資料要分開是做研究的基本 sense 啊 !

之前在 Freebuf 分享 "如何用深度學習識別網絡欺詐?"

然後這天分享了 "應用深度學習與大數據分析識別詐騙(騷擾)電話”"

但外部網站無法進一步補充說明,所以在這裡多做點說明

安裝在 CentoS 上的 Docker 版的 TensorFlow 來進行相關的 安裝 使用 教學
http://blog.twman.org/2016/06/tensorflow.html
深度學習 的 TensorFlow & Deep Learning 的源碼 安裝 操作 教學

2016 CSA Taiwan Summit
HadoopCon 2016


深度學習背景介紹

Google 在2012 年透過Google Brain 展現了前所未有的機器學習能力,2016年Google 再次藉由DeepMind 的AlphaGo 於圍棋上的勝利展現了深度學習的能力[6];深度學習(英語:Deep Learning) 並不是憑空創造出來的運算技術,是歸屬於機器學習的分支,模仿神經網路的運算模式透過複雜多節點、分層的運算結構對資料進行高層抽象的演算法;而神經網路更是遠在1980便有研究者們開始進行相關研究,且隨著近年來軟硬體與計算效能的提升有大幅度進步;2009年多倫多大學GeoffreyHinton 教授及其研究團隊就以深度學習技術,開發出高準確度的語音辨認技術,能夠正確地將口語轉換成文字[2],2012年,Geoffrey Hinton 教授的團隊於電腦視覺辨識比賽ILSVRC (ImageNet Large Scale VisualRecognition Challenge) 透過其所開發的深度學習系統獲得了比過去高出約10%的正確率;並於2014年與Google合作以GoogLeNet 再次取得該照片內容辨識的冠軍。

獵豹移動總裁傅盛說:深度學習是基於多層神經網路,並以海量數據做為輸​​入的自主學習方法[1];其本質就是透過很多小的數學元件組合成一個複雜模型再用來解複雜的問題。

詐騙(騷擾)電話現況

美國聯邦貿易委員會 (Federal Trade Commission,FTC) 曾指出:電話詐騙是美國境內最普遍發生的詐騙案。聯邦貿易委員會收到超過1500萬有關詐騙的投訴,而在2014年這些案件牽涉總金額超過17億;所有受害人中,46%在投訴時指出詐騙方式,而其中54%受害者指稱遭受電話詐騙[3]。同時,FTC亦倡議打擊語音電話行銷 (Robocall),得到如AT&T、谷歌、Alphabet、蘋果、Verizon和Comcast 等30多家主要高科技公司的響應 [4]。另外,中國近來傳出考上大學的學生被詐騙電話騙學費,導致呼吸心臟驟停最終去世。陸媒報導,在中國從事網路詐騙產業的人數至少有160萬人,「年產值」逾人民幣1100億元;據日本警察廳統計,2014年,日本電信詐騙的涉嫌金額超過500億日元( 32億人民幣)。國務院總理李克強在國務院常務會議通過《中華人民共和國無線電管理條例(修訂草案),並表示:現在有些電信詐騙,不僅能夠在群眾手機上顯示電信、銀行、公安等部門機構的正式號碼,還能準確了解群眾與這些部門聯繫的信息。這恐怕不是簡單的技術問題 [5] 。

數據分析及系統架構設計

圖1. 非聯絡人陌生電話號碼撥打行為分析

企業軟體公司或服務公司目前碰到的最大問題便是“沒有數據,怎麼人工智慧化?”;擁有再高深的軟體及再強大的硬體,沒有所謂的商業邏輯與數據積累,任何商業的人工智慧是沒有意義的空盒子[11]。而「該使用何種機器學習演算法?」的答案永遠都是「視情況。」 這可視資料的大小、品質或是取決於演算法的數學運算如何針對您正在使用的電腦轉譯成指令。 2016年03月,Google DeepMind 團隊研發Alpha Go [6] 並且挑戰南韓知名職業圍棋棋士成功取得四勝一敗,剎那間,深度學習、機器學習以及人工智慧獲得大量的觀注;另一方面,截至2016年06月30日,獵豹移動核心產品在全球範圍內已下載安裝到30.99億台移動設備上,月度活躍用戶規模達6.23億。其中,79.4%的移動月度活躍用戶來自歐、美為主的海外市場 [12] 。因此,基於深度學習其對於圖像辨識的強大效果[7, 8],獵豹移動威脅情報中心(http://tic.cmcm.com) 藉由獵豹移動的核心產品於2016年05月開始至今已成功使用深度學習的Inception-v3 等模型[9] 來對抗會因時區、語係等不同而造成遠比過去釣魚網站生命週期短的欺詐廣告威脅,並獲得了近90%的偵測率[10]。同時,獵豹移動威脅情報中心亦與後台數據運營研發團隊針對2016年07月01日至2016年07月31日已成功辨識為騷擾、市場推銷、詐騙、保險;快遞及服務中心與已經過認證的非聯絡人陌生電話號碼​​進行數據分析,如圖1所示可以發現在上班時間(08-19)內,會有大量的撥打次數,進一步統計,發現平常上班工作日與週末休假日亦有類似的關聯行為,兩者間呈固定增減;再透過機器學習中LogisticRegression (邏輯回歸)、Decision Tree (決策樹)、Random Forest (隨機森林)、SVM以及深度學習的Deep Neural Network (深層類神經網路, DNN) 等演算法進一步針對其來電響鈴、接聽時長、及使用者是否接聽等各種行為進行關聯分析。以下將簡要說明系統的安裝等相關指令:


實驗結果
圖2. 各國每日非聯絡人陌生來電數

圖3。非聯絡人陌生電話號碼撥打行為機器/深度學習計算分析

圖2為根據獵豹移動的核心產品撈取相關國家的非聯絡人陌生電話撥打行為統計,可以發現平常上班日的惡意來電次數遠勝過平常上班日及休假日的正常來電以及休假日的惡意來電,可見相關撥打行為並非血汗工廠且有穩定的上下班時間;圖3 為針對非聯絡人陌生來電相關數據進行了各種機器學習以及深度類神經網路進行計算分析的結果,由於來電行為為一維的數據,初步發現傳統的機器學習演算法其結果與DNN的比較,雖未如之前使用ConvolutionalNeural Network (CNN) 的惡意推廣(欺詐廣告) 等圖像辨識類的3維數據呈現大幅度落差[10] ,但其標準誤差的增減幅度明顯仍較其它機器學習演算法更穩定;另外,也進一步發現,詐騙(騷擾)電話的來電次數有非常強烈的地域關係,進一步萃取相關國家各自的特徵並訓練客制化獨有的模型來應對,是後續要進行的工作核心目標。

這邊也特別附上其中兩個國家的實驗結果供參考 !!! 
做研究的基本 Sense 我還是有的啊 !


結論

近期,人工智能與深度學習技術有了很大的進步,Google 於2015年11月釋出了Tensorflow,另外有Facebook 的Torch、Amazon 的DSSTNE以及廣為人熟知的Theano 與Caffee,還有Keras 等Python 框架,還有Baidu 近日內發布的Paddle 等;而深度學習的系統會隨著資料庫越龐大,而變得更有效率,當硬體與網路的不斷進化、各種影音資料急速累積,深度學習技術將會吸引更多研究者發展它的各種可能性。

人工智能,就好像第四次工業革命,正從學術界的私藏,轉變為一種能夠改變世界的力量。尤其,以深度學習取得的進步為顯著標誌。我們正降落到一片新大陸。深度學習帶來的這場重大技術革命,有可能顛覆過去20年互聯網對技術的認知,實現技術體驗的跨越式發展,獵豹移動總裁傅盛說 [1]。

參考文獻

[1] 傅盛:深度學習是什麼? , https://36kr.com/p/5050339.html
[2] Computerscience: The learning machines, http://www.nature.com/news/computer-science-the-learning-machines-1.14481
[3] ConsumerSentinel Network Data Book for January – December 2014, https://www.ftc.gov/reports/consumer-sentinel-network-data-book-january-december-2014
[4] Robocalls,https://www.consumer.ftc.gov/features/feature-0025-robocalls
[5] http://www.gov.cn/zhengce/2016-09/01/content_5104531.htm
[6] D. Silver,A. Huang, CJ Maddison, A. Guez, L. Sifre, G. van den Driessche, et al.,”Mastering the game of Go with deep neural networks and tree search,”Nature, vol . 529, pp. 484-489, 01/28/print 2016.
[7] O.Vinyals, A. Toshev, S. Bengio, and D. Erhan, “Show and tell: A neuralimage caption generator,” in Proceedings of the IEEE Con​​​​ference onComputer Vision and Pattern Recognition, Boston, USA, 2015.
[8] A.Karpathy and F.-F. Li, “Deep visual-semantic alignments for generatingimage descriptions,” in Proceedings of the IEEE Con​​​​ference on ComputerVision and Pattern Recognition, Boston, USA, 2015.
[9] C.Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna.,”Rethinking theInception Architecture for Computer Vision.” in Proc. of the IEEEConference on Computer Vision and Pattern ecognition (CVPR), WA,USA, June 2016.
[10] 如何用深度學習識別網絡欺詐?, www.freebuf.com/articles/paper/108123.html
[11] 企業級軟體協作,沒有數據何來 AI 人工智慧? , www.inside.com.tw/2016/09/07/artificial-intelligence-strategy
[12] 獵豹移動Q2財報:海外收入增長近三成多款內容產品風靡歐美, http://mp.weixin.qq.com/s?__biz=MzAxMjEyNTczNA==&mid=2650430929&idx=1&sn=bfb5eaed54f3fde3c2529736cfbbdf1e&scene=0

TensorFlow: https://github.com/tensorflow/tensorflow
Keras: https://keras.io
DSSTNE: https://github.com/amznlabs/amazon-dsstne
Paddle: https://github.com/baidu/Paddle
Torch: https://github.com/torch/torch7
Theano: http://deeplearning.net/software/theano/
Caffe: http://caffe.berkeleyvision.org