【課程簡介】
介紹大數(shù)據(jù)的概念和特征,面向安全的大數(shù)據(jù)分析的目的是希望從大數(shù)據(jù)中分析出異常行為或攻擊事件,尤其是未知且未感知的攻擊和異常。從原理的層面對適用于異常檢測的大數(shù)據(jù)分析算法做了詳細介紹,然后介紹大類數(shù)據(jù)分析的兩大思路,即告警驅(qū)動的分析方法和數(shù)據(jù)驅(qū)動的分析方法。舉例說明如何利用前述的分析算法和分析思路獲得期望的分析結(jié)果。
【目標(biāo)收益】
通過學(xué)習(xí),使學(xué)員了解大數(shù)據(jù)的概念和特征、如何將大數(shù)據(jù)分析方法用于安全分析、如何從大數(shù)據(jù)中發(fā)現(xiàn)異常行為和攻擊事件、如何發(fā)現(xiàn)未知攻擊和異常、如何發(fā)現(xiàn)未感知的攻擊和異常。
【課程大綱】
第一章 大數(shù)據(jù)分析概述
介紹大數(shù)據(jù)的概念和特征,面向安全的大數(shù)據(jù)分析的目的是希望從大數(shù)據(jù)中分析出異常行為或攻擊事件,尤其是未知且未感知的攻擊和異常。
1、大數(shù)據(jù)(Big data)的前世今生
假如我們有了一個數(shù)據(jù)預(yù)報臺,就像為企業(yè)裝上了一個GPS和雷達,企業(yè)的出海將會更有把握?!R云2012年網(wǎng)商大會演講
2、大數(shù)據(jù)的4V特征
2 1V-Volume,數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別
2 2V- Variety,數(shù)據(jù)類型繁多。網(wǎng)絡(luò)日志、圖片、視頻、地理位置信息、購物等等
2 3V- Value,價值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅一兩秒
2 4V- Velocity, 處理速度快。1秒定律。這一點和傳統(tǒng)的data mining有著本質(zhì)不同
3、大數(shù)據(jù)的價值
2 縱向:消費者、企業(yè)與價值鏈
2 橫向:“大交易數(shù)據(jù)”(比如支付寶的交易數(shù)據(jù))和“大交互數(shù)據(jù)”(比如一些社交網(wǎng)站,移動互聯(lián)網(wǎng)新媒體等)
2 兩類數(shù)據(jù)融合:容易洞察“客戶足跡”,掌控消費趨勢、開發(fā)產(chǎn)品和推進營銷
第二章 適用于異常檢測的大數(shù)據(jù)分析算法原理
1、典型統(tǒng)計方法
2 組合優(yōu)化
2 EM優(yōu)化
2、聚類分析算法
例如,我們可以根據(jù)各個銀行網(wǎng)點的儲蓄量、人力資源狀況、營業(yè)面積、特色功能、網(wǎng)點級別、所處功能區(qū)域等因素情況,將網(wǎng)點分為幾個等級,再比較各銀行之間不同等級網(wǎng)點數(shù)量對比狀況。
2 直接聚類法
2 最短距離聚類法
2 最遠距離聚類法
3、相似性分析算法
2 檢測效率高
2 相似列表片段
4、關(guān)聯(lián)分析算法
關(guān)聯(lián)算法是數(shù)據(jù)挖掘中的一類重要算法。1993年,R.Agrawal等人首次提出了挖掘顧客交易數(shù)據(jù)中項目集間的關(guān)聯(lián)規(guī)則問題,其核心是基于兩階段頻繁集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層及布爾關(guān)聯(lián)規(guī)則,典型的算法是Aprior算法。
5、分類算法
2 決策樹
2 貝葉斯
2 K-近鄰
2 基于關(guān)聯(lián)規(guī)則的分類
2 集成學(xué)習(xí)
6、文本分析
2 (I)用映射或變換的方法把原始特征變換為較少的新特征。
2 (2)從原始特征中挑選出一些具有代表性的特征。
2 (3)根據(jù)講師的知識挑選有影響的特征。
2 (4)用數(shù)學(xué)的方法進行選取,找出分類信息的特征,這種方法是一種比較精準(zhǔn)的方法,人為因素的干擾較少,尤其適合于文本自動分類挖掘系統(tǒng)的應(yīng)用。
第三章 面向安全的大數(shù)據(jù)分析思路
1、可分析數(shù)據(jù)
2 可靠性數(shù)據(jù)分析
2 智能數(shù)據(jù)分析
2 多元統(tǒng)計分析
2、分析的過程
數(shù)據(jù)是信息的載體,也是今后系統(tǒng)要處理的主要對象。因此,必須對系統(tǒng)調(diào)查中所有搜集的數(shù)據(jù)以及統(tǒng)計處理數(shù)據(jù)的過程進行分析和整理。如有不清楚的問題,應(yīng)立刻返回去弄清楚;如發(fā)現(xiàn)有數(shù)據(jù)不全、采集過程不合理、處理過程不暢、數(shù)據(jù)分析不深入等問題,應(yīng)在本次分析過程中研究解決。
2 流動
2 變換
2 存貯
3、基于各種期待結(jié)果的分析場景
2 黑盒測試
2 測試用例
2 性能測試
總結(jié) 課程總結(jié)