【課程背景】
近年來,由于存儲設(shè)備的單位成本以驚人的速度下降(1G硬盤空間的成本現(xiàn)在只需要幾美分,這在過去難以想象),我們可以輕而易舉地積累起大量的數(shù)據(jù)。電信 運營商,可以記錄用戶通話、短消息、無線上網(wǎng)產(chǎn)生的每一條信令,省級運營商一小時寫入存儲設(shè)備的數(shù)據(jù)量可以達到幾百G。電子商務(wù)網(wǎng)站,可以記錄用戶的每一 次交易,甚至每一次點擊,可以復原用戶的完整訪問路徑找出用戶的興趣點。城市監(jiān)控體系,在各個重要路口,高速公路上的攝像頭,每秒鐘都在產(chǎn)生海量的視頻數(shù)
據(jù)。在生命科學領(lǐng)域,對人體的DNA分析,一個個體就能產(chǎn)生幾個G數(shù)據(jù),可以想象如果一個生物信息數(shù)據(jù)庫里包含了成千萬的個體數(shù)據(jù),信息量將會是怎樣一個
規(guī)模,如此等等,不勝枚舉。我們正處于一個信息爆炸的時代。
很不幸的是,我們得到了大量的數(shù)據(jù),而這些數(shù)據(jù)中的大部分,在它的生命周期里基本上都被閑置著,從來沒有考慮過產(chǎn)生任何的價值,可能的用途就是“保存?zhèn)?查”。盡管“啤酒與尿布”的故事,已經(jīng)寫入教科書有10多年了,幾乎每一個接受過專業(yè)教育的同仁都知道數(shù)據(jù)挖掘能產(chǎn)生的價值,但是直到今天,我們對數(shù)據(jù)的
處理依然停留在按預定指標進行統(tǒng)計這種很低的水平上。造成這種情況的原因有很多。一方面,由于業(yè)務(wù)人員和IT人員的工作鴻溝,使到即使能提出數(shù)據(jù)分析的需
求都成了一個很大的困難。在各公司里保管數(shù)據(jù)的大多是IT人員,他們對業(yè)務(wù)的了解可能并非很深入,而業(yè)務(wù)人員也鮮有對數(shù)據(jù)有深入認識者,他們通常都缺乏必
要的數(shù)學素質(zhì)和知識基礎(chǔ)去進行建模和深入的分析工作。另一方面,數(shù)據(jù)分析專家具有深厚的數(shù)學處理能力,善于建模和構(gòu)筑算法,但是由于無法得到合適的需求, 他們的能力也無從施展。另外數(shù)學家、統(tǒng)計學家們很多并不熟悉現(xiàn)代的IT軟硬件設(shè)備的特性,對于集群、分布式系統(tǒng)、大規(guī)模存儲、云計算、數(shù)據(jù)庫等認識幾乎為 零,對于算法的實現(xiàn)可能還停留在對著PC寫C語言程序的水平上,對于海量數(shù)據(jù),無法利用現(xiàn)代化設(shè)備的能力,使到算法是否能真正實現(xiàn)變成生產(chǎn)力存有很大的疑
問。
現(xiàn)在這門《數(shù)據(jù)分析系列網(wǎng)絡(luò)課程》正是要打破這種鴻溝。用新興的互聯(lián)網(wǎng)教育模式,把各應(yīng)用領(lǐng)域的業(yè)務(wù)專家、數(shù)據(jù)分析老師、IT講師介紹給學習者,向有志于 學習數(shù)據(jù)分析知識發(fā)揮數(shù)據(jù)價值的朋友能得到低成本交流的機會。我們的目標是在中國傳播“技術(shù)成就夢想,數(shù)據(jù)產(chǎn)生價值”的觀念,使學習者能快速提升其個人能 力,在新的挑戰(zhàn)面前獲取更多個人機會,企業(yè)能在保存的海量數(shù)據(jù)中煉出黃金。
R是一套完整的數(shù)據(jù)處理、計算和制圖軟件系統(tǒng)。是一個免費的自由軟件,它有UNIX、LINUX、MacOS和WINDOWS版本,都是可以免費下載和使
用的,在那兒可以下載到R的安裝程序、各種外掛程序和文檔。在R的安裝程序中只包含了8個基礎(chǔ)模塊,其他外在模塊可以通過CRAN獲得。R既是功能強大的 統(tǒng)計和分析軟件,同時也是數(shù)據(jù)可視化制作工具,豐富的圖形函數(shù)和外置包,幾乎無限的擴展能力,使到我們的想象空間永遠都不會達到上限
2011年統(tǒng)計的數(shù)據(jù)分析軟件使用率情況,R語言多項高居前列,是熱門的分析利器
【課程簡介】
1 基礎(chǔ)數(shù)據(jù)分析知識,包括一些概率統(tǒng)計里的概念、術(shù)語,和基本統(tǒng)計量的計算方法等。
2 一些常用的數(shù)據(jù)分析和數(shù)據(jù)挖掘算法,以及有關(guān)的各種領(lǐng)域里的實際應(yīng)用案例分析
3 流行的開源數(shù)據(jù)分析軟件R及其編程方法
4 數(shù)據(jù)展現(xiàn),介紹R及其強大的圖表功能
【課程大綱】
第1課 R語言基礎(chǔ)
R簡介
數(shù)據(jù)類型介紹
R的數(shù)據(jù)可視化
常用R包介紹
R集成開發(fā)環(huán)境
第2課 數(shù)據(jù)整理
數(shù)據(jù)的讀入輸出
控制流
各種圖表
常用統(tǒng)計量計算
第3課 數(shù)據(jù)展現(xiàn)1
基本制圖函數(shù)綜述
理解關(guān)鍵制圖參數(shù)
第4課 數(shù)據(jù)展現(xiàn)2
散點圖
線圖與時間序列譜圖
案例:股價走勢可視化展現(xiàn)
第5課 數(shù)據(jù)展現(xiàn)3
柱形圖
點圖
餅圖
直方圖
案例:銷售數(shù)據(jù)可視化展現(xiàn)
第6課 數(shù)據(jù)展現(xiàn)4
箱線圖
熱力圖
等高線
地圖
案例:Facebook好友聯(lián)系圖
第7課 預知未來的回歸模型1
線性回歸模型
案例:網(wǎng)頁流量預測
第8課 預知未來的回歸模型2
logistic回歸
廣義線性回歸
非線性回歸
案例:婚外情頻率預測
第9課 預知未來的回歸模型3
回歸檢驗與方差分析
案例:上兩周周案例的進一步分析優(yōu)化
第10課 挖掘關(guān)聯(lián)和推薦技術(shù)
MINE方法
apriori購物籃分析
案例:超市購物籃分析
第11課 萬事皆選擇1
分類算法(線性判別法,貝葉斯分類器,決策樹,最近鄰算法)
案例:汽車銷量
走勢預測,上漲還是下跌?
第12課 萬事皆選擇2
聚類算法(層次聚類法,譜系圖,k平均值法,k中心法)
案例:推薦系統(tǒng)
第13課 大道至簡
降維技術(shù)
主成分分析和因子分析
案例:業(yè)績綜合指標設(shè)計
第14課 沿著時間軸前進
時間序列分析
案例:未來股價預測
第15課 R數(shù)據(jù)挖掘?qū)嶋H場景綜合案例分析