【課程大綱】
1 Hadoop 的背景
1.1 大數據的金融時代
1.1.1 “顛覆”性的影響
1.1.2 重新“洗牌”的可能
1.2 為什么是 HADOOP ?
1.3 HADOOP 的生態(tài)環(huán)境概述
1.4 HADOOP 在銀行業(yè)應用案例
1.4.1 阿里金融
1.4.2 銀行業(yè)案例
1.5 HADOOP 與數據倉庫等關系
1.6 去 IOE 的重任
1.7 金融業(yè)為何要選擇 HADOOP ?
1.7.1 海量的大數據處理壓力
1.7.2 非結構化數據的壓力
1.7.3 互聯網數據多源化的處理壓力
2 HADOOP 在互聯網業(yè)界及銀行業(yè)案例分享
2.1 EBAY 混搭大數據案例
2.2 阿里云開放大數據案例
2.3 騰訊分布式大數據案例
2.4 百度大數據引擎案例
2.5 客戶征信服務 客戶征信服務 ——從 從 FICO 到 到 ZEST
2.6 某銀行的大數據實際案例
3 HADOOP 技術介紹
3.1 發(fā)展歷史
3.1.1 google 的影響
3.1.2 命名來源
3.2 HDFS 原理
3.2.1 適合做什么?
3.2.2 不適合做什么?
3.2.3 namenode 和 和 datanode
3.3 HA 方法
3.3.1 基本原理
3.3.2 HADOOP 2.0 的 的 HA 實現方法
3.4 MAP/REDUCE 原理
3.5 YARN 原理
3.5.1 2.0 引出的原因
3.5.2 與容器(docker )的關系
3.6 HIVE 和 HBASE
3.6.1 如何改善客戶易用性?
3.6.2 內容和區(qū)別
3.7 HADOOP 的難點
3.7.1 安全性
3.7.2 可操作性
3.7.3 運維難題
3.8 MR 的具體編程案例
3.8.1 “hello world”
3.8.2 API 介紹及編程
3.8.3 案例及高級編程
4 HADOOP 實施的具體一些建議
4.1 版本的選擇
4.2 硬件配置建議
4.3 規(guī)模估算
4.4 系統(tǒng)調優(yōu)
4.5 參數設置建議
4.6 在金融業(yè)部署策略實施建議
5 HADOOP 自身技術的優(yōu)化及案例
5.1 HADOOP 的平臺調度優(yōu)化及案例
5.2 HADOOP 平臺加密預處理
5.3 基于 HADOOP 的自助分析工具
5.4 HADOOP 平臺的高效加載探索
5.5 HADOOP 穩(wěn)定性加固探索及案例
6 HADOOP 的實用案例
6.1 HADOOP 應用在“云化 ETL ”角度
6.1.1 提升數據加載速度
6.1.2 關鍵點
6.2 基于 HADOOP 的數據挖掘案例
6.2.1 基于“爬蟲”的內容喜好分析
6.2.2 客戶細分案例
6.3 基于 HADOOP 的海量數據查詢案例
6.3.1 基于 HBASE 的查詢案例
6.4 HADOOP 在銀行應用的場景
6.4.1 ETL 過程加速
6.4.2 海量數據查詢
6.4.3 客戶挖掘分析
6.4.4 風險識別
6.5 HADOOP 應用面臨的問題
6.5.1 “內升外降”的問題
6.5.2 公司 IT 體制的改革
6.5.3 “穩(wěn)定性”問題
7 SPARK
7.1 背景
7.1.1 對 HADOOP 的改良
7.1.2 SPARK 的生態(tài)環(huán)境
7.2 SPARK 的實施建議
7.2.1 集群部署模式
7.2.2 版本選擇
7.2.3 硬件配置建議
7.2.4 混搭建議
7.2.5 參數配置建議
7.2.6 SPARK 做金融業(yè)的應用場景
7.3 某公司 SPARK (500 節(jié)點)部署實際案例
7.3.1 建設歷程
7.3.2 技術要點
計算引擎的高性能
如何實現多種異構環(huán)境透明訪問
7.3.3 技術引入策略建議
7.3.4 運維建設經驗
8 總結
8.1 大數據對金融傳統(tǒng) IT 的顛覆
8.2 HADOOP 技術的總結
8.3 SPARK 技術總結