專(zhuān)題課程
大數(shù)據(jù)Hadoop&HDFS&MapReduce&Hive&HBase&Spark企業(yè)級(jí)典型實(shí)戰(zhàn)
我要報(bào)名編輯日期 2018-06-14 閱讀次數(shù):565 次
【課程特色】
Hadoop生態(tài)系統(tǒng)是大數(shù)據(jù)技術(shù)事實(shí)標(biāo)準(zhǔn),是大數(shù)據(jù)思想、理念、機(jī)制的具體實(shí)現(xiàn),是整個(gè)大數(shù)據(jù)技術(shù)中公認(rèn)的核心框架和具有很強(qiáng)的使用價(jià)值與研究?jī)r(jià)值。Hadoop 系統(tǒng)是一款開(kāi)源軟件,能夠處理海量的各種結(jié)構(gòu)(包括結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化)的數(shù)據(jù)。
Yarn是基于Hadoop的分布式集群資源管理框架;隨著Hadoop集群應(yīng)用的廣泛,以及集群的規(guī)模越來(lái)越大,人們發(fā)現(xiàn)Hadoop MRv1存在諸多問(wèn)題,因此Hadoop MRv2誕生,即現(xiàn)在的YARN,解決了4000節(jié)點(diǎn)的上限問(wèn)題。
基于 Hadoop 的解決方案能夠幫助企業(yè)應(yīng)對(duì)多個(gè)大數(shù)據(jù)挑戰(zhàn),包括:
1、 分析海量(PB 級(jí)或者更多)的數(shù)據(jù)
Hadoop 能夠分析所有數(shù)據(jù),使得分析更準(zhǔn)確,預(yù)測(cè)更準(zhǔn)確;
2、 從多個(gè)數(shù)據(jù)類(lèi)型的組合中獲得新的洞察力
將來(lái)自多個(gè)數(shù)據(jù)源的不同類(lèi)型的數(shù)據(jù)進(jìn)行結(jié)合分析,發(fā)現(xiàn)新的數(shù)據(jù)關(guān)系和洞察力;
3、 存儲(chǔ)大量的數(shù)據(jù)
由于它不依賴(lài)于高端硬件,且是可擴(kuò)展的,所以使存儲(chǔ)大量數(shù)據(jù)變得經(jīng)濟(jì)有效;
4、 數(shù)據(jù)發(fā)現(xiàn)(data discovery)和研究的沙箱
Hadoop 提供了一個(gè)地方,數(shù)據(jù)科學(xué)家可在此發(fā)現(xiàn)新的數(shù)據(jù)關(guān)系和相互依賴(lài)性。
工業(yè)和信息化部電信研究院于2014年5月發(fā)布的“大數(shù)據(jù)白皮書(shū)”中指出:
“2012 年美國(guó)聯(lián)邦政府就在全球率先推出“大數(shù)據(jù)行動(dòng)計(jì)劃(Big data initiative)”,重點(diǎn)在基礎(chǔ)技術(shù)研究和公共部門(mén)應(yīng)用上加大投入。在該計(jì)劃支持下,加州大學(xué)伯克利分校開(kāi)發(fā)了完整的大數(shù)據(jù)開(kāi)源軟件平臺(tái)“伯克利數(shù)據(jù)分析軟件棧(Berkeley Data Analytics Stack),其中的內(nèi)存計(jì)算軟件Spark的性能比Hadoop 提高近百倍,對(duì)產(chǎn)業(yè)界大數(shù)據(jù)技術(shù)走向產(chǎn)生巨大影響”
----來(lái)源:工業(yè)和信息化部電信研究院
Spark是成為替代MapReduce架構(gòu)的大數(shù)據(jù)分析技術(shù),Spark的大數(shù)據(jù)生態(tài)體系包括流處理、圖技術(shù)、機(jī)器學(xué)習(xí)等各個(gè)方面,并且已經(jīng)成為Apache項(xiàng)目,可以預(yù)計(jì)的是2014年下半年到2015年在社區(qū)和商業(yè)應(yīng)用上會(huì)有爆發(fā)式的增長(zhǎng)。
國(guó)內(nèi)外一些大型互聯(lián)網(wǎng)公司已經(jīng)部署了Spark,并且它的高性能已經(jīng)得到實(shí)踐的證明。國(guó)外Yahoo已在多個(gè)項(xiàng)目中部署Spark,尤其在信息推薦的項(xiàng)目中得到深入的應(yīng)用;國(guó)內(nèi)的淘寶、愛(ài)奇異、優(yōu)酷土豆、網(wǎng)易、baidu、騰訊等大型互聯(lián)網(wǎng)企業(yè)已經(jīng)將Spark應(yīng)用于自己的生產(chǎn)系統(tǒng)中。國(guó)內(nèi)外的應(yīng)用開(kāi)始越來(lái)越廣泛。Spark正在逐漸走向成熟,并在這個(gè)領(lǐng)域扮演更加重要的角色。
在2014 Spark Summit上,世界20家公司聲明支持Spark,這些公司包括了四個(gè)Hadoop發(fā)行商Cloudera, Pivotal, MapR, Hortonworks,都提供了對(duì)非常強(qiáng)有力的支持Spark的支持:
1、 Hadoop的頭號(hào)發(fā)行商Cloudera,在2014年7月份宣布“Impala’s it for interactive SQL on Hadoop; everything else will move to Spark”;
2、 2014年5月24日Pivotal宣布了會(huì)把整個(gè)Spark stack包裝在Pivotal HD Hadoop發(fā)行版里面;這標(biāo)志著四個(gè)Hadoop發(fā)行商Cloudera、Pivotal、MapR、Hortonworks都提供了對(duì)Spark的支持;
3、 2014年4月,Mahout表示將不再接受任何形式的以MapReduce形式實(shí)現(xiàn)的算法,Mahout宣布新的算法基于Spark;
4、 Cloudera的機(jī)器學(xué)習(xí)框架Oryx的執(zhí)行引擎也將由Hadoop的MapReduce替換成Spark;
【培訓(xùn)方式】
以課堂講解、演示、案例分析為主,輔以互動(dòng)研討、現(xiàn)場(chǎng)答疑、學(xué)以致用。
【目標(biāo)收益】
1、 大數(shù)據(jù)生態(tài)圈各組件介紹,包括應(yīng)用場(chǎng)景、架構(gòu)原理等,主要包括Hadoop、HDFS、MapReduce、Hive、HBase、Spark;
2、 大數(shù)據(jù)平臺(tái)搭建的實(shí)戰(zhàn),側(cè)重講解平臺(tái)建設(shè)的安全性、性能調(diào)優(yōu)、實(shí)際案例分析,基礎(chǔ)搭建知識(shí)不需要過(guò)多講解;
3、 大數(shù)據(jù)實(shí)戰(zhàn),大數(shù)據(jù)項(xiàng)目中架構(gòu),技術(shù)選型,安全保障等,以及經(jīng)驗(yàn)分享;
4、 ETL基礎(chǔ)組件Flume、Sqoop架構(gòu)與使用,包括數(shù)據(jù)清洗的實(shí)際使用案例介紹;
5、 通過(guò)該課程學(xué)習(xí)使學(xué)員具備Hadoop企業(yè)級(jí)大數(shù)據(jù)管理與應(yīng)用的能力;
6、 通過(guò)該課程學(xué)習(xí)使學(xué)員具備Hive企業(yè)級(jí)大數(shù)據(jù)分析的能力;
7、 通過(guò)該課程學(xué)習(xí)使學(xué)員具備HBase企業(yè)級(jí)大數(shù)據(jù)分布式NoSQL數(shù)據(jù)庫(kù)的開(kāi)發(fā)能力;
【培訓(xùn)對(duì)象】
1、 對(duì)大數(shù)據(jù)、分布式存儲(chǔ)、分析等感興趣的朋友;
2、 Java、PHP、C等任意一門(mén)編程語(yǔ)言的開(kāi)發(fā)者;
3、 大型網(wǎng)站、電商網(wǎng)站等運(yùn)維人員;
4、 云計(jì)算、大數(shù)據(jù)從業(yè)者;
5、 熟悉Hadoop生態(tài)體系,想了解和學(xué)習(xí)Hadoop與Spark整合在企業(yè)應(yīng)用實(shí)戰(zhàn)案例的朋友;
6、 系統(tǒng)架構(gòu)師、系統(tǒng)分析師、高級(jí)程序員、資深開(kāi)發(fā)人員;
7、 牽涉到大數(shù)據(jù)處理的數(shù)據(jù)中心運(yùn)行、規(guī)劃、設(shè)計(jì)負(fù)責(zé)人;
8、 政府機(jī)關(guān),金融保險(xiǎn)、移動(dòng)互聯(lián)網(wǎng)等大數(shù)據(jù)單位的負(fù)責(zé)人;
9、 高校、科研院所大數(shù)據(jù)研究人員,涉及到大數(shù)據(jù)與分布式數(shù)據(jù)處理的人員;
數(shù)據(jù)倉(cāng)庫(kù)管理人員、建模人員,分析和開(kāi)發(fā)人員、系統(tǒng)管理人員、數(shù)據(jù)庫(kù)管理人員以及對(duì)數(shù)據(jù)倉(cāng)庫(kù)感興趣的其他人員;
【培訓(xùn)時(shí)長(zhǎng)】
5天
【課程大綱】