国产亚洲免费播放片_日韩欧美中文字幕在线韩免费_亚州在线观看视频在线观看_中文字幕AV熟女_中文高清欧美日本_视频一区二区三卡在线观看免费_日本精品人妻久久久_亚洲日韩另类制服无码AV_777米奇影视狠狠狠_国产成人免费无码精品

?

您好!歡迎來(lái)到上海艾縱企業(yè)管理咨詢(xún)有限公司!

加入收藏

登錄注冊(cè)

400-676-1955

專(zhuān)題課程

大數(shù)據(jù)Hadoop&HDFS&MapReduce&Hive&HBase&Spark企業(yè)級(jí)典型實(shí)戰(zhàn)

我要報(bào)名

編輯日期 2018-06-14  閱讀次數(shù):565 次


【課程特色】

Hadoop生態(tài)系統(tǒng)是大數(shù)據(jù)技術(shù)事實(shí)標(biāo)準(zhǔn),是大數(shù)據(jù)思想、理念、機(jī)制的具體實(shí)現(xiàn),是整個(gè)大數(shù)據(jù)技術(shù)中公認(rèn)的核心框架和具有很強(qiáng)的使用價(jià)值與研究?jī)r(jià)值。Hadoop 系統(tǒng)是一款開(kāi)源軟件,能夠處理海量的各種結(jié)構(gòu)(包括結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化)的數(shù)據(jù)。

Yarn是基于Hadoop的分布式集群資源管理框架;隨著Hadoop集群應(yīng)用的廣泛,以及集群的規(guī)模越來(lái)越大,人們發(fā)現(xiàn)Hadoop MRv1存在諸多問(wèn)題,因此Hadoop MRv2誕生,即現(xiàn)在的YARN,解決了4000節(jié)點(diǎn)的上限問(wèn)題。

基于 Hadoop 的解決方案能夠幫助企業(yè)應(yīng)對(duì)多個(gè)大數(shù)據(jù)挑戰(zhàn),包括:

             1、      分析海量(PB 級(jí)或者更多)的數(shù)據(jù)

Hadoop 能夠分析所有數(shù)據(jù),使得分析更準(zhǔn)確,預(yù)測(cè)更準(zhǔn)確;

             2、      從多個(gè)數(shù)據(jù)類(lèi)型的組合中獲得新的洞察力

將來(lái)自多個(gè)數(shù)據(jù)源的不同類(lèi)型的數(shù)據(jù)進(jìn)行結(jié)合分析,發(fā)現(xiàn)新的數(shù)據(jù)關(guān)系和洞察力;

             3、      存儲(chǔ)大量的數(shù)據(jù)

由于它不依賴(lài)于高端硬件,且是可擴(kuò)展的,所以使存儲(chǔ)大量數(shù)據(jù)變得經(jīng)濟(jì)有效;

             4、      數(shù)據(jù)發(fā)現(xiàn)(data discovery)和研究的沙箱

Hadoop 提供了一個(gè)地方,數(shù)據(jù)科學(xué)家可在此發(fā)現(xiàn)新的數(shù)據(jù)關(guān)系和相互依賴(lài)性。

 

工業(yè)和信息化部電信研究院于20145月發(fā)布的“大數(shù)據(jù)白皮書(shū)”中指出:

2012 年美國(guó)聯(lián)邦政府就在全球率先推出“大數(shù)據(jù)行動(dòng)計(jì)劃(Big data initiative)”,重點(diǎn)在基礎(chǔ)技術(shù)研究和公共部門(mén)應(yīng)用上加大投入。在該計(jì)劃支持下,加州大學(xué)伯克利分校開(kāi)發(fā)了完整的大數(shù)據(jù)開(kāi)源軟件平臺(tái)“伯克利數(shù)據(jù)分析軟件棧(Berkeley Data Analytics Stack),其中的內(nèi)存計(jì)算軟件Spark的性能比Hadoop 提高近百倍,對(duì)產(chǎn)業(yè)界大數(shù)據(jù)技術(shù)走向產(chǎn)生巨大影響

                                          ----來(lái)源:工業(yè)和信息化部電信研究院

 

 

Spark是成為替代MapReduce架構(gòu)的大數(shù)據(jù)分析技術(shù),Spark的大數(shù)據(jù)生態(tài)體系包括流處理、圖技術(shù)、機(jī)器學(xué)習(xí)等各個(gè)方面,并且已經(jīng)成為Apache項(xiàng)目,可以預(yù)計(jì)的是2014年下半年到2015年在社區(qū)和商業(yè)應(yīng)用上會(huì)有爆發(fā)式的增長(zhǎng)。

 

國(guó)內(nèi)外一些大型互聯(lián)網(wǎng)公司已經(jīng)部署了Spark,并且它的高性能已經(jīng)得到實(shí)踐的證明。國(guó)外Yahoo已在多個(gè)項(xiàng)目中部署Spark,尤其在信息推薦的項(xiàng)目中得到深入的應(yīng)用;國(guó)內(nèi)的淘寶、愛(ài)奇異、優(yōu)酷土豆、網(wǎng)易、baidu、騰訊等大型互聯(lián)網(wǎng)企業(yè)已經(jīng)將Spark應(yīng)用于自己的生產(chǎn)系統(tǒng)中。國(guó)內(nèi)外的應(yīng)用開(kāi)始越來(lái)越廣泛。Spark正在逐漸走向成熟,并在這個(gè)領(lǐng)域扮演更加重要的角色。

2014 Spark Summit上,世界20家公司聲明支持Spark,這些公司包括了四個(gè)Hadoop發(fā)行商Cloudera, Pivotal, MapR, Hortonworks,都提供了對(duì)非常強(qiáng)有力的支持Spark的支持:

      1、      Hadoop的頭號(hào)發(fā)行商Cloudera,在20147月份宣布“Impala’s it for interactive SQL on Hadoop; everything else will move to Spark”;

      2、      2014524Pivotal宣布了會(huì)把整個(gè)Spark stack包裝在Pivotal HD Hadoop發(fā)行版里面;這標(biāo)志著四個(gè)Hadoop發(fā)行商Cloudera、Pivotal、MapRHortonworks都提供了對(duì)Spark的支持;

      3、      20144月,Mahout表示將不再接受任何形式的以MapReduce形式實(shí)現(xiàn)的算法,Mahout宣布新的算法基于Spark

      4、      Cloudera的機(jī)器學(xué)習(xí)框架Oryx的執(zhí)行引擎也將由HadoopMapReduce替換成Spark

 

【培訓(xùn)方式】

以課堂講解、演示、案例分析為主,輔以互動(dòng)研討、現(xiàn)場(chǎng)答疑、學(xué)以致用。

 

【目標(biāo)收益】

          1、 大數(shù)據(jù)生態(tài)圈各組件介紹,包括應(yīng)用場(chǎng)景、架構(gòu)原理等,主要包括Hadoop、HDFSMapReduce、HiveHBase、Spark

          2、 大數(shù)據(jù)平臺(tái)搭建的實(shí)戰(zhàn),側(cè)重講解平臺(tái)建設(shè)的安全性、性能調(diào)優(yōu)、實(shí)際案例分析,基礎(chǔ)搭建知識(shí)不需要過(guò)多講解;

          3、 大數(shù)據(jù)實(shí)戰(zhàn),大數(shù)據(jù)項(xiàng)目中架構(gòu),技術(shù)選型,安全保障等,以及經(jīng)驗(yàn)分享;

          4、 ETL基礎(chǔ)組件Flume、Sqoop架構(gòu)與使用,包括數(shù)據(jù)清洗的實(shí)際使用案例介紹;

          5、 通過(guò)該課程學(xué)習(xí)使學(xué)員具備Hadoop企業(yè)級(jí)大數(shù)據(jù)管理與應(yīng)用的能力;

          6、 通過(guò)該課程學(xué)習(xí)使學(xué)員具備Hive企業(yè)級(jí)大數(shù)據(jù)分析的能力;

          7、 通過(guò)該課程學(xué)習(xí)使學(xué)員具備HBase企業(yè)級(jí)大數(shù)據(jù)分布式NoSQL數(shù)據(jù)庫(kù)的開(kāi)發(fā)能力;

 

【培訓(xùn)對(duì)象】

             1、 對(duì)大數(shù)據(jù)、分布式存儲(chǔ)、分析等感興趣的朋友;

             2、 Java、PHP、C等任意一門(mén)編程語(yǔ)言的開(kāi)發(fā)者;

             3、 大型網(wǎng)站、電商網(wǎng)站等運(yùn)維人員;

             4、 云計(jì)算、大數(shù)據(jù)從業(yè)者;

             5、 熟悉Hadoop生態(tài)體系,想了解和學(xué)習(xí)HadoopSpark整合在企業(yè)應(yīng)用實(shí)戰(zhàn)案例的朋友;

             6、 系統(tǒng)架構(gòu)師、系統(tǒng)分析師、高級(jí)程序員、資深開(kāi)發(fā)人員;

             7、 牽涉到大數(shù)據(jù)處理的數(shù)據(jù)中心運(yùn)行、規(guī)劃、設(shè)計(jì)負(fù)責(zé)人;

             8、 政府機(jī)關(guān),金融保險(xiǎn)、移動(dòng)互聯(lián)網(wǎng)等大數(shù)據(jù)單位的負(fù)責(zé)人;

             9、 高校、科研院所大數(shù)據(jù)研究人員,涉及到大數(shù)據(jù)與分布式數(shù)據(jù)處理的人員;

數(shù)據(jù)倉(cāng)庫(kù)管理人員、建模人員,分析和開(kāi)發(fā)人員、系統(tǒng)管理人員、數(shù)據(jù)庫(kù)管理人員以及對(duì)數(shù)據(jù)倉(cāng)庫(kù)感興趣的其他人員;

【培訓(xùn)時(shí)長(zhǎng)】

5


【課程大綱】

 

?

            時(shí)間

            內(nèi)容

            備注

            第一天

             

            第1個(gè)主題: 大數(shù)據(jù)介紹(深入剖析大數(shù)據(jù))90分鐘

            1、 什么是大數(shù)據(jù)

            2、 大數(shù)據(jù)的特征

            3、 大數(shù)據(jù)應(yīng)用現(xiàn)狀

            4、 大數(shù)據(jù)發(fā)展趨勢(shì)

            5、 大數(shù)據(jù)生態(tài)體系介紹

            6、 大數(shù)據(jù)優(yōu)勢(shì)

            7、 大數(shù)據(jù)的核心技術(shù)

            8、 大數(shù)據(jù)與云計(jì)算之間的關(guān)系剖析

            9、 大數(shù)據(jù)與虛擬化之間的關(guān)系剖析

            10、 大數(shù)據(jù)與供應(yīng)商剖析

            11、 大數(shù)據(jù)與成本投入的關(guān)系剖析

            12、 實(shí)例分享:馬云預(yù)測(cè)經(jīng)濟(jì)危機(jī)案例剖析(20分鐘)

             

             

            第2個(gè)主題: Hadoop生態(tài)體系(系統(tǒng)理解Hadoop生態(tài)體系)120分鐘

            1、 什么是Hadoop

            2、 Hadoop由來(lái)介紹

            3、 Google四篇論文的剖析

            a)      GFS、MapReduceBigTable、Chubby

            4、 Hadoop的四大核心組件

            5、 Hadoop相關(guān)概念

            a)      塊、副本

            6、 Hadoop是大數(shù)據(jù)架構(gòu)的事實(shí)標(biāo)準(zhǔn)

            7、 Hadoop的四大核心組件

            8、 Hadoop生態(tài)體系介紹

            9、 Pig Hadoop客戶(hù)端

            10、 HBase大數(shù)據(jù)分布式NoSQL列式數(shù)據(jù)庫(kù)

            11、 Hive大數(shù)據(jù)的數(shù)據(jù)倉(cāng)庫(kù)

            12、 Zookeeper分布式協(xié)調(diào)器

            13、 Sqoop大數(shù)據(jù)導(dǎo)入導(dǎo)出工具

            14、 Avro大數(shù)據(jù)系列化工具

            15、 Chukwa大數(shù)據(jù)分布式數(shù)據(jù)收集系統(tǒng)

            16、 Cassandra大數(shù)據(jù)分布式NoSQL列式數(shù)據(jù)庫(kù)

            17、 Ambari提供監(jiān)控、管理Hadoop資源的工具

            18、 Mahout Hadoop數(shù)據(jù)挖掘算法庫(kù)

            19、 Spark大數(shù)據(jù)內(nèi)存計(jì)算框架

            20、 Tez通用的數(shù)據(jù)流框架

            21、 Hadoop 的數(shù)據(jù)文件格式介紹:JSON, SequenceFile, Avro Parquet

             

             

            第3個(gè)主題: Hadoop集群(深入理解Hadoop集群并部署Hadoop集群)90分鐘

            1、 Hadoop工作原理及架構(gòu)

            2、 Hadoop部署規(guī)劃

            3、 Hadoop部署優(yōu)化

            4、 Hadoop安全管理

            5、 Hadoop HA部署介紹

            6、 Hadoop集群的監(jiān)控

            7、 動(dòng)態(tài)增加HadoopSlave節(jié)點(diǎn)

            8、 Hadoop集群的運(yùn)維

            9、 Hadoop 集群的多租戶(hù)架構(gòu)

            10、 Hadoop 安全體系

            11、 案例分享:基于共享存儲(chǔ)的Hadoop集群部署案例分享(10分鐘)

            12、 案例分享:基于云計(jì)算集群的Hadoop集群部署案例分享(10分鐘)

            13、 課堂實(shí)操:?jiǎn)?dòng)Hadoop集群4臺(tái)機(jī)器(10分鐘;老師帶領(lǐng)學(xué)員一起操作,及學(xué)員問(wèn)題指導(dǎo)員)

             

             

            第4個(gè)主題: HDFS大數(shù)據(jù)分布式文件系統(tǒng)(深入理解大數(shù)據(jù)分布式文件系統(tǒng)的原理與機(jī)制)120分鐘

            1、 HDFS架構(gòu)剖析

            2、 NameNode、DataNodeSecondaryNameNode介紹

            3、 NodeName高可靠性典型實(shí)踐

            4、 DataNodeBlock劃分的原理和具體存儲(chǔ)方式

            5、 CLI操作HDFS

            6、 Java操作HDFS

            7、 RESTful操作HDFS

            8、 動(dòng)態(tài)修改HadoopReplication數(shù)目

            9、 Hadoop序列化

            10、 Hadoop流壓縮

            11、 Hadoop RPC

            12、 SequenceFileMapFile

            13、 Hadoop Avro

            14、 課堂實(shí)操:HadoopRAID之間的關(guān)系

            15、 課堂實(shí)操:Java語(yǔ)言讀寫(xiě)HDFS文件系統(tǒng)(時(shí)長(zhǎng):20分鐘;老師帶領(lǐng)學(xué)員一起操作,及學(xué)員問(wèn)題指導(dǎo)員)

             

             

             

            時(shí)間

            內(nèi)容

            備注

             

             

             

             

             

             

             

             

             

             

             

             

             

             

            第二天

             

            第5個(gè)主題: YARN剖析(深入理解YARN的原理和使用YARN的能力)30分鐘

            1、 YARN介紹

            2、 YARN的設(shè)計(jì)思想

            3、 YARN的核心組件

            4、 YARN為核心的生態(tài)系統(tǒng)

            5、 YarnHA機(jī)制

            6、 YARN應(yīng)用程序編寫(xiě)

            7、 ResourceManager深入剖析

            8、 ClientRMServiceAdminService

            9、 NodeManager深入剖析

            10、 Container

             

            第6個(gè)主題: MapReduce大數(shù)據(jù)批處理技術(shù)(深入理解MapReduce原理及培訓(xùn)開(kāi)發(fā)MapReduce程序能力)120分鐘

            1、 MapReduce算法剖析

            2、 MapReduce數(shù)據(jù)輸入和輸出;

            3、 MapReduce編程思想

            4、 MapReduce命令操作

            5、 MapReduce運(yùn)行過(guò)程解析