離線計算(hadoop)知識模塊體系 |
一、Linux基礎 |
1)Linux的介紹,Linux的安裝:VMware Workstation虛擬軟件安裝過程、CentOS虛擬機安裝過程 2)了解機架服務器,采用真實機架服務器部署linux
3)Linux的常用命令:常用命令的介紹、常用命令的使用和練習
4)Linux系統進程管理基本原理及相關管理工具如ps、pkill、top、htop等的使用;
5)Linux啟動流程,運行級別詳解,chkconfig詳解
6)VI、VIM編輯器:VI、VIM編輯器的介紹、VI、VIM扥使用和常用快捷鍵
7)Linux用戶和組賬戶管理:用戶的管理、組管理
8)Linux磁盤管理,lvm邏輯卷,nfs詳解
9)Linux系統文件權限管理:文件權限介紹、文件權限的操作
10)Linux的RPM軟件包管理:RPM包的介紹、RPM安裝、卸載等操作
11)yum命令,yum源搭建
12)Linux網絡:Linux網絡的介紹、Linux網絡的配置和維護
13)Shell編程:Shell的介紹、Shell腳本的編寫
14)Linux上常見軟件的安裝:安裝JDK、安裝Tomcat、安裝mysql,web項目部署
|
二、大型網站高并發處理 |
1)第四層負載均衡:
2)第七層負載均衡
3)Tomcat、jvm優化提高并發量
4)緩存優化 5)Lvs+nginx+tomcat+redis|memcache構建二層負載均衡千萬并發處理
6)Fastdfs小文件獨立存儲管理
|
三、初識hadoop |
1)Hadoop生態環境介紹
2)國內外Hadoop應用案例介紹
3)Hadoop 概念、版本、歷史
4)Hadoop 核心組成介紹及hdfs、mapreduce 體系結構
5)Hadoop 的集群結構
6)Hadoop 偽分布的詳細安裝步驟
7)通過命令行和瀏覽器觀察hadoop
|
四、 HDFS體系結構和shell以及java操作 |
1)HDFS底層工作原理
2)HDFS datanode,namenode詳解
3)Hdfs shell
4)Hdfs java api
|
五、詳細講解Mapreduce |
1)Mapreduce四個階段介紹
2)Writable
3)InputSplit和OutputSplit
4)Maptask
5)Shuffle:Sort,Partitioner,Group,Combiner
6)Reducer
|
六、Mapreduce案例案例 |
1)二次排序
2)倒排序索引
3)最優路徑
4)電信數據挖掘之--移動軌跡預測分析(中國棱鏡計劃)
5)社交好友推薦算法
6)互聯網精準廣告推送 算法
7)阿里巴巴天池大數據競賽 《天貓推薦算法》案例
8)Mapreduce實戰pagerank算法
|
七、Hadoop2.x集群搭建 |
1)Hadoop2.x集群結構體系介紹
2)Hadoop2.x集群搭建
3)NameNode的高可用性(HA)
4)HDFS Federation
5)ResourceManager 的高可用性(HA)
6)Hadoop集群常見問題和解決方法
7)Hadoop集群管理
|
八、分布式數據庫Hbase |
1)HBase定義
2)HBase與RDBMS的對比
3)數據模型
4)系統架構
5)HBase上的MapReduce
6)表的設計
7)集群的搭建過程講解
8)集群的監控
9)集群的管理
10)HBase Shell以及演示
11)Hbase 樹形表設計
12)Hbase 一對多 和 多對多 表設計
13)Hbase 微博 案例
14)Hbase 訂單案例
15)Hbase表級優化
16)Hbase 寫數據優化
17)Hbase 讀數據優化
|
九、數據倉庫Hive |
1)數據倉庫基礎知識
2)Hive定義
3)Hive體系結構簡介
4)Hive集群
5)客戶端簡介
6)HiveQL定義
7)HiveQL與SQL的比較
8)數據類型
9)外部表和分區表
10)ddl與CLI客戶端演示
11)dml與CLI客戶端演示
12)select與CLI客戶端演示
13)Operators 和 functions與CLI客戶端演示
14)Hive server2 與jdbc
15)用戶自定義函數(UDF 和 UDAF)的開發與演示
16)Hive 優化
|
十、elasticsearch分布式搜索 |
1)elasticsearch簡介
2)elasticsearch和solr的對比
3)elasticsearch安裝部署
4)elasticsearch service wrapper啟動插件
5)使用curl操作elasticsearch索引庫
6)elasticsearch DSL查詢
7)elasticsearch批量查詢meet
8)elasticsearch批量操作bulk
9)elasticsearch插件介紹
10)elasticsearch配置文件詳解
11)java操作elasticsearch
12)elasticsearch的分頁查詢
13)elasticsearch中文分詞工具的集成
14)elasticsearch優化
15)elasticsearch集群部署
16)elasticsearch+hbase大型搜索系統架構
|
十一、CM+CDH集群管理 |
1)CM + CDH集群的安裝
2)基于CM主機及各種服務組件的管理
3)CDH集群的配置和參數調優
4)CDH集群HA配置及集群升級
5)CM的監控管理
6)集群管理的注意事項
7)HUE實戰詳解
|
十二、 Impala |
1)Impala介紹和架構
2)Impala實戰安裝,架構,外部shell
3)Impala內部shell,存儲分區,SQL
4)Impala SQL、hbase整合,JDBC、性能優化
5)Impala配置及其調優
6)Impala項目應用
|
十三、Oozie |
1)Oozie入門介紹
2)Oozie安裝配置及其簡單操作
3)hPDL語言學習及流程定義
4)oozie工作流配置及元數據庫定義
5)oozie定時任務調度和oozie API操作
|
十四、數據遷移工具Sqoop |
1)介紹 和 配置Sqoop
2)Sqoop shell使用
3)Sqoop-import
4)Sqoop-export
|
十五、Flume分布式日志框架 |
1)flume簡介-基礎知識
2)flume安裝與測試
3)flume部署方式
4)flume source相關配置及測試
5)flume sink相關配置及測試
6)flume selector 相關配置與案例分析
7)flume Sink Processors相關配置和案例分析
8)flume Interceptors相關配置和案例分析
9)flume AVRO Client開發
10)flume 和kafka 的整合
|
十六、Zookeeper 開發 |
1)zookeeper架構
2)zookeeper實戰環境
3)zookeeper內部算法詳解
4)Zookeeper java api開發
6)Zookeeper實現SOA高可用架構框架
7)Netty 異步io通信框架
8)Zookeeper實現netty分布式架構的高可用
9)Zookeeper分布式鎖實現
|
內存計算(spark)知識模塊體系 |
一、 Redis緩存數據庫 |
1).redis特點、與其他數據庫的比較
2.如何安裝redis
3.如何使用命令行客戶端
4.redis的字符串類型
5.redis的散列類型
6.redis的列表類型
7.redis的集合類型 8.如何使用java訪問redis【a.python訪問redis,scala訪問redis】
9.redis的事務(transaction)
10.redis的管道(pipeline)
11.redis持久化(AOF+RDB)
12.redis優化
13.redis的主從復制
14.redis的sentinel高可用
15.twemproxy,codis實戰
16.redis3.x集群安裝配置
|
二、Kafka分布式隊列系統 |
1)kafka是什么
2)kafka體系結構
3)kafka配置詳解
4)kafka的安裝
5)kafka的存儲策略
6)kafka分區特點
7)kafka的發布與訂閱
8)zookeeper協調管理
9)java編程操作kafka
10)scala編程操作kafka
11)flume 和kafka 的整合
12)Kafka 和storm 的整合
|
三、Storm實時數據處理 |
1)Storm的基本概念
2)Storm的應用場景
3)Storm和Hadoop的對比
4)Storm集群的安裝的linux環境準備
5)zookeeper集群搭建
6)Storm集群搭建
7)Storm配置文件配置項講解
8)集群搭建常見問題解決
9)Storm常用組件和編程API:Topology、 Spout、Bolt
10)Storm分組策略(stream groupings)
11)使用Strom開發一個WordCount例子
12)Storm程序本地模式debug、Storm程序遠程debug
13)Storm事物處理
14)Storm消息可靠性及容錯原理 15)Storm結合消息隊列Kafka:消息隊列基本概念(Producer、Consumer、Topic、Broker等)、消息隊列Kafka使用場景、Storm結合Kafka編程API
16)Storm Trident概念
17)Trident state 原理
18)Trident開發實例
19)Storm DRPC(分布式遠程調用)介紹
20)Storm DRPC實戰講解
21)Storm和Hadoop 2.x的整合:Storm on Yarn
22)淘寶核心架構套件 23)Storm開發實戰: flume+Kafka+Storm+Hbase+redis項目實戰,以及多個案例
|
四、Scala |
1)scala解釋器、變量、常用數據類型等
2)scala的條件表達式、輸入輸出、循環等控制結構
3)scala的函數、默認參數、變長參數等
4)scala的數組、變長數組、多維數組等
5)scala的映射、元組等操作
6)scala的類,包括bean屬性、輔助構造器、主構造器等
7)scala的對象、單例對象、伴生對象、擴展類、apply方法等
8)scala的包、引入、繼承等概念
9)scala的特質
10)scala的操作符
11)scala的高階函數
12)scala的集合
13)scala數據庫連接
|
五、Spark2.0 core大數據編程 |
1)Spark2.0介紹
2)Spark應用場景
3)Spark和Hadoop MR、Storm的比較和優勢
4)RDD
5)Transformation
6)Action
7)Spark計算PageRank
8)Lineage
9)Spark模型簡介
10)Spark緩存策略和容錯處理
11)寬依賴與窄依賴
12)Spark配置講解
13)Spark集群搭建
14)集群搭建常見問題解決
15)Spark原理核心組件和常用RDD
16)數據本地性
17)任務調度
18)DAGScheduler
19)TaskScheduler
20)Spark源碼解讀
21)性能調優
22)Spark和Hadoop2.x整合:Spark on Yarn原理
23) Spark Core核心編程
24)RDD內核架構概覽
25)RDD的不同數據來源的創建方式詳解
26)RDD的操作算子綜述與本質分析(轉換算子、行動算子)
27)常用操作算子的案例實戰
28)RDD持久化實戰以及Checkpoint
29)RDD共享變量以及累加器的使用實戰 30)RDD簡單排序功能(優化之前WordCount程序)以及二次排序的實戰
31)Spark實戰Top N功能詳解
32)Spark任務調度流程整體架構分析詳解 33)Spark任務劃分流程整體架構分析詳解(寬依賴與窄依賴、DAGScheduler源碼分析)
34)Spark執行任務相關原理以及源碼分析(TaskScheduler、Executor、Task、Shuffle)
35)Spark實戰之PageRank
36)性能優化與調優的分析
|
六、 Spark SQL |
1.Spark RDD應用SQL實戰
2.RDD轉化為DataFrame數據框的方式詳解
3.Spark DataFrame數據框操作實戰
4.加載和保存數據操作(load與save)
5.JSON數據源實戰案例
6.JDBC數據源實戰案例
7.Hive數據源實戰案例
8.Parquets數據源實戰加載數據、自動分區推斷、合并元數據
9.內置函數的實戰案例
10.開窗函數的實戰案例
11.Spark SQL UDF自定義函數實戰
12.Spark SQL UDAF自定義聚合函數實戰
13.Spark SQL 工作原理詳解以及Spark SQL 的源碼分析
14.Hive on Spark
|
七、Spark Streaming實時計算 |
1)Spark Streaming和Storm對比講解
2)Spark Streaming本質原理分析
3)Wordcount程序的實時版本開發
4)Spark Streaming和Spark Core里面context的不同
5)輸入DStream和Receiver的講解
6)不同輸入源(Kafka、HDFS)的DStream操作實戰
7)基于DStream的window滑動窗口實戰案例
8)基于DStream的updateStateByKey實戰案例
9)基于DStream的transform實戰案例
10)DStream的輸出存儲操作以及核心函數foreachRDD實戰
11)Spark Streaming的持久化實戰以及Checkpoint
12)與Spark SQL結合使用實戰案例
13)架構原理分析與性能優化
|
人工智能知識模塊體系 |
一、語言機器學習 |
1)R語言介紹,基本函數,數據類型
2)線性回歸
3)樸素貝葉斯分類
4)決策樹分類
5)k均值聚類
6)關聯規則探索
7)神經網絡
|
二、Mahout機器學習 |
1)介紹為什么使用它,它的前景
2)配置安裝(hadoop2.x版本的)編譯安裝步驟說明
3)推薦
4)分類
5)聚類
|
三、Python |
1)介紹Python以及特點
2)Python的安裝
3)Python基本操作(注釋、邏輯、字符串使用等)
4)Python數據結構(元組、列表、字典)
5)使用Python進行批量重命名小例子
6)Python常見內建函數
7)更多Python函數及使用常見技巧
8)異常
9)Python函數的參數講解
10)Python模塊的導入
11)Python中的類與繼承
12)網絡爬蟲案例
13)數據庫連接,以及pip安裝模塊
14)Mongodb基礎入門
15)講解如何連接mongodb
16)Python的機器學習案例
|
四、park MLlib機器學習 |
1)介紹b
2)回歸算法b
3)分類算法b
4)第四章 推薦系統b
5)第五章 聚類b
|
云計算知識模塊體系 |
一、Docker |
1)基本介紹
2)vm docker 對比
3)docker基本架構介紹
4)unfs cgroup namespace
5)進程虛擬化 輕量級虛擬化
6)docker 安裝
7)docker 鏡像制作
8)docker 常用命令
9)docker 鏡像遷移
10)docker pipework
11)docker weave
|
二、虛擬化KVM |
1)虛擬化介紹,虛擬化適用場景等等
2)Qemu Libvirt & KVM
3)安裝KVM, Qemu, Libvirt
4)QEMU-KVM: 安裝第一個能上網的虛擬機
5)Kvm虛擬機 nat,網橋基本原理
6)kvm虛擬機克隆
7)kvm虛擬機vnc配置
8)kvm虛擬機擴展磁盤空間
9)Kvm快照
10)Kvm 遷移
11)Java,python,c語言編程控制kvm
12)構建自己的虛擬云平臺
|
三、云平臺OpenStack |
1)openstack介紹和模塊基本原理分析
2)openstack多節點安裝部署
3)Keystone基本原理
4)glance
5)Cinder
6)Swift
7)Neutron
8)Openstack api 二次開發
|