保險精算項目需要計算海量明細保單數據,以便生成財務報表。項目使用SparkSQL來計算,時效大大提高,增強保險公司的商業信譽。項目將多部門的業務數據庫同步到hive數據集市,使用SparkSQL加載源數據表(保單表12億保單,客戶表8千萬客戶等),計算保單的保費、現金價值、準備金等明細,提供給財務部門收費或支出,最后對保單匯總計算(業務發展類指標,成本費用類指標等),并向業務人員做數據展示。立即體驗
一線城市薪資高
二三線緊隨其后
國家實施大數據戰略
大數據專業人才緊缺
數字經濟引領全球
經濟社會發生變革
0基礎轉行人員數據課程從Python入手
簡單高效入門快
適宜零基礎人員學習
應屆畢業生缺乏工作經驗技能
未來沒有明確規劃
通過學習本課入行IT
互聯網轉行人員目前工作待遇不理想
市場上升空間有限
需要突破現狀轉行
有基礎尋求系統提升者具有一定的數據理論或基礎
需要掌握系統數據技術
在實際業務中如何應用
適合零基礎學員課程由淺入深/數據量由小到大
逐步掌握各業務場景下的數據處理
熱門技術周更新一線大廠行業專家/年億元級研發投入
以“周”為單位更新前沿技術
項目驅動式教學多行業多項目實戰
提升實戰能力 入職即能快速上手
課程貼合市場需求課程與時俱進不斷融入熱門技術棧
打造學完即上崗人才
還原真實工作場景參與真實項目開發流程
鍛煉獨立分析、解決問題的能力
積累實際工作經驗真實數據業務需求轉化
企業級真項目涵蓋14大主流行業
Python基礎編程
Python編程進階
MySQL
大數據Hadoop技術棧
企業級離線數倉項目
&數倉項目分組實訓
Pandas & Spark技術棧
Spark離線項目
實時計算基礎
Spark實時項目
就業指導+就業加強
大數據實時技術棧
&大數據實時計算項目
畢業后進階課程
主要內容
Python基礎語法、Python數據處理、函數、文件讀寫、面向對象、異常處理、模塊和包。
可解決的現實問題
掌握Python基礎語法。
可掌握的核心能力
1.掌握Python開發環境基本配置;
2.掌握運算符、表達式、流程控制語句、數組等的使用;
3.掌握字符串的基本操作;
4.初步建立面向對象的編程思維;
5.熟悉異常捕獲的基本流程及使用方式。
主要內容
網絡編程、多任務編程、高級語法、Python編程綜合項目。
可解決的現實問題
熟練使用Python。
可掌握的核心能力
1.掌握類和對象的基本使用方式;
2.掌握網絡編程技術,能夠實現網絡通訊;
3.知道通訊協議原理;
4.掌握開發中的多任務編程實現方式;
5.知道多進程多線程的原理。
主要內容
MySQL與SQL、Kettle與BI工具、Pymysql。
可解決的現實問題
熟練掌握MySQL\SQL、Kettley以及BI工具使用。
可掌握的核心能力
1.掌握MySQL數據庫的使用;
2.掌握SQL語法;
3.掌握Kettle數據遷移工具的使用;
4.熟練使用BI可視化工具;
5.對數據開發有一定認知,掌握BI及ETL工程師所具備的基礎技能。
主要內容
Linux、大數據基礎和硬件介紹、Zookeeper、HDFS、MapReduce、YARN、Hive基礎、Hive高階。
可解決的現實問題
1.熟悉Linux操作系統,以及各種Linux命令,實現集群搭建準備;
2.掌握大數據的核心框架Hadoop以及其生態體系,打下大數據學習的良好基礎;
3.掌握數據倉庫理論,掌握Hive框架,為構建企業級數據倉庫奠定技術基礎。
可掌握的核心能力
1.掌握Linux常用命令,為數據開發后續學習打下的良好基礎
2.掌握大數據的核心框架Hadoop以及其生態體系,完成HDFS、MapReduce及Yarn機制基本理解與使用;能夠搭建Hadoop高可用HA集群
3.掌握Hive的使用和調優
4.具備Hadoop開發能力、離線數據倉庫開發能力
5.能夠構建企業級數倉
主要內容
新零售離線數倉項目、在線教育數倉項目。
可解決的現實問題
掌握企業級常見數據倉庫搭建過程,完成大數據體系下的企業級數據倉庫構建。
可掌握的核心能力
1.掌握行業離線數倉的分層與建模,從需求、設計、研發、測試到落地上線的完整項目流程;
2.真實業務邏輯,共涉及20多個主題,100多個指標,提升核心競爭力;
3.包括海量數據場景下如何優化配置;
4.拉鏈表的具體應用;
5.新增數據和更新數據的抽取和分析;
6.Hive函數的具體應用;
7.ClouderaManager可視化、自動部署和配置、Git、CodeReview功能;
8.使用Git對代碼進行管理;
9提供供新零售大型商超集團的數據存儲分析以及服務監控方案。
主要內容
Pandas及可視化技術、Spark基礎、Spark Core、Spark SQL、Structured Streaming、Spark綜合案例。
可解決的現實問題
Pandas數據處理及可視化技術,掌握全球最熱門的Spark技術棧,完成高級大數據開發人才的躍進。
可掌握的核心能力
1.掌握Spark的RDD、DAG、CheckPoint等設計思想;
2.掌握SparkSQL結構化數據處理,Spark On Hive;
3.掌握Pandas數據處理分析,以及Pandas on Spark;
4.掌握Structured Streaming整合多數據源完成實時數據處理;
5.具備Spark全棧開發能力,滿足大數據行業多場景統一技術棧的數據開發,提供就業核心競爭力。
主要內容
保險行業大數據項目和客快物流離線項目二選一。
可解決的現實問題
掌握Spark項目架構及數據流向,完成企業級數倉搭建,實現企業數字化轉型;通過項目實戰,掌握使用Spark技術完成企業級數倉搭建以及各層指標計算。
可掌握的核心能力
1. 快速搭建保險行業大數據平臺;
2. 基于Hive+Spark SQL搭建離線數據倉庫;
3. 基于SparkSQL應對輕松應對復雜的迭代計算;
4. 完成基于國內頭部保險公司大數據項目開發;
5. 掌握基于Spark分析12億報單表和8千萬客戶等數據;
6. 對保單匯總計算(業務發展類指標,成本費用類指標等),并向業務人員做數據展示;
7. 掌握基于Elasticsearch標簽搜索;
8.掌握Docker環境部署、管理操作;
9.掌握基于Oracle + MySQL異構數據源數據處理技術;
10.掌握基于Oracle Golden Gate以及Canal的實時采集技術;
11.掌握Kudu + Spark的快速離線數據處理、分析技術;
12.掌握Kudu + Impala即席數據分析技術;
13.掌握Kudu、Spark的調優能力。
主要內容
萬億級NoSQL海量數據存儲、Flume實時數據采集、分布式流處理平臺、NoSQL。
可解決的現實問題
掌握NoSQL與實時計算中組件,數據開發工程師重要技能。
可掌握的核心能力
1.掌握HBase原理及架構;
2.掌握HBase命令操作、MapReduce編程;
3.掌握Phoneix二級索引優化查詢;
4.掌握Kafka原理及架構。
主要內容
保險行業大數據項目和客快物流實時項目二選一。
可解決的現實問題
掌握Spark項目架構及數據流向,完成企業級畫像平臺搭建或實時平臺搭建,實現企業數字化轉型;通過項目實戰,掌握使用Spark技術完成企業級畫像平臺搭建或Spark實時技術使用。
可掌握的核心能力
1.用戶畫像架構設計;
2.基于Hbase存儲業務數據庫數據;
3.基于SparkSQL應對輕松應對標簽的計算;
4.完成基于國內頭部保險公司大數據項目開發;
5.掌握基于MySQL的五級標簽構建;
6.對統計類標簽,規則類標簽進行代碼封裝;
7.掌握基于Elasticsearch全文檢索技術;
8.掌握Docker環境部署、管理操作;
9.掌握基于Oracle + MySQL異構數據源數據處理技術;
10.掌握基于Oracle Golden Gate以及Canal的實時采集技術;
11.掌握基于ClickHouse高性能存儲、計算引擎技術;
12.掌握基于Elasticsearch的全文檢索技術;
13.掌握Kudu、Spark的調優能力;
14.掌握基于Spring Cloud的數據微服務接口開發技術。
主要內容
SQL實戰、Hive數據分析與面試題加強、Spark數據分析與面試題加強、NoSQL數據分析與面試題加強、大數據多行業架構剖析。
可解決的現實問題
對學習的內容進行整體回顧,并分析經典面試題,指導簡歷,面試和溝通技巧助力高薪offer。
可掌握的核心能力
1.強化面試就業核心面試題;
2.梳理大數據架構及解決方案;
3.剖析多行業大數據架構。
主要內容
星途車聯網Flink實時項目、今日指數證券Flink實時項目和客快物流Flink實時項目三選一。
可解決的現實問題
掌握當下熱門的流批一體化分布式計算框架Flink及其生態,適應市場對Flink越發增長的需求;掌握基于Flink全棧進行快速OLAP分析,完成企業級實時項目構建。
可掌握的核心能力
1.掌握基于Flink進行實時和離線數據處理、分析;
2.掌握基于Flink的多流并行處理技術;
3.掌握千萬級高速實時采集技術;
4.掌握基于Flink全棧進行快速OLAP分析;
5.掌握實時高性能海量數據分析與存儲;
6.掌握針對HBase調優實現HBase存儲調優;
7.掌握數據報表分析;
8.掌握業務數據實時大屏場景實現。
主要內容
Python數據分析、Python后端開發、Scala on Spark、Java on Flink、Flink實時計算高級進階。
可解決的現實問題
在工作后,贈送超240天的課程,進階課程持續更新、終身受益。
可掌握的核心能力
1.數據分析專項課,無論從事大數據開發、還是專門從事數據分析,升職挑戰高薪必備技能;
2.如果你最終想成為融匯前后端運維測試的技術總監,那么請在工作之余學習Python后端開發這套課程;
3.Scala雖然式微,但如果你即將加入的團隊還在使用Scala進行Spark開發,請快速學習;
4.阿里為首的一線大廠已經開始采用Python on Flink的技術選型,但還是有部分團隊采用Java on Flink,如果需要請快速學習;
5.價值超過萬元的Flink實時計算高級進階課程,助力在職的你持續挑戰高薪。
保險精算項目需要計算海量明細保單數據,以便生成財務報表。項目使用SparkSQL來計算,時效大大提高,增強保險公司的商業信譽。項目將多部門的業務數據庫同步到hive數據集市,使用SparkSQL加載源數據表(保單表12億保單,客戶表8千萬客戶等),計算保單的保費、現金價值、準備金等明細,提供給財務部門收費或支出,最后對保單匯總計算(業務發展類指標,成本費用類指標等),并向業務人員做數據展示。立即體驗
通過大數據技術架構,解決工業物聯網石油制造行業的數據存儲和分析、可視化、個性化推薦問題。一站制造項目主要基于hive數倉分層來存儲各個業務指標數據,基于sparksql做數據分析。核心業務涉及運營商、呼叫中心、工單、油站、倉儲物料。立即體驗
本項目基于一家大型連鎖超市研發的大數據分析平臺。是第一個深度使用Presto的項目,為后續Presto相關課程的研發打下了堅實的基礎,也為學員的就業拓寬了道路;真實的數據結構,復雜的SQL實現過程,學生學習以后可以達到離線數倉的高級開發水平。立即體驗
學習大數據,你見過真的海量數據嗎?你操作過真的【大規模集群】嗎?你接觸過真的【云服務】嗎?這一切,在黑馬程序員都將實現真接觸!
黑馬程序員與知名云平臺廠商—UCloud達成深度合作。為學生提供大規模服務器
集群進行實戰,硬件規模達到:
相同的工作場景,開發不必從零開始,解決方案可以拿來即用。黑馬整合緊跟市場趨勢,建立“Python+大數據開發解決方案庫”,80+技術解決方案,覆蓋職場常見技術難題,讓學員成為團隊技術問題解決最高效的人。
涵蓋完整車聯網業務場景,包含駕駛行程、電子圍欄、遠程診斷等真實業務通過 QBOX 車輛終端數據收集,并解析為 QSP 數據、QCS 數據、充電數據、HU 數據提供實時計算服務與離線計算服務,并通過 API 接口以報表和大屏展示分析結果數據
建立集團數據倉庫,統一集團數據中心,把分散的業務數據集中存儲和處理 項目從需求調研、設計、版本控制、研發、測試到落地上線,涵蓋了項目的完整工序挖掘分析海量用戶行為數據,定制多維數據集合,形成數據集市,供各個場景主題使用
實時監控證券市場的市場每日的業務交易,實現對證券市場交易數據的統計分析搭建監察預警體系,包括:預警規則管理,實時預警,歷史預警,監察歷史數據分析等股市行情交易數據實時采集、實時數據分析、多維分析,即席查詢,實時大屏監控展示高性能處理,流處理計算引擎采用的是 Flink,實時處理 100 萬筆/s 的交易數據
涵蓋完整車聯網業務場景,包含駕駛行程、電子圍欄、遠程診斷等真實業務通過 QBOX 車輛終端數據收集,并解析為 QSP 數據、QCS 數據、充電數據、HU 數據提供實時計算服務與離線計算服務,并通過 API 接口以報表和大屏展示分析結果數據
基于一家大型物流公司研發的智慧物流大數據平臺,日訂單上千萬,圍繞訂單、運輸、倉儲、搬運裝卸、包裝以及流通加工等物流環節中涉及的數據信息等 ,提高運輸以及配送效率、減少物流成本、更有效地滿足客戶服務要求,并針對數據分析結果,提出具有中觀指導意義的解決方案
基于一家大型物流公司研發的智慧物流大數據平臺,日訂單上千萬,圍繞訂單、運輸、倉儲、搬運裝卸、包裝以及流通加工等物流環節中涉及的數據信息等 ,提高運輸以及配送效率、減少物流成本、更有效地滿足客戶服務要求,并針對數據分析結果,提出具有中觀指導意義的解決方案
基于一家大型物流公司研發的智慧物流大數據平臺,日訂單上千萬,圍繞訂單、運輸、倉儲、搬運裝卸、包裝以及流通加工等物流環節中涉及的數據信息等 ,提高運輸以及配送效率、減少物流成本、更有效地滿足客戶服務要求,并針對數據分析結果,提出具有中觀指導意義的解決方案
基于垂直電商平臺構建的用戶全方位畫像,完整抽取出一個用戶的信息全貌 ,業務圍繞商品、訂單、用戶基礎信息及行為信息等數據,實現用戶和商品基礎標簽、組合標簽、微觀畫像、標簽查詢等業務場景,提供了企業級多 方位業務決策分析。
數據分析不僅是(大)數據開發中重要流程,也是(大)數據開發的最終目的;越來越多的企業要求(大)數據工程師承擔部分數據 分析的工作
信用風險是金融監管機構重點關注的風險,關乎金融系統運行的穩定。在實際業務開展和模型構建過程中,面臨著高維稀疏特征以及樣本不平衡等各種問題,如何應用機器學習等數據挖掘方法提高信用風險的評估和預測能力,是各家金融機構積極探索的方向。
確定項目方向目標需求調研
需求分析需求分解
架構設計技術選型數據生命周期數據來源數據分層
小組開發環境搭建數據采集數倉建設定時任務主題開發代碼提交文檔撰寫數據回測
隨著初級程序員趨于飽和,中高級程序員缺口變大,IT培訓行業原來就業培訓課程難以適應未來的就業競爭。
傳智教育推出高級軟件工程師就業培訓課程,定位培養中高級程序員。Python+大數據開發課程有11大行業12個“大廠”級項目,400+業務指標,220+技術點,12個企業級項目授課時間就超150天(每周上5天課)。其課程容量、技術深度、項目廣度均超其他機構6個月培訓課程50%以上,大大提升學員的就業競爭力。查看更多 >
課程大綱
基礎班
1. Python基礎編程
高手班
1. Python編程進階 2. MySQL 3. 大數據Hadoop技術棧 4. 項目一:企業級離線數倉 5. 項目二:數倉項目分組實訓 6. Pandas技術棧 7. Spark技術棧 8. 項目三:Spark離線項目(2選1)保險行業大數據項目 9. 項目三:Spark離線項目(2選1)客快物流項目 10. 實時計算基礎 11. 項目四:Spark實時項目(2選1)保險行業用戶畫像項目 12. 項目四:Spark實時項目(2選1)客快物流實時項目 13. 就業指導+就業加強 14. 大數據實時技術棧 15. 項目五:大數據實時計算項目(3選1)星途車聯網Flink實時項目 16. 項目五:大數據實時計算項目(3選1)今日指數證券Flink實時項目 17. 項目五:大數據實時計算項目(3選1)客快物流Flink實時項目
進階課
1. 進階課程
$versionDesc
課時:8天技術點:52項測驗:1次學習方式:線下面授
1.掌握Python開發環境基本配置| 2.掌握運算符、表達式、流程控制語句、數組等的使用| 3.掌握字符串的基本操作| 4.初步建立面向對象的編程思維| 5.熟悉異常捕獲的基本流程及使用方式|
1. Python基礎語法零基礎學習Python的開始,包含了以下技術點:
1.變量| 2.標識符和關鍵字| 3.輸入和輸出| 4.數據類型轉換| 5.PEP8編碼規范| 6.比較/關系運算符| 7.if判斷語句語法格式| 8.三目運算符| 9.while語句語法格式| 1.while 循環嵌套| 11.break 和 continue| 12.while 循環案例| 13.for循環|
2. Python數據處理掌握Python的數據類型,并對其進行操作處理,包含了以下技術點:
1.字符串定義語法格式| 2.字符串遍歷| 3.下標和切片| 4.字符串常見操作| 5.列表語法格式| 6.列表的遍歷| 7.列表常見操作| 8.列表嵌套| 9.列表推導式| 1.元組語法格式| 11.元組操作| 12.字典語法格式| 13.字典常見操作| 14.字典的遍歷|
3. 函數能夠實現Python函數的編寫,包含了以下技術點:
1.函數概念和作用、函數定義、調用| 2.函數的參數| 3.函數的返回值| 4.函數的注釋| 5.函數的嵌套調用| 6.可變和不可變類型| 7.局部變量| 8.全局變量| 9.組包和拆包、引用|
4. 文件讀寫能夠使用Python對文件進行操作,包含了以下技術點:
1.文件的打開與關閉、文件的讀寫| 2.文件、目錄操作及案例| 3.os模塊文件與目錄相關操作|
5. 面向對象從逐步建立起面向對象編程思想,再到會使用對象,到創建對象,再到真正理解為什么封裝對象,包含了以下技術點:
1.面向對象介紹| 2.類的定義和對象的創建| 3.添加和獲取對象屬性| 4.self 參數| 5.init方法| 6.繼承| 7.子類方法重寫| 8.類屬性和實例屬性| 9.類方法、實例方法、靜態方法|
6. 異常處理主要介紹了在Python編程中如何處理異常,包含了以下技術點:
1.異常概念| 2.異常捕獲| 3.異常的傳遞|
7. 模塊和包主要介紹了Python中的模塊和包的體系,以及如何使用模塊和包,包含了以下技術點:
1.模塊介紹| 2.模塊的導入| 3.包的概念| 4.包的導入| 5.模塊中的..all..| 6.模塊中..name..|
課時:10天技術點:30項測驗:1次學習方式:線下面授
1.掌握面向對象編程能力及思想| 2.掌握Python高級語法特性| 3.掌握開發中的多任務編程實現方式| 4.知道多進程多線程的原理| 5.掌握網絡編程技術,能夠實現網絡通訊| 6.知道通訊協議原理| 7.掌握日志的使用| 8.能夠使用Python對數據進行處理開發|
1. 網絡編程主要學習通訊協議,以及Python實現TCP、HTTP通訊,包含了以下技術點:
1.IP地址的介紹| 2.端口和端口號的介紹| 3.TCP的介紹| 4.Socket的介紹| 5.TCP網絡應用的開發流程| 6.基于TCP通信程序開發|
2. 多任務編程主要學習Python中多線程、多進程,包含了以下技術點:
1.多任務介紹| 2.多進程的使用| 3.多線程的使用| 4.線程同步|
3. 高級語法主要學習Python的高級語法,包含以下技術點:
1.閉包| 2.裝飾器| 3.迭代器| 4.深淺拷貝| 5.正則|
4. Python編程綜合項目通過前邊所學知識,完成綜合案例,鍛煉編程能力、培養編程思維
1. Python編程綜合項目|
課時:5天技術點:36項測驗:1次學習方式:線下面授
1. 掌握MySQL數據庫的使用| 2. 掌握SQL語法| 3. 掌握Kettle數據遷移工具的使用| 4. 熟練使用BI可視化工具| 5. 對數據開發有一定認知,掌握BI工程師所具備的基本技能|
1. MySQL與SQL零基礎小白通過MySQL數據庫,掌握核心必備SQL,包含了以下技術點:
01_數據庫概念和作用| 02_MySQL數據類型| 03_數據完整性和約束| 04_數據庫、表基本操作命令| 05_表數據操作命令| 06_where子句| 07_分組聚合| 08_連接查詢| 09_外鍵的使用|
2. Kettle與BI工具使用Kettle做數據遷移,通過BI工具展示excel、MySQL中的數據,包含了以下技術點:
01_Kettle基本操作| 02_Kettle數據轉換| 03_Kettle使用SQL腳本組件| 04_kettle Job開發| 05_FineBI基本操作| 06_FineBI常用圖表| 07_FineBI儀表板| 08_綜合案例|
3. PymysqlPython與數據庫交互,主要學習PyMySQL包
01. 環境搭建| 02. Python操作數據庫|
4. Python編程綜合項目通過前邊所學知識,完成綜合案例,鍛煉編程能力、培養編程思維
01. Python編程綜合項目|
課時:11天技術點:46項測驗:0次學習方式:線下面授
1.掌握Linux常用命令,為數據開發后續學習打下的良好基礎| 2.掌握大數據的核心框架Hadoop以及其生態體系,完成HDFS、MapReduce及Yarn機制基本理解與使用;能顧搭建Hadoop高可用HA集群| 3.掌握Hive的使用和調優| 4.具備Hadoop開發能力、離線數據倉庫開發能力| 5.能夠完成基本構建企業級數倉|
1. Linux掌握Linux操作系統常用命令和權限管理
01_Linux命令使用| 02_Linux命令選項的使用| 03_遠程登錄和遠程拷貝| 04_Linux權限管理| 05_vi編輯器使用| 06_集群搭建準備|
2. 大數據基礎和硬件介紹進一步闡述大數據特點與分布式思想,知識點由淺入深,包含了以下技術點:
1.大數據的特點| 2.分布式存儲概念| 3.分布式計算的概念| 4.服務器種類介紹、機架、交換機| 5.網絡拓撲、Raid、IDC數據中心|
3. Zookeeper分布式軟件管家,實現了集群管理與leader選舉,包含了以下技術點:
1.Zookeeper的應用場景| 2.架構和原理| 3.存儲模型| 4.選舉機制| 5.客戶端操作| 6.ZK集群搭建|
4. HDFS分布式文件系統,解決了海量數據存儲與容錯,包含了以下技術點:
1.HDFS設計的特點| 2.Master-Slave架構| 3.Block塊存儲、RF拷貝因子、機架感知| 4.Block拷貝策略、讀寫流程| 5.HDFS Federation、HDFS Snapshots、NameNode HA架構和原理| 6.HDFS管理員常用操作、HDFS權限控制| 7.HDFS普通集群以及HA集群搭建|
5. MapReduce分布式計算系統,解決海量數據的計算,包含了以下技術點:
1.MapReduce架構和原理| 2.Split機制| 3.MapReduce并行度| 4.Combiner機制、 5.Partition機制、自定義Partition| 6.MapReduce序列化、自定義排序、數據壓縮|
6. YARN分布式資源調度管理器,管理服務器軟件資源,包含了以下技術點:
1.Yarn原理和架構| 2.Yarn高可用| 3.Container資源的封裝(CPU、內存和IO)| 4.資源調度策略(FIFO、Fair和Capacity)| 5.YARN高可用模式搭建|
7. Hive基礎數據倉庫Hive,實現企業級數倉必備工具,包含以下知識點:
1.HQL操作| 2.數據類型| 3.分區、分桶、臨時表| 4.explain執行計劃詳解|
8. Hive高階數據倉庫Hive高階原理和架構深入,實現企業級數倉優化,包含以下知識點:
1.Hive原理和架構| 2.Meta Store服務| 3.HiveServer內置函數| 4.自定義UDF和UDAF| 5.數據壓縮、存儲格式、自動化腳本、常見性能優化|
課時:10天技術點:120項測驗:0次學習方式:線下面授
1.掌握離線數倉的分層與建模,從需求、設計、研發、測試到落地上線的完整項目流程| 2.行業內首個深度使用Presto的項目| 3.包括海量數據場景下如何優化配置| 4.拉鏈表的具體應用| 5.新增數據和更新數據的抽取和分析| 6.提供新零售大型商超集團的數據存儲分析以及服務監控方案| 7.使用Git對代碼進行管理|
本項目基于一家大型連鎖超市研發的大數據分析平臺。黑馬第一個深度使用Presto的項目,打下了堅實的項目實操能力,也為學員的就業拓寬了道路;真實的數據結構,復雜的SQL實現過程,學生學習以后可以達到離線數倉的高級開發水平。
進入項目體驗掌握離線數倉的分層與建模、大數據量場景下如何優化配置,拉鏈表的具體應用,新增數據的抽取和分析,更新數據的抽取和分析,以及Hive函數的具體應用等。ClouderaManager可視化、自動部署和配置、Git的CodeReview功能保證項目高質量 離線數倉的分層與建模 項目涉及20多個主題,100多個指標場景 帆軟BI企業級報表展示
1.大數據部署運維:Cloudera Manager 2.分析決策需求:數據倉庫 3.數據采集:sqoop 4.數據分析:Hive+presto 5.歷史數據快照:拉鏈表 6.數據更新后的統計分析:拉鏈表 7.數據調度:oozie+shell 8.OLAP系統存儲:MySQL 9.FineBI數據展示
課時:5天技術點:120項測驗:0次學習方式:線下面授
1.掌握行業離線數倉的分層與建模,從需求、設計、研發、測試到落地上線的完整項目流程 2.真實業務邏輯,共涉及20多個主題,100多個指標,提升核心競爭力 3.包括海量數據場景下如何優化配置 4.拉鏈表的具體應用 5.新增數據和更新數據的抽取和分析 6.Hive函數的具體應用 7.ClouderaManager可視化、自動部署和配置、Git、CodeReview功能
1、建立集團數據倉庫,統一集團數據中心,把分散的業務數據集中存儲和處理 2、項目從需求調研、設計、版本控制、研發、測試到落地上線,涵蓋了項目的完整工序 3、挖掘分析海量用戶行為數據,定制多維數據集合,形成數據集市,供各個場景主題使用。
進入項目體驗項目介紹與環境準備、數據倉庫的建模和分層、OLTP、ODS、DWD實現、Presto、DWB實現、DWS實現、DM、RPT、導出實現、Oozie架構與部署及使用。使用Hive、Presto、Oozie、數倉技術棧,提供新零售大型商超集團的數據存儲分析以及服務監控方案
1.大數據部署運維:Cloudera Manager 2.分析決策需求:數據倉庫 3.數據采集:sqoop 4.數據分析:Hive 5.歷史數據快照:拉鏈表 6.數據更新后的統計分析:拉鏈表 7.數據調度:ds 8.OLAP系統存儲:MySQL 9.FineBI數據展示 10.Git代碼管理
課時:3天技術點:48項測驗:1次學習方式:線下面授
1.掌握離線數倉的分層與建模,從需求、設計、研發、測試到落地上線的完整項目流程 2.行業內首個深度使用Presto的項目 3.包括海量數據場景下如何優化配置 4.拉鏈表的具體應用 5.新增數據和更新數據的抽取和分析 6.提供新零售大型商超集團的數據存儲分析以及服務監控方案 7.使用Git對代碼進行管理
1. Pandas及可視化技術Pandas數據處理及可視化技術,包含以下技術點:
01. Pandas數據結構和數據類型| 02. 索引及列的操作| 03. Dataframe數據的增刪改查操作| 04. Pandas常用計算函數| 05. 缺失值處理| 06. 分組、分箱、合并與變形操作| 07. DF的讀取與保存以及與數據庫的交互| 08. Pandas Matplotlib、Pyecharts可視化| 09. Pandas項目開發實戰|
課時:8天技術點:130項測驗:1次學習方式:線下面授
1.掌握Spark的RDD、DAG、CheckPoint等設計思想| 2.掌握SparkSQL結構化數據處理,Spark On Hive| 3. 掌握Pandas數據處理分析,以及Pandas on Spark| 4.掌握Structured Streaming整合多數據源完成實時數據處理| 5.具備Spark全棧開發能力,滿足大數據行業多場景統一技術棧的數據開發,提供就業核心競爭力|
1. Spark基礎本階段學習Spark環境搭建及以下知識點
1.Spark基礎環境搭建 2.Spark的Standalone環境搭建 3.Spark的StandaloneHA搭建 4.SparkOnYarn環境搭建
2. Spark Core整個spark框架核心部分,掌握框架內部設計思想,數據流轉步驟,是學習spark的基礎模塊,包含了以下技術點:
1.Spark架構和原理(運行機制、Driver和Executor、spark任務提交流程) 2.RDD開發和原理(Partition、Task、RDD的依賴關系、RDD的容錯機制、RDD的存儲級別、RDD的緩存機制)廣播變量 3.DAG原理(DAG思想、DAG的生成、DAG的處理過程)
3. Spark SQL學習spark框架的SQL操作,spark與Hive、HBase等外部數據源的整合操作,包含了以下技術點:
1.Spark SQL架構和原理 2.DataFrame、DataSet DSL和SQL開發 3.Spark多數據源整合(txt、CSV、Json、parquet、JDBC、Hive) 4.Spark SQL執行計劃原理 5.Spark SQL性能調優
4. Structured StreamingSpark實時計算
1.流式處理基本概念及應用場景 2.Structured Streaming架構 3.Structured Streaming基本使用 4.Structured Streaming與其他組件配合使用
5. Spark綜合案例踐行場景式教學,運用了Spark階段知識點,使用lambda加解決數據分析的應用,包含了以下技術點:
Spark綜合案例實戰
課時:9天技術點:100項測驗:0次學習方式:線下面授
1. 快速搭建保險行業大數據平臺| 2. 基于Hive+Spark SQL搭建離線數據倉庫| 3. 基于SparkSQL應對輕松應對復雜的迭代計算| 4. 完成基于國內頭部保險公司大數據項目開發| 5. 掌握基于Spark分析12億報單表和8千萬客戶等數據| 6. 對保單匯總計算(業務發展類指標,成本費用類指標等),并向業務人員做數據展示| 7. 掌握基于Elasticsearch標簽搜索|
保險精算項目需要計算海量明細保單數據,以便生成財務報表。項目使用SparkSQL來計算,時效大大提高,增強保險公司的商業信譽。項目將多部門的業務數據庫同步到Hive數據集市,使用SparkSQL加載源數據表(保單表12億保單,客戶表8千萬客戶等),計算保單的保費、現金價值、準備金等明細,提供給財務部門收費或支出,最后對保單匯總計算(業務發展類指標,成本費用類指標等),并向業務人員做數據展示
進入項目體驗項目核心架構和業務流程、Hive數倉建模 、Sqoop數據同步開發 DolphinScheduler任務調度、使用lag,sum等窗口函數 、使用UDAF函數計算有效保單數字段、計算現金價值、計算和準備金、分區表的使用 、指標匯總計算 、Shuffle優化、Elasticsearch搜索。
基于Spark輕松應對保險復雜的迭代計算;以及用戶畫像
課時:9天技術點:130項測驗:0次學習方式:線下面授
1.掌握Docker環境部署、管理操作| 2.掌握基于Oracle + MySQL異構數據源數據處理技術| 3.掌握基于Oracle Golden Gate以及Canal的實時采集技術| 4.掌握Kudu + Spark的快速離線數據處理、分析技術| 5.掌握Kudu + Impala即席數據分析技術| 6.掌握Kudu、Spark的調優能力|
基于一家大型物流公司研發的智慧物流大數據平臺,日訂單上千萬,圍繞訂單、運輸、倉儲、搬運裝卸、包裝以及流通加工等物流環節中涉及的數據信息等,提高運輸以及配送效率、減少物流成本、更有效地滿足客戶服務要求,并針對數據分析結果,提出具有中觀指導意義的解決方案。
進入項目體驗涵蓋離線業務和實時業務、ClickHouse實時存儲和計算引擎、 Kudu + Impala準實時分析系統、基于Docker搭建異構數據源、以企業主流的Spark生態圈為核心技術(Spark、Spark SQL、Structured Streaming)、ELK全文檢索、Spring Cloud數據微服務開發、實時監控地圖開發、存儲和計算性能調優、還原企業搭建大數據平臺的完整過程。
1.基于Oracle + MySQL異構數據源數據處理技術 2.基于Kudu + Spark的快速離線數據處理、分析技術 3.基于Kudu + Impala即席數據分析技術 4.學會基于ClickHouse高性能存儲、計算引擎技術 5.掌握基于ELK的全文檢索技術
課時:4天技術點:61項測驗:0次學習方式:線下面授
1.掌握HBase原理及架構| 2.掌握HBase命令操作、MapReduce編程| 3.掌握Phoneix二級索引優化查詢| 4.掌握ELK開發掌握Kafka原理及架構|
1. 萬億級NoSQL海量數據存儲存儲海量數據的列式數據庫,內部高效設計解決了海量數據存儲,包含了以下技術點:
1.HBase原理及架構| 2.預分區、LSM結構| 3.Bloom Filter,co-processor,結合Phoneix進行優化查詢|
2. Flume實時數據采集掌握Flume的使用方法
1.Flume原理及架構| 2.Source-Sink-Channal| 3.文件數據源及相關配置| 4.Flume斷點續傳|
3. 分布式流處理平臺分布消息隊列存儲數據,應用于低延時實時場景,包含了以下技術點:
1.Kafka原理及架構分析| 2.分布式實時計算架構和思想|
4. NoSQL社交場景大數據分析實戰踐行場景式教學,運用了NoSQL階段知識點,解決實時數據分析的應用,包含了以下技術點:
1.社交App場景實戰| 2.社交大數據架構剖析| 3.數據采集| 4.數據ETL| 5.數據分析|
課時:8天技術點:130項測驗:0次學習方式:線下面授
1. 用戶畫像架構設計| 2. 基于Hbase存儲業務數據庫數據| 3. 基于SparkSQL應對輕松應對標簽的計算| 4. 完成基于國內頭部保險公司大數據項目開發| 5. 掌握基于MySQL的五級標簽構建| 6. 對統計類標簽,規則類標簽進行代碼封裝| 7. 掌握基于Elasticsearch全文檢索技術|
保險行業用戶畫像是基于金融保險數倉平臺之上進行設計和開發,是面向投保用戶的偏好、行為習慣和人口屬性的畫像還原,同時也包括對投保信息的畫像還原。提供用戶喜好和保險特征幫助營銷平臺提升保險營銷的精準度,也方便個性化推薦系統快速準確的為每個用戶推薦相關的商品。
進入項目體驗項目核心架構和業務流程、Hbase數據同步開發,DolphinScheduler任務調度、Web標簽管理平臺、UDF函數計算、統計類標簽、規則類標簽、挖掘類標簽等匯總計算 、Elasticsearch搜索。
基于SparkSQL輕松應對保險行業復雜用戶標簽計算
課時:8天技術點:130項測驗:0次學習方式:線下面授
1.掌握Docker環境部署、管理操作| 2.掌握基于Oracle + MySQL異構數據源數據處理技術| 3.掌握基于Oracle Golden Gate以及Canal的實時采集技術| 4.掌握基于ClickHouse高性能存儲、計算引擎技術| 5.掌握基于ELK的全文檢索技術| 6.掌握Kudu、Spark的調優能力| 7.掌握基于Spring Cloud的數據微服務接口開發技術|
基于一家大型物流公司研發的智慧物流大數據平臺,日訂單上千萬,圍繞訂單、運輸、倉儲、搬運裝卸、包裝以及流通加工等物流環節中涉及的數據信息等,提高運輸以及配送效率、減少物流成本、更有效地滿足客戶服務要求,并針對數據分析結果,提出具有中觀指導意義的解決方案。
進入項目體驗涵蓋離線業務和實時業務、ClickHouse實時存儲和計算引擎、 Kudu + Impala準實時分析系統、基于Docker搭建異構數據源、以企業主流的Spark生態圈為核心技術(Spark、Spark SQL、Structured Streaming)、ELK全文檢索、Spring Cloud數據微服務開發、實時監控地圖開發、存儲和計算性能調優、還原企業搭建大數據平臺的完整過程。
1.基于Oracle + MySQL異構數據源數據處理技術 2.基于Kudu + Spark的快速離線數據處理、分析技術 3.基于Kudu + Impala即席數據分析技術 4.學會基于ClickHouse高性能存儲、計算引擎技術 5.掌握基于ELK的全文檢索技術
課時:5天技術點:60項測驗:1次學習方式:線下面授
1.強化面試就業核心面試題| 2.梳理大數據架構及解決方案| 3.剖析多行業大數據架構|
1. SQL實戰解決Python大數據常見的SQL面試題,包含了以下技術點:
1.面試題必備SQL實戰| 2.SQL優化加強|
2. Hive數據分析與面試題加強解決Hive數據分析開發必備面試題,包含了以下技術點:
1.Hive基礎| 2.Hive拉鏈表| 3.Hive數據倉庫構建示例| 4.Hive面試題|
3. Spark數據分析與面試題加強解決Spark開發必備面試題,包含了以下技術點:
1.Spark基礎| 2.Spark離線分析| 4.Spark面試題|
4. NoSQL數據分析與面試題加強解決NoSQL常見的面試題,從消息隊列到HBase掌握關鍵原理,包含了以下技術點:
1.Kafka原理加強| 2.HBase原理加強| 3.企業級HBase&Kafka面試題|
5. 大數據多行業架構剖析解決多行業多場景大數據架構設計,具備舉一反三設計大數據架構體系能來,包含了以下技術點:
1.數據分析流程| 2.大數據架構剖析| 3.多行業大數據架構設計| 4.大數據存儲,調度等解決方案|
課時:6天技術點:90項測驗:1次學習方式:線下面授
1.掌握基于Flink進行實時和離線數據處理、分析| 2.掌握基于Flink的多流并行處理技術| 3.掌握千萬級高速實時采集技術|
1. Flink Core新一代批流統一數據處理引擎,在計算效率和性能都有很大提升,包含了以下技術點:
1.Flink基礎|
2. Flink DataStream構成了Flink解決實時數據處理部分,是掌握實時數據處理必備技能,包含了以下技術點:
1.Flink DataStream的使用| 2.Kafka + Flink|
3. Flink SQL解決Flink中的SQL化開發,Flink-SQL開發必備技能,包含了以下技術點:
1.Flink SQL開發| 2.Hive + Flink SQL|
4. Flink Runtime是對Flink任務進行調優,必須掌握的內容,包含了以下技術點:
1.Watermark| 2.Checkpoint| 3.任務調度與負載均衡| 4.狀態管理|
5. Flink高級解決Flink性能監控等高階知識,具備實時數據分析必備技能,包含以下技術點:
1.Flink性能監控| 2.Flink調優| 3.Flink SQL執行計劃|
6. Flink電商案例實戰踐行場景式教學,運用了Flink階段知識點,解決實時數據分析的應用,包含了以下技術點:
Flume+Kafka+Flink+HBase+Sqoop+Canal+MySQL實戰
課時:8天技術點:130項測驗:0次學習方式:線下面授
1.掌握基于Flink全棧進行快速OLAP分析 2.掌握實時高性能海量數據分析與存儲 3.掌握針對HBase調優實現HBase存儲調優 4.掌握數據報表分析 5.掌握業務數據實時大屏場景實現
1、涵蓋完整車聯網業務場景,包含駕駛行程、電子圍欄、遠程診斷等真實業務 2、通過QBOX車輛終端數據收集,并解析為QSP數據、QCS數據、充電數據、HU數據 3、提供實時計算服務與離線計算服務,并通過API接口以報表和大屏展示分析結果數據
進入項目體驗Hive、HBase、HDFS數據存儲、Kafka數據傳輸、?Flink全棧數據處理、Nginx做反向代理、LSV和Keepalived負載均衡和高可用
采集超過千萬條新能源車輛的數據 實時高性能海量數據分析與存儲 業務數據實時大屏場景實現
課時:8天技術點:130項測驗:0次學習方式:線下面授
1.掌握基于Flink全棧進行快速OLAP分析 2.掌握實時高性能海量數據分析與存儲 3.掌握針對HBase調優實現HBase存儲調優 4.掌握數據報表分析 5.掌握業務數據實時大屏場景實現
今日指數項目用于對證券市場的每日交易數據進行實時監控,該項目基于Flink框架搭建,結合HBase、Druid進行實時OLAP分析,在實時分析的平臺上搭建監察預警體系,包括預警規則管理、實時預警、歷史預警等。學員可以通過該項目學習到分布式實時計算、分布式數據存儲等多個大數據技術解決方案。
進入項目體驗今日指數項目用于對證券市場的每日交易數據進行實時監控,該項目基于Flink框架搭建,結合HBase、Druid進行實時OLAP分析,在實時分析的平臺上搭建監察預警體系,包括預警規則管理、實時預警、歷史預警等。
學員可以通過該項目學習到分布式實時計算、分布式數據存儲等多個大數據技術解決方案。
課時:8天技術點:130項測驗:0次學習方式:線下面授
1.掌握基于Flink全棧進行快速OLAP分析 2.掌握實時高性能海量數據分析與存儲 3.掌握針對HBase調優實現HBase存儲調優 4.掌握數據報表分析 5.掌握業務數據實時大屏場景實現
本項目是基于大型物流公司業務研發的智慧物流大數據平臺,公司業務網點覆蓋國內各地,大規模的客戶群體,日訂單達1000W,平臺對千億級數據進行整合、分析、處理,保障業務的順利進行。
進入項目體驗異構數據源、實時、離線、搜索、調度、數據服務、可視化完整架構,涵蓋全生命周期項目
基于大型物流公司快遞流程,開發圍繞訂單、運單、倉庫、B端客戶、區域、畫像多個主題的業務開發
課時:240天技術點:500項測驗:0次學習方式:線上學習
1. 在畢業后工作之余進行學習、繼續提升| 2. 課程品類和內容持續更新、終身受益|
1. Python數據分析數據分析專項課,無論從事大數據開發、還是專門從事數據分析,升職挑戰高薪必備技能
1. Pandas開發進階| 2. 機器學習數據挖掘統計分析| 3. 多場景分析項目| 4. 金融風控專項分析|
2. Python后端開發如果你最終想成為融匯前后端運維測試的技術總監,那么請在工作之余學習這套課程
1. Python Django Web開發| 2. 美多商城前后臺Web項目| 3. Python自動化運維部署| 4. Python Flask Web開發| 5. 黑馬頭條移動端Web項目| 6. 后端高并發數據庫緩存設計| 7. Python測試開發| 8. Python爬蟲開發| 9. 微服務及RPC遠程調用開發|
3. Scala on SparkScala雖然式微,但如果你即將加入的團隊還在使用Scala進行Spark開發,請快速學習
1. Scala編程| 2. 基于Scala的Spark開發| 3. Scala Spark項目1:用戶畫像| 4. Scala Spark項目2:大數據推薦系統| 5. Scala Spark項目3:大數據反爬蟲| 6. Scala Spark項目4:信號檢測| 7. Scala Spark項目5:車聯網|
4. Java on Flink雖然以阿里為首的一線大廠已經開始采用Python on Flink的技術選型,但還是有部分團隊采用Java on Flink,如果需要請快速學習
1. Java編程| 2. 基于Java的NoSQL及存儲框架開發| 3. 基于Java的Flink實時計算開發| 4. Java Flink項目1:車聯網| 5. Java Flink項目2:金融證券| 6. Java Flink項目3:物流大數據實時計算|
5. Flink實時計算高級進階價值超過萬元的實時計算課程,助力在職的你持續挑戰高薪
1. 實時計算基礎| 2. 實時計算高階| 3. 實時計算架構與運維| 4. Flink源碼解析|
課程名稱:主要針對:主要使用開發工具:
源源不斷引進大廠技術大牛,專業研發課程升級、迭代,與企業需求實時接軌
教師錄取率<3%,從源頭把控師資,帶你過關斬將掌握每一個知識點
用數據驅動教學,貫通教/學/練/測/評,為每一位學員私人定制學習計劃和就業服務
學前入學多維測評
學前目標導向式學習
學中隨堂診斷糾錯
學中階段效果測評
學后在線作業試題庫
學后問答社區查漏補缺
保障BI報表數據呈現
就業全面指導就業
就業流程
全信息化處理
學員能力
雷達圖分析
定制個性化
就業服務
技術面試題
講解
就業指導課
面試項目分析
HR面試攻略
模擬企業
真實面試
專業簡歷指導
面試復盤輔導
風險預警
企業黑名單提醒
老學員畢業后即可加入傳智匯精英社區,持續助力學員職場發展,一次學習永久服務
傳智教育旗下IT互聯網精英社區,以匯聚互聯網前沿技術為核心,以傳遞、分享為己任,聯合經緯創投、創新工場、京東人工智能、華為等眾多關注互聯網的知名機構及企業、行業大咖,共同研究中國互聯網深度融合、跨界滲透、整合匯聚、相互促進的信息化資源共享平臺。
行業沙龍
高端人脈
職場資源
技術研習
9970元/月平均薪資
15900元/月最高薪資
100%就業率
58人月薪過萬
*學員就業信息統計數據為數據庫中實時調取的真實相關數據,非廣告宣傳