大數據

河北十一选五遗漏排行:從關系型數據庫到分布式機器學習,揭秘騰訊大數據十年發展歷程

廣告
廣告

微信掃一掃,分享到朋友圈

從關系型數據庫到分布式機器學習,揭秘騰訊大數據十年發展歷程
0 0

大數據技術在過去10多年中極大改變了企業對數據的存儲、處理和分析方式。如今,大數據技術逐漸成熟,涵蓋了計算、存儲、數倉、數據集成、可視化、NOSQL、OLAP分析、機器學習等豐富領域。在未來,大數據技術還會往引擎容器化、大數據機器學習、數據湖等方面不斷延伸。

近日,騰訊大數據技術沙龍首站——Angel專場在深圳舉辦,騰訊大數據團隊詳細披露了騰訊大數據十年發展歷程,并全面展示了騰訊第三代全棧機器學習平臺Angel在大模型數據訓練、深度學習、圖計算等方面的技術能力,也深入分享了在微信支付、效果廣告、微眾銀行等場景上的應用案例。

會上,騰訊大數據負責人劉煜宏正式發布了“星火計劃”,他表示:“在騰訊大數據十年的發展歷程中, 我們不斷追求技術創新, 集群數從30臺到突破35000臺。2016年,我們打破了計算奧運會之稱的Sort Benchmark 4項世界紀錄,性能全球領先。騰訊大數據的發展從開源中受益,秉承著開放共享的精神, 今天我們也推出技術共享的‘星火計劃’,希望能夠助力和反哺大數據生態繁榮?!?/p>

騰訊大數據發展“三部曲”

作為大數據領域的前沿探索者,騰訊大數據從2009年開始, 經歷離線計算、實時計算與機器學習三個階段,在實踐中積累了大量的經驗。

據劉煜宏介紹,2009年之前,騰訊主要使用傳統的關系型數據庫。2009年開始,傳統的單機數據庫所提供的服務,在系統可擴展性、性價比方面已不再適用騰訊業務爆發式的增長。面對這種變化,騰訊大數據轉向分布式,基于開源的Hadoop體系,構建了騰訊第一代大數據平臺,并建設離線計算平臺,主要發力規?;?。騰訊大數據由此進入第一階段。三年里,騰訊實現了從關系型數據庫到自建大數據平臺的全面遷移,到2012年,騰訊大數據的單集群規模突破了4400臺。

2012年,移動互聯網爆發,應對業務數據統計及時性、快速性的需求,騰訊大數據從Hadoop轉向Spark和Storm體系,在吸收開源技術的基礎上,結合騰訊自身的需求進行重寫,探索流式計算、秒級采集系統的建設,構建企業級的實時數據分析體系,騰訊大數據發展進入第二階段。

2015年至今,騰訊大數據邁入了第三階段。隨著數據挖掘、數據應用的深入,騰訊大數據再次自我迭代,于2016年推出了自研機器學習平臺Angel,專攻復雜計算場景,可進行大規模的數據訓練,支撐內容推薦、廣告推薦等AI應用場景。它由騰訊與北京大學聯合研發,兼顧了工業界的高可用性和學術界的創新性。不僅支撐騰訊自身業務需求,在行業上也具有里程碑意義。

從海量業務中來,專注圖計算場景

作為面向機器學習的第三代高性能計算平臺,騰訊Angel在稀疏數據高維模型的訓練上具有獨特優勢,擅長推薦模型和圖網絡模型相關領域。當前業界主流的大規模圖計算系統主要有Facebook的Big Graph、Power graph、Data bricks的 Spark GraphX等,但這些系統并不都支持圖挖掘、圖表示學習、圖神經網絡的三大類型算法。

據騰訊Angel開發負責人肖品介紹,騰訊Angel從騰訊海量業務場景中而來,是超大樣本和超高維度的機器學習平臺。從性能上來看,Angel優于現有圖計算系統,能夠支持十億級節點、千億級邊的傳統圖挖掘算法,百億邊的圖神經網絡算法需求。它可運行于多任務集群以及公有云環境,具備高效容錯恢復機制,也更容易支持新算法,同時,Angel能夠較好支持圖挖掘、圖表示、圖神經網絡算法,具備圖學習的能力。

如今,Angel已在QQ、微信支付、騰訊廣告、騰訊視頻等騰訊旗下產品中廣泛應用,并向微眾銀行等行業合作伙伴全面開放,普遍適用于智能推薦、金融風險評估等圖計算業務場景。

到開源中去,積極貢獻社區

發布僅一年時間,2017年,騰訊Angel就正式開源。2018年8月,騰訊將Angel捐贈給Linux旗下專注人工智能的LF AI基金會,結合基金會成熟的運營,全面升級的 Angel與國際開源社區深入互動,致力于讓機器學習技術更易于上手研究及應用。

“Angel在2018年加入LF AI基金會進行孵化后,一直按照開源社區的模式進行運營,增長速度非???,增加了特征工程、自動機器學習等很多新的功能,在Github上增加了超過2000個Star?!?Linux Foundation APAC大中華區總監楊軒表示: “Angel是LF AI基金會下最活躍的項目之一,相信不久的將來,Angel將進入LF AI的頂級項目之列?!?/p>

目前,Angel在GitHub上Star數已超過5300,Fork數超過1300,總共有39位代碼貢獻者,提交了超過2336個commit。

面向未來,大數據、AI和云的深度融合

騰訊Angel在深度學習和圖計算能力的演變,也與大數據的行業發展方向相契合。據劉煜宏介紹,未來,騰訊大數據將持續發力數據湖、批流統一(批量計算、流線計算的融合)、AI+大數據、云計算+大數據四個主要方向。

劉煜宏表示:“AI、云計算與大數據密不可分,Angel從大數據平臺到全棧機器學習平臺的成長,也驗證了這一行業方向。未來我們將把騰訊大數據的能力和技術,與AI、與云做深度融合,進一步落地大數據的價值,更好的助力合作伙伴和用戶?!?/p>

據了解,騰訊大數據星火計劃是由騰訊發起、面向大數據愛好者的技術共享體系,基于騰訊大數據10年研發與運營經驗,以社區開源、網絡課程、線下沙龍、技術峰會等多種形式,充分開放騰訊十多年來在大數據領域的技術積累。本次Angel專場是星火計劃的首次線下活動。

我還沒有學會寫個人說明!

花生殼PHTUNNEL開發者大賽重磅啟動,千元大獎等你來戰!

上一篇

AWS計劃擴大其在中國市場的業務規模

下一篇

你也可能喜歡

從關系型數據庫到分布式機器學習,揭秘騰訊大數據十年發展歷程

長按儲存圖像,分享給朋友

ITPUB 每周精要將以郵件的形式發放至您的郵箱


微信掃一掃

微信掃一掃