提升效率50%+節約成本80%,Serverless SQL大數據分析的最佳實踐

大數據技術2019-08-20 22:30:48

近年來, Serverless作為一種新型的互聯網架構直接或間接推動了雲計算的發展,同時基於Serverless的輕量計算也成為了新的技術熱點,而Serverless SQL大數據分析產品就在此背景下應運而生。


目前,國內雲計算廠商UCloud推出的一款基於Serverless的SQL分析計算引擎USQL,可輕鬆完成面向海量數據的數據建模工作,SQL即可完成數據查詢和分析,極大降低使用大數據的門檻,且無需數據庫管理員和運維人員,大幅度改善企業對大數據工程師的依賴。


下面通過實例來對Serverless SQL大數據分析技術的應用做出詳解:


愛普新媒是一家專注於移動互聯網產品研發和新媒體整合營銷的高新技術型公司,旗下擁有100餘款精品軟件,內容涵蓋日常生活、效率工具、文章資訊等多個方面,主營以天氣預報、快遊等綜合自媒體矩陣為載體的推廣業務和以雲魔方DSP移動互聯網廣告分發平台為基礎的廣告投放業務。

目前愛普新媒廣告業務數據規模達到數百TB,日增長量為1TB左右,業務日常不固定的分析需求非常多。在現有的大數據處理方案下,數據部門每月需投入大數據工程師20個人/日,平均每次需求處理時長為1.8天,此外還需額外花費數千元維持一個數據倉庫集羣。基於已有架構,數據部門將廣告日誌數據壓縮後存放於對象存儲UFile中,接收到業務分析師不固定的數據需求後,再將用於分析的原始數據,臨時加載到數據倉庫UDW中,完成SQL分析後實施清除操作。


圖:愛普新媒現有架構

 

在已有架構的模式下,愛普新媒面臨着來自業務和數據分析部門極大的挑戰:


  • 業務部門:


(1)由於數據規模較大,業務分析師無法自主完成分析,必須極大程度依賴大數據工程師;

(2)任務處理週期長,若出現新的需求變更或分析結果未達預期的情況,需要重新走一遍處理流程;

(3)當對分析結果存有疑問時,無法查看原始數據進行校驗。


  • 數據部門:


(1)業務部門每月的不固定數據分析需求非常多,數據部門有限的技術人力資源難以支撐;

(2)需求變動返工次數多,導致大量重複性工作;

(3)隨着數據日增長量的不斷提升,用於臨時存放不固定需求數據的GreenPlum成本不斷在增加。


愛普新媒對業務改善的訴求便是:可支持數百TB規模的數據分析、業務分析師可獨立完成不固定需求分析工作、具有較強的Ad-Hoc能力、可縮短每次需求處理時長、可降低計算成本投入和運維投入。


針對以上問題,UCloud使用USQL產品幫助愛普新媒對現有業務數據處理架構做出了改善。UCloud發現,愛普新媒現有架構中計算與存儲是分離的狀態,其原始數據並未與GreenPlum強耦合,這為更換分析引擎的方案實施提供了便利。


GreenPlum數據平滑切換至USQL


首先在新架構中使用USQL替換原先用於臨時加載數據的GreenPlum,省去數據從UFile導入到GreenPlum的過程,使得業務分析師能夠直接通過SQL分析UFile中海量數據,全程無需大數據工程師的參與。

圖:愛普新媒新架構


USQL升級保障多格式數據支持

此外,數據對接中發現,愛普新媒的數據格式為JSON並通過GZIP格式壓縮,UCloud瞭解後一週內完成USQL產品升級,得以支持這兩種數據格式,減少對接上的障礙,並協助愛普新媒重新佈局其現有數據,目前愛普新媒實際業務SQL已全部落地,同時完成產品培訓以及現場演示。


圖:實際業務SQL示例


最終,我們對應用了USQL的愛普新媒新數據平台與原平台進行了對比分析:

1、計算成本降低97.5%

相較於愛普新媒現在每月花費在傳統數據倉庫(用於臨時存放數據)的數千元,處理同樣的數據,USQL可將成本控制在每月幾十元,因為USQL按照實際分析數據量計費,每GB數據分析價格極低,且不使用時不計費。


2、任務週期縮短55.6%

愛普新媒現有架構下,處理不固定的數據需求,數據導入與分析平均處理時長為1.8天,而USQL可省去數據導入的步驟,減少運維工作量,大幅度縮短每次任務完成時間。


3、分析效率提升5倍

愛普新媒所有真實業務SQL均已落地,其中最耗時的SQL分析時間可從600秒降至118秒,整體明顯提高SQL分析效率。


4、大數據工程師投入降為0

目前每月需投入大數據工程師20個人日,使用USQL產品,業務分析師可直接通過SQL在對象存儲UFile中完成數據分析,極大減少對工程師的依賴,有限的人力資源可得到更好的利用。


愛普新媒CTO牛德恆總結道:“使用USQL產品,用户在原有的數據文件基礎上進行數據建模,即可使用SQL進行業務數據的快速查詢,此種方式對原有數據文件改動較小,用户不用關注大數據分佈式處理的過程,業務遷移方便。對比我們現有的大數據處理方案,節省80%的服務器成本,提升50%數據分析速度,同時也縮短了新業務的開發週期,值得推薦。”

https://hk.wxwenku.com/d/201202624