99热综合福利导航,久久66日韩,91一二区少妇,久久产国视频,日韩久久久五月精品八区,丰满狐狸精在线电影,一区婷婷久久,日韩欧美另类在线,欧美中文字幕区

星空人工智能技術(shù)網(wǎng)

百觀科技基于阿里云 EMR 的數(shù)據(jù)湖實(shí)踐分享

 作者:百觀科技數(shù)據(jù)工程團(tuán)隊(duì) 高級(jí)工程師 齊鵬

背景介紹

公司介紹

百觀科技成立于 2016 年,是以數(shù)據(jù)為核心驅(qū)動(dòng)力的市場(chǎng)研究和信息服務(wù)公司。百觀以全域數(shù)據(jù)為基礎(chǔ),通過(guò)客觀科學(xué)的數(shù)據(jù)分析,解鎖數(shù)據(jù)價(jià)值,為客戶提供具有現(xiàn)實(shí)指導(dǎo)意義的洞察和解決方案。

百觀的數(shù)據(jù)產(chǎn)品和解決方案目前覆蓋 10+行業(yè)、200,000+企業(yè)的上百種商業(yè)分析維度,獲得了市場(chǎng)廣泛的認(rèn)可。當(dāng)前,百觀的客戶主要包括國(guó)內(nèi)外大型基金、主權(quán)基金、PE/VC 機(jī)構(gòu)、頭部咨詢和企服公司、知名消費(fèi)企業(yè)和互聯(lián)網(wǎng)企業(yè)等。

業(yè)務(wù)特征

自 2016 年起,百觀持續(xù)積累了海量的行業(yè)數(shù)據(jù),并且每年都呈現(xiàn)顯著的增長(zhǎng)趨勢(shì)。這些數(shù)據(jù)不僅規(guī)模龐大,更兼具 多樣的數(shù)據(jù)類型、復(fù)雜的數(shù)據(jù)結(jié)構(gòu)和豐富的數(shù)據(jù)場(chǎng)景。為了從這些數(shù)據(jù)中挖掘有價(jià)值的洞見(jiàn),百觀的數(shù)據(jù)團(tuán)隊(duì)需要執(zhí)行 繁瑣且復(fù)雜的數(shù)據(jù)處理流程,包括數(shù)據(jù)清洗、轉(zhuǎn)換、聚合以及多維度綜合分析等多個(gè)環(huán)節(jié)。尤其是在業(yè)務(wù)高峰時(shí)期,完整的數(shù)據(jù)處理流程疊加龐大的數(shù)據(jù)體量,使得 算力需求呈指數(shù)級(jí)增長(zhǎng)。

百觀數(shù)據(jù)工程團(tuán)隊(duì)認(rèn)為,技術(shù)方法論的本質(zhì)是一種經(jīng)濟(jì)學(xué):在供需框架下,以盡可能小的成本滿足盡可能多的需求場(chǎng)景,發(fā)揮最大效能,創(chuàng)造技術(shù)價(jià)值。因此,如何平衡靈活豐富的數(shù)據(jù)分析算法與海量數(shù)據(jù)處理需求,以及如何在 高算力需求下實(shí)現(xiàn)成本優(yōu)化,成為了百觀數(shù)據(jù)工程團(tuán)隊(duì)面臨的核心挑戰(zhàn)和亟待解決的關(guān)鍵問(wèn)題。

為了應(yīng)對(duì)新的業(yè)務(wù)挑戰(zhàn),百觀選擇與阿里云合作,利用其強(qiáng)大的 EMR 平臺(tái)對(duì)老系統(tǒng)進(jìn)行重構(gòu),落地了符合業(yè)務(wù)場(chǎng)景和分析師習(xí)慣的工程解決方案。

為什么選擇阿里云 EMR

在這樣的業(yè)務(wù)場(chǎng)景下,數(shù)據(jù)工程團(tuán)隊(duì)面臨以下挑戰(zhàn):

面對(duì)這些技術(shù)痛點(diǎn),相較于其他數(shù)據(jù)平臺(tái)產(chǎn)品,阿里云 EMR 具備顯著的優(yōu)勢(shì):

  1. 依托高可用的 OSS 存儲(chǔ)

相較于其他數(shù)據(jù)生產(chǎn)平臺(tái),EMR 依托 OSS 實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ),因此得以搭建完善的 LakeHouse,從而既能夠向下支持多樣化的數(shù)據(jù),又能夠向上承載復(fù)雜的數(shù)據(jù)操作和業(yè)務(wù)生產(chǎn)

  1. 開(kāi)箱即用的標(biāo)準(zhǔn)開(kāi)源技術(shù)生態(tài)

EMR 除了包含核心的 Spark、Hadoop 生態(tài)之外,還支持多種數(shù)據(jù)生態(tài)的各類軟件,包括:

  • LakeHouse 的關(guān)鍵實(shí)現(xiàn):Iceberg/Hudi/Delta

  • 實(shí)時(shí)數(shù)據(jù)流框架:Paimon/Flink

  • OLAP 分析平臺(tái):Trino/Presto等

這些平臺(tái)工具已經(jīng)做到開(kāi)箱即用的狀態(tài),無(wú)需重新部署,只需根據(jù)需求調(diào)整參數(shù),即可用于生產(chǎn)環(huán)境。

  1. 高度可定制化的運(yùn)行環(huán)境

在保留開(kāi)箱即用的基礎(chǔ)上,EMR 為用戶提供了高度定制化的選項(xiàng),除了內(nèi)置軟件的參數(shù)均可調(diào)整之外,對(duì)于有能力的用戶,可以深入 EMR 集群的系統(tǒng)內(nèi)部做更自由的開(kāi)發(fā),以滿足復(fù)雜且多樣的生產(chǎn)需求。

  1. 兼容面廣的 Datalake Formation

LakeHouse 需要一套功能完善、兼容廣泛且高性能的數(shù)據(jù)目錄(Catalog),Datalake Formation(DLF)能夠滿足這一需求,并且配合 DLF-Auth 得以實(shí)現(xiàn)更精細(xì)的數(shù)據(jù)權(quán)限管控。

  1. 靈活的彈性調(diào)度控制

作為彈性計(jì)算,EMR 提供豐富的細(xì)節(jié)參數(shù),讓用戶可以根據(jù)自身業(yè)務(wù)特征定制彈性策略。

目前 EMR 已支持托管彈性策略,用戶亦可以忽略復(fù)雜的參數(shù),直接一鍵開(kāi)啟彈性計(jì)算模式。

  1. 完善的服務(wù)保障

在以上完備的技術(shù)方案基礎(chǔ)上,阿里云提供了專業(yè)的技術(shù)支持,可以幫助優(yōu)化方案的實(shí)現(xiàn)并解答各種疑難問(wèn)題。

技術(shù)方案設(shè)計(jì)

999.jpg

百觀數(shù)據(jù)平臺(tái),主要面向數(shù)據(jù)工程師、數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家,其業(yè)務(wù)場(chǎng)景以數(shù)據(jù)的即席分析為主,以定時(shí)調(diào)度任務(wù)為輔,并提供簡(jiǎn)單易讀的 OLAP 查詢,覆蓋數(shù)據(jù)接入、數(shù)據(jù)清洗、數(shù)據(jù)分析與聚合、數(shù)據(jù)交付全流程。

數(shù)據(jù)接入

數(shù)據(jù)從外部系統(tǒng),通過(guò)百觀數(shù)據(jù)工程團(tuán)隊(duì)自研工具等方式,定時(shí)寫入 OSS。這種方法簡(jiǎn)單直接,避免了各個(gè)數(shù)據(jù)引擎之間的對(duì)接和轉(zhuǎn)換,最大程度提高研發(fā)效率。

數(shù)據(jù)清洗

數(shù)據(jù)接入 OSS 后,即可使用 Spark 和 Iceberg 等方式,通過(guò)拆解、整理和清洗等方式,最終接入數(shù)據(jù)湖,并生成 Catalog。這一步沿用了先前的 Iceberg 方案,并且會(huì)將數(shù)據(jù)作業(yè)集成到 Airflow 上,定時(shí)發(fā)送到 EMR 集群進(jìn)行處理。

聚合與分析

在這一環(huán)節(jié),數(shù)據(jù)分析師與數(shù)據(jù)科學(xué)家合作,完成聚合、分析及更多數(shù)據(jù)科學(xué)方面的研究。這部分工作主要是通過(guò)自建的 Notebook 提交到 EMR 集群,其計(jì)算環(huán)境復(fù)雜多樣,不同場(chǎng)景下的計(jì)算量也有巨大差異。

EMR 的標(biāo)準(zhǔn)化、自研定制化、高靈敏彈性調(diào)度等特性能夠很好地應(yīng)對(duì)這種復(fù)雜數(shù)據(jù)研究的場(chǎng)景,不僅確保開(kāi)發(fā)者靈活處理復(fù)雜數(shù)據(jù),還降低了運(yùn)維難度,甚至直接降低計(jì)算成本。

核心組件的實(shí)踐

以下介紹三個(gè)核心組件的實(shí)踐。

DLF on Iceberg 方案

在數(shù)據(jù)工程團(tuán)隊(duì)測(cè)試中,DLF 能夠完美繼承 Spark/Hive 表,同時(shí)也能夠接入 Iceberg 表。但數(shù)據(jù)工程團(tuán)隊(duì)發(fā)現(xiàn)了潛在的致命問(wèn)題,在大規(guī)模 Iceberg 表的場(chǎng)景中,DLF 疑似存在性能下降,這些性能問(wèn)題會(huì)導(dǎo)致計(jì)算失敗,致使核心業(yè)務(wù)受阻。在發(fā)現(xiàn)該隱患后,數(shù)據(jù)工程團(tuán)隊(duì)立刻將該問(wèn)題上報(bào)給 EMR 產(chǎn)研團(tuán)隊(duì),并且與其緊密合作,從多份日志中拼湊出問(wèn)題的全貌,共同分析問(wèn)題有可能的成因和解決方案。最終,EMR 產(chǎn)研團(tuán)隊(duì)成功解決該問(wèn)題,由此可以打通 DLF 與 Iceberg 的高性能無(wú)縫集成,也實(shí)現(xiàn)了 LakeHouse 的完整構(gòu)建。

EMR 集群彈性調(diào)度策略

阿里云 EMR 早先并未提供托管彈性調(diào)度,而是將調(diào)度配置直接交給用戶選擇,經(jīng)驗(yàn)豐富的用戶可以根據(jù)自身業(yè)務(wù)特性調(diào)配出多樣化的彈性規(guī)則。數(shù)據(jù)工程團(tuán)隊(duì)先前直接使用當(dāng)時(shí)托管的彈性調(diào)度算法,并未深入研究 EMR 彈性資源調(diào)度的問(wèn)題。因此,盡管數(shù)據(jù)工程團(tuán)隊(duì)對(duì)該問(wèn)題頗有見(jiàn)解,但由于缺乏實(shí)踐操作和相關(guān)數(shù)據(jù),且難以復(fù)刻生產(chǎn)環(huán)境進(jìn)行測(cè)試,一旦調(diào)整不當(dāng),就會(huì)陷入“既無(wú)法滿足業(yè)務(wù)響應(yīng),又無(wú)法及時(shí)回收空閑資源”的兩難境地。于是,數(shù)據(jù)工程團(tuán)隊(duì)決定求助于 EMR 產(chǎn)研團(tuán)隊(duì),而EMR 產(chǎn)研團(tuán)隊(duì)亦能及時(shí)響應(yīng),多次主動(dòng)與百觀數(shù)據(jù)團(tuán)隊(duì)進(jìn)行溝通,最終共同設(shè)計(jì)出一套階梯式的高效低成本的彈性調(diào)度模式。

目前EMR 托管彈性調(diào)度已上線三個(gè)月,這期間百觀數(shù)據(jù)工程團(tuán)隊(duì)依托該功能持續(xù)穩(wěn)定為公司業(yè)務(wù)提供支持,集群利用率由原先 45%左右提高至接近 70%。

OLAP 方案的打磨

數(shù)據(jù)工程團(tuán)隊(duì)此前使用AWS Athena,這套 OLAP 引擎依托于 Trino 實(shí)現(xiàn)了 Serverless 式的數(shù)據(jù)查詢服務(wù),這意味著:

  1. 已有的查詢 SQL 均符合 Trino 語(yǔ)法

  2. 單條查詢成本低

  3. Serverless Trino 的計(jì)算資源充足,性能有保障

阿里云數(shù)據(jù)產(chǎn)品生態(tài)包含多種類型的數(shù)據(jù)庫(kù),這些數(shù)據(jù)庫(kù)在各自領(lǐng)適用領(lǐng)域內(nèi)有足夠強(qiáng)的優(yōu)勢(shì)。盡管目前沒(méi)有直接提供 Serverless版本的Trino,但阿里云EMR內(nèi)包含有社區(qū)版Trino。

數(shù)據(jù)工程團(tuán)隊(duì)對(duì)該場(chǎng)景的考量,優(yōu)先是存量SQL兼容性,其次是成本,因此在做過(guò)幾輪對(duì)比后,最終選擇EMR Trino作為該場(chǎng)景的解決方案。

數(shù)據(jù)工程團(tuán)隊(duì)充分評(píng)估了阿里云倚天ARM ECS機(jī)型的性格規(guī)格,認(rèn)為其卓越的內(nèi)存計(jì)算能力與Trino的OLAP應(yīng)用高度契合?;谝刑鞕C(jī)型的EMR Trino不僅完美滿足了兼容性需求,同時(shí)還在性價(jià)比上展現(xiàn)出巨大優(yōu)勢(shì),對(duì)比測(cè)試結(jié)果如下:

最終,數(shù)據(jù)工程團(tuán)隊(duì)選擇 EMR Trino 搭配倚天機(jī)型,這是符合業(yè)務(wù)需求的最優(yōu) OLAP 方案,且性價(jià)比提高 20%以上。得益于阿里云 EMR 高度開(kāi)放的技術(shù)生態(tài)和其產(chǎn)研團(tuán)隊(duì)的精細(xì)打磨,這套技術(shù)方案在生產(chǎn)系統(tǒng)上長(zhǎng)期穩(wěn)定運(yùn)行。

顯著的提升

相較于百觀先前使用的系統(tǒng),在完成平臺(tái)重構(gòu)后,新舊平臺(tái)在性能、成本等方面有顯著收益。

性能層面

由于 EMR 集群性能的提升,以下指標(biāo)得到了顯著優(yōu)化:

成本層面

在同等數(shù)據(jù)規(guī)模、相同計(jì)算量的條件下,以下成本指標(biāo)得到了顯著優(yōu)化:

在此基礎(chǔ)上,EMR 的月均成本也得到 50%以上的優(yōu)化。

業(yè)務(wù)層面

得益于性能和成本方面的雙重優(yōu)化,業(yè)務(wù)層面獲得了多方面收益:

  • 數(shù)據(jù)響應(yīng)時(shí)間:部分業(yè)務(wù)由小時(shí)級(jí)提高到分鐘級(jí),生產(chǎn)速度得到大幅提升。

  • 數(shù)據(jù)研發(fā)模式:更快的數(shù)據(jù)生產(chǎn)有利于分析師進(jìn)行更密集的數(shù)據(jù)操作,使團(tuán)隊(duì)間協(xié)作更為緊密。

  • 數(shù)據(jù)探查深度:更強(qiáng)的計(jì)算性能有利于業(yè)務(wù)方進(jìn)行更復(fù)雜的數(shù)據(jù)探查,以便得出更有價(jià)值的數(shù)據(jù)研究。

  • 業(yè)務(wù)增長(zhǎng)空間:總體優(yōu)化為業(yè)務(wù)增長(zhǎng)提供了有力支持。

總結(jié)與展望

百觀科技作為數(shù)據(jù)要素市場(chǎng)的重要開(kāi)拓者和數(shù)據(jù)技術(shù)的先進(jìn)踐行者,其業(yè)務(wù)團(tuán)隊(duì)和數(shù)據(jù)工程團(tuán)隊(duì)一致認(rèn)可此次平臺(tái)重構(gòu)。百觀 CTO 說(shuō):“本次EMR數(shù)據(jù)湖系統(tǒng)的構(gòu)建,全面滿足了百觀的業(yè)務(wù)需求、提高計(jì)算效率、大幅降低成本,是百觀與阿里云之間一次成功的深度合作,這離不開(kāi)阿里云深厚技術(shù)積淀和阿里云同事們高效且專業(yè)的幫助。事實(shí)證明,阿里云 EMR 系列產(chǎn)品及背后的團(tuán)隊(duì)已經(jīng)做到了‘國(guó)際主流,國(guó)內(nèi)領(lǐng)先’的水準(zhǔn)。”

隨著業(yè)務(wù)的發(fā)展,百觀將繼續(xù)開(kāi)展更加多樣化、更加有深度的數(shù)據(jù)洞察,這需要在技術(shù)架構(gòu)、技術(shù)過(guò)程、技術(shù)工具等方面進(jìn)行立體式升級(jí)。阿里云在數(shù)據(jù)場(chǎng)景還有更多成熟的解決方案,如:實(shí)時(shí)數(shù)倉(cāng) Hologres、EMR Serverless Spark 等,這些產(chǎn)品有著突出的優(yōu)勢(shì),值得進(jìn)一步嘗試與合作,共同探索彈性計(jì)算的創(chuàng)新場(chǎng)景。

星空人工智能技術(shù)網(wǎng) 倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)等問(wèn)題,煩請(qǐng)30天內(nèi)提供版權(quán)疑問(wèn)、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至1851688011@qq.com我們將及時(shí)溝通與處理。!:首頁(yè) > 新聞 » 百觀科技基于阿里云 EMR 的數(shù)據(jù)湖實(shí)踐分享

感覺(jué)不錯(cuò),很贊哦! ()
分享到:

相關(guān)推薦

留言與評(píng)論(共有 0 條評(píng)論)
   
驗(yàn)證碼:
广安市| 南宁市| 台南市| 景宁| 淮阳县| 黑河市| 曲阜市| 绥滨县| 图木舒克市| 谢通门县| 舟山市| 称多县| 永靖县| 沁水县| 晴隆县| 武汉市| 西峡县| 和林格尔县| 甘孜| 通辽市| 饶河县| 潼南县| 明水县| 永新县| 永善县| 冀州市| 德安县| 石渠县| 新丰县| 名山县| 宜宾县| 高邮市| 普陀区| 绍兴县| 仁布县| 邓州市| 潜江市| 松桃| 秦皇岛市| 苏尼特左旗| 阿瓦提县|