基因數(shù)據(jù)大爆炸時代,正全速襲來。隨著新一代組學(xué)測序工具不斷發(fā)展,組學(xué)測序不僅涵蓋基因組學(xué),還包括蛋白組學(xué)、微生物組學(xué)、免疫組學(xué)等,測序行業(yè)的算力需求即將迎來井噴關(guān)口。據(jù)測算,過去十年間基因測序通量平均每七個月翻一倍,預(yù)計(jì)到2025年全球測序能力將達(dá)到Zb級別(Zetabases),其中,僅人全基因組存儲數(shù)據(jù)量就將達(dá)到每年2-40EB(Exabytes)。如此龐大的數(shù)據(jù)量,單單進(jìn)行基因比對分析,就要消耗約1萬萬億CPU小時數(shù)。這讓傳統(tǒng)HPC集群模式正面臨前所未有的挑戰(zhàn):如何存儲ZB級別的數(shù)據(jù)?如何支撐如此量級數(shù)據(jù)的分析計(jì)算?有沒有更高效的方式幫助研究者快速深挖海量數(shù)據(jù)價值?
日前,騰訊健康面向生命科學(xué)行業(yè)發(fā)布了一鍵上云通用PaaS產(chǎn)品——騰訊健康組學(xué)平臺(Tencent HealthCare Omics Platform)。該平臺具備騰訊云大算力平臺,助力基因測序行業(yè)生產(chǎn)、分析、應(yīng)用、交付全流程,解決“算得沒有測得快”的業(yè)內(nèi)難題。目前,該平臺已率先開啟了在基因測序分析通用業(yè)務(wù)場景的落地,并從定義疾病動態(tài)模式到進(jìn)行精準(zhǔn)藥物干預(yù)等各方面,助力行業(yè)形成從科研到產(chǎn)業(yè)的完美閉環(huán)。
騰訊健康組學(xué)平臺產(chǎn)品架構(gòu)
開箱即用:零門檻使用,零成本運(yùn)維
傳統(tǒng)HPC集群模式依賴企業(yè)自購設(shè)備、自建計(jì)算存儲集群,其建設(shè)、維護(hù)、折舊會消耗巨大成本。如果一次性購買基礎(chǔ)設(shè)施,需要提前規(guī)劃容量,成本壓力大,不夠靈活,同時需要創(chuàng)建和管理維護(hù)集群,維護(hù)集群健康狀態(tài),進(jìn)行擴(kuò)縮容管理,專業(yè)IT人員運(yùn)維管理等。另外,硬件設(shè)備如無法及時更新,也會在業(yè)務(wù)高峰時出現(xiàn)算力不足的情況,嚴(yán)重影響業(yè)務(wù)進(jìn)度,大大削弱企業(yè)競爭力。
作為通用型騰訊云Paas產(chǎn)品,騰訊健康組學(xué)平臺集成滿足通用基因測序場景的多個騰訊云Iaas服務(wù),無需部署,開通平臺賬號,開箱即用,節(jié)省了相關(guān)設(shè)備和管理人員的支出。此外,平臺強(qiáng)大的Serverless計(jì)算引擎,讓用戶無需創(chuàng)建和維護(hù)管理集群,按業(yè)務(wù)需求自動擴(kuò)展規(guī)模,運(yùn)維成本幾乎為零。
“千萬核”算力彈性算:資源秒級伸縮,成本精準(zhǔn)掌控
即便是基因測序技術(shù)已經(jīng)發(fā)展到了第三代,獲得了更長讀長,填補(bǔ)了二代測序技術(shù)中的諸多精度問題,成本也更低,但在計(jì)算量方面,也比二代基因測序同一流程擴(kuò)大了近100倍,會產(chǎn)生成各種樣本數(shù)據(jù)、參考文庫數(shù)據(jù)、中間結(jié)果數(shù)據(jù)等,測序文件級別動輒數(shù)百GB甚至TB,極易造成測序過程卡頓。并且,基因測序涉及復(fù)雜的計(jì)算分析,如數(shù)據(jù)質(zhì)控、歸一化、數(shù)據(jù)矯正、特征選擇、聚類分析、軌跡分析、差異表達(dá)分析、基因動力學(xué)、亞穩(wěn)態(tài)分析、成分分析等環(huán)節(jié),復(fù)雜程度可見一斑。因此,每次基因測序都是一個極其考驗(yàn)算力的大工程。
騰訊健康組學(xué)平臺擁有騰訊云大數(shù)據(jù)平臺千萬核算力規(guī)模,日實(shí)時計(jì)算量達(dá)百萬億級,日運(yùn)行容器數(shù)超億級,日計(jì)算數(shù)據(jù)量數(shù)百PB。在資源使用上,可實(shí)現(xiàn)海量數(shù)據(jù)的存儲、全生命周期數(shù)據(jù)管理,還能實(shí)現(xiàn)算力資源秒級伸縮,滿足企業(yè)從峰頂?shù)椒骞鹊挠?jì)算需求;同時,還能進(jìn)行細(xì)粒度資源管理,動態(tài)展示資源使用情況,方便及時調(diào)整資源以提高資源利用率。而在成本控制上,更可做到測序結(jié)束秒級精準(zhǔn)計(jì)費(fèi),讓使用成本保持最優(yōu)。
自動化智能調(diào)度引擎:精細(xì)化流程管理,支持續(xù)跑、重跑
對于日常生物信息分析場景,避免不了數(shù)據(jù)參數(shù)配置錯誤或增加修改等各種作業(yè),以前,大多數(shù)情況下要等待整個數(shù)據(jù)分析結(jié)束才可以重新下任務(wù),費(fèi)時費(fèi)力。騰訊健康組學(xué)平臺自動化智能調(diào)度引擎,很好地解決了這一痛點(diǎn)。
支持流程自動重跑、流程錯誤掛起、中斷恢復(fù)、流程重試等功能,滿足用戶剛需,節(jié)約了時間和成本。此外,平臺還支持WDL工作流語言自動解析、文件存儲結(jié)構(gòu)化歸檔、命令行\(zhòng)Web服務(wù)器投遞任務(wù)、Web界面可視化任務(wù)投遞和管理等功能,讓流程管理更加精細(xì)。
“更自由”的流程編輯:批量管,靈活用,遷移易
傳統(tǒng)HPC集群模式下,系統(tǒng)為開發(fā)人員自行搭建部署,因此,不同企業(yè)或機(jī)構(gòu)檢測流程、數(shù)據(jù)格式等各方面沒有統(tǒng)一標(biāo)準(zhǔn),給數(shù)據(jù)遷移和版本化管理帶來了難度。此外,大多數(shù)機(jī)構(gòu)缺少相應(yīng)的開發(fā)、校驗(yàn),以及可視化配套支持。因此,不僅系統(tǒng)使用體驗(yàn)感會大打折扣,也讓基因測序流程執(zhí)行順暢度大打折扣。
騰訊健康組學(xué)平臺除具備狀態(tài)查詢、性能監(jiān)控、日志收集,具備生信分析系列基礎(chǔ)功能外,還提供資源管理器和顆粒度任務(wù)管理功能,輕松實(shí)現(xiàn)流程批量化管理,帶來更好的用戶體驗(yàn)。
同時,具備了WDL流程嵌套編輯和模塊化管理。流程嵌套編輯能讓平臺適用各類生信分析復(fù)雜的結(jié)構(gòu);而模塊化的構(gòu)建,可使不同流程模塊在不同應(yīng)用中應(yīng)用,不僅讓流程更具靈活性、遷移性,同時,更讓W(xué)DL應(yīng)用復(fù)用性更高,即使是開源社區(qū)應(yīng)用也可直接復(fù)用。
同時,平臺也提供了提供命令行、SDK、API三種產(chǎn)品界面形態(tài),并可自由切換,讓諸多習(xí)慣“敲代碼”的用戶也能方便使用,大大提升了用戶的操作體驗(yàn)。
伴隨基因檢測技術(shù)成熟與服務(wù)普及,腫瘤基因檢測項(xiàng)目或?qū)⒅鸩郊{入醫(yī)保支付,這給基因測序市場帶來了更大的想象空間,僅以腫瘤領(lǐng)域的基因測序?yàn)槔?,預(yù)計(jì)2025年中國抗腫瘤藥物市場和腫瘤高通量基因檢測市場規(guī)模將達(dá)到4162億元和149億元。騰訊健康組學(xué)平臺依托云計(jì)算能力的深度應(yīng)用,將助力組學(xué)測序各研究領(lǐng)域高速邁入大算力、智能化新時期,完成數(shù)據(jù)研究到價值挖掘的高效轉(zhuǎn)化,更好迎接基因數(shù)據(jù)大爆炸時代。
星空人工智能技術(shù)網(wǎng) 倡導(dǎo)尊重與保護(hù)知識產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)等問題,煩請30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至1851688011@qq.com我們將及時溝通與處理。?。?a href="/">首頁 > 大數(shù)據(jù) » 為基因大數(shù)據(jù)插上“大算力”云翅膀 騰訊健康發(fā)布組學(xué)平臺