婷婷五月激情四射综合精品,久人妇精品视频

AI數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)的三個特點
第一個特點是數(shù)據(jù)組織的無標準。像傳統(tǒng)大數(shù)據(jù)基本上是一個大寬表，在大寬表之上，通過SQL來進行ETL就能解決絕大多數(shù)問題。但AI數(shù)據(jù)組織是沒有標準的。

舉四個例子。第一個是視頻，視頻在處理之前，一般都要進行拆條，拆解成子視頻，比如說定長拆條，或者通過關(guān)鍵幀，或者通過場景來拆條。拆完以后，這一條記錄要保存父視頻和子視頻的關(guān)系，同時這個視頻里面可能還有音軌、標題、字幕等等一些信息。

第二個例子就是用于摳圖場景的圖片數(shù)據(jù)，需要維護這個圖片的映射關(guān)系。

第三個例子是一個多輪對話的例子。這個多輪對話里面，可能單條記錄要包含多個模態(tài)信息，文本、視頻、音頻等等，他們之間是一個list關(guān)系。

第四個例子就是文本，數(shù)據(jù)組織形式更加復(fù)雜，不同的場景還是不一樣的。需要在單條記錄里就能涵蓋這些所有的AI數(shù)據(jù)的組織，這些例子可以看出來AI數(shù)據(jù)組織是沒有標準的。

第二個特點是AI數(shù)據(jù)相對于傳統(tǒng)的數(shù)據(jù)來說成本比較高，從數(shù)據(jù)的獲取角度，需要去做大量的人工標注，還有獲取有版權(quán)的數(shù)據(jù)，相對于企業(yè)內(nèi)部的結(jié)構(gòu)化數(shù)據(jù)成本非常高。還有數(shù)據(jù)存儲也需要消耗較大的成本，多模態(tài)數(shù)據(jù)跟傳統(tǒng)數(shù)據(jù)的存儲成本差異是顯而易見的。第三個是數(shù)據(jù)處理，除了CPU以外還需要GPU的處理。最后是網(wǎng)絡(luò)，多模態(tài)數(shù)據(jù)一般分散存儲在各個地域的對象存儲引擎里，計算引擎也是分散在各處，在處理、訓(xùn)練的時候，就需要去跨地域的進行拖拉數(shù)據(jù)。所以全鏈路成本就比較高。

第三個特點就是理解成本也比較高。傳統(tǒng)數(shù)據(jù)簡單進行ETL就能夠完全理解。但是在AI數(shù)據(jù)這方面，理解就比較復(fù)雜。以視頻為例，至少包含視覺、音頻、文本三方面的信息。

文本需要一些文本的模型去進行理解；視覺信息我們需要去抽幀，抽完幀以后通過一些OCR的手段來去識別文本，然后再進行理解；音頻需要提取音軌然后通過ASR的手段提取文本，最后再進行一些處理。

所以相較于傳統(tǒng)大數(shù)據(jù)，AI數(shù)據(jù)還是有很多不同。

基于MaxCompute來構(gòu)建數(shù)據(jù)處理平臺

為什么通義實驗室要基于MaxCompute來構(gòu)建數(shù)據(jù)平臺？首先，通義實驗室有數(shù)據(jù)統(tǒng)一管理及處理的訴求。通義實驗室有通義千問、通義萬相以及多個領(lǐng)域模型。數(shù)據(jù)需要進行統(tǒng)一管理，只有統(tǒng)一管理才能更高效的流轉(zhuǎn)。

通義實驗室是在2020年去開始構(gòu)建這個數(shù)據(jù)平臺。當時通義實驗室的各個算法團隊還在孵化階段，業(yè)界當時沒有成熟的解決方案。但是通義對AI數(shù)據(jù)的管理、處理的訴求是非常明確的，阿里云MaxCompute能夠滿足通義實驗室的需求，比如支持EB級的數(shù)據(jù)存儲，可以基于DataWorks構(gòu)建數(shù)據(jù)處理pipeline，海量豐富的內(nèi)建UDF，也支持用各種語言python、java等開發(fā)我們自己的自定義函數(shù)。

在這樣的背景下，我們選擇基于MaxCompute來構(gòu)建了通義實驗室的大模型數(shù)據(jù)平臺。

這個是通義實驗室大模型數(shù)據(jù)平臺的基本架構(gòu)。首先我們的外部數(shù)據(jù)包含了采購的數(shù)據(jù)，人工標注的數(shù)據(jù)，還有一些公開可下載的數(shù)據(jù)。

拿到這些數(shù)據(jù)以后，第一步操作就是基于MaxCompute平臺進行標準化。執(zhí)行標準化了以后，那么所有的通義實驗室的算法同學(xué)來看到這個數(shù)據(jù)，不需要過多的理解就能知道數(shù)據(jù)的含義。通過這樣的方式加速提升了數(shù)據(jù)的流動效率。

在標準化之后，我們構(gòu)建了一個數(shù)據(jù)集市，這個數(shù)據(jù)集市上面有一些比較原始的數(shù)據(jù)，也有一些高質(zhì)量的數(shù)據(jù)。數(shù)據(jù)集市之上，就是基于MaxCompute去構(gòu)建的數(shù)據(jù)處理的pipeline。

首先我們沉淀了海量的算子，比如說Minhash去重算子，語種識別的算子等等。在這各種算子之上，我們再構(gòu)建了各種的處理的pipeline，包括千問的網(wǎng)頁處理的pipeline, 還有圖片處理的pipeline等。

在數(shù)據(jù)處理之后，這個數(shù)據(jù)往往不能夠直接去用到千萬和萬相的訓(xùn)練中，因為處理完以后的數(shù)據(jù)，我們需要保障其滿足一定質(zhì)量要求。所以我們構(gòu)建了一個清洗-訓(xùn)練-評測的數(shù)據(jù)飛輪，去不斷尋找最優(yōu)的清洗策略，最終數(shù)據(jù)質(zhì)量達到一定標準后以后，會把這個數(shù)據(jù)提供給通義千問和通義萬相，這個數(shù)據(jù)也會沉淀下來到我們的數(shù)據(jù)集市。

以上就是通義實驗室的數(shù)據(jù)管理及處理解決方案，用于提供通義千萬和通義萬相的訓(xùn)練數(shù)據(jù)。

繼續(xù)閱讀：

星空人工智能技術(shù)網(wǎng) 倡導(dǎo)尊重與保護知識產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)等問題，煩請30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至1851688011@qq.com我們將及時溝通與處理。?。?a href="/">首頁 > 星空人工智能產(chǎn)業(yè) > AI大模型 » 通義實驗室基于阿里云 MaxCompute 進行大模型數(shù)據(jù)管理及處理

99热综合福利导航,久久66日韩,91一二区少妇,久久产国视频,日韩久久久五月精品八区,丰满狐狸精在线电影,一区婷婷久久,日韩欧美另类在线,欧美中文字幕区

星空人工智能技術(shù)網(wǎng)

通義實驗室基于阿里云 MaxCompute 進行大模型數(shù)據(jù)管理及處理

基于MaxCompute來構(gòu)建數(shù)據(jù)處理平臺

相關(guān)推薦