99热综合福利导航,久久66日韩,91一二区少妇,久久产国视频,日韩久久久五月精品八区,丰满狐狸精在线电影,一区婷婷久久,日韩欧美另类在线,欧美中文字幕区

星空人工智能技術(shù)網(wǎng)

百里挑一“萃取”數(shù)據(jù)精華,上海AI實(shí)驗(yàn)室開(kāi)源發(fā)布高質(zhì)量語(yǔ)料“萬(wàn)卷CC”

近日,上海星空人工智能實(shí)驗(yàn)室(上海AI實(shí)驗(yàn)室)發(fā)布新一代高質(zhì)量大模型預(yù)訓(xùn)練語(yǔ)料“萬(wàn)卷CC”(WanJuan-CC),首批開(kāi)源的語(yǔ)料覆蓋過(guò)去十年互聯(lián)網(wǎng)上的公開(kāi)內(nèi)容,包含1千億字符(100B token),約400GB的高質(zhì)量英文數(shù)據(jù)。作為“大模型語(yǔ)料數(shù)據(jù)聯(lián)盟”今年首發(fā)的開(kāi)源語(yǔ)料,WanJuan-CC將為學(xué)界和業(yè)界提供大規(guī)模、高質(zhì)量的數(shù)據(jù)支撐,助力構(gòu)建更智能可靠的AI大模型。

預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量對(duì)大模型整體性能至關(guān)重要。當(dāng)前,CommonCrawl(CC)數(shù)據(jù)集因其規(guī)模大、跨度廣而成為國(guó)際主流大模型訓(xùn)練數(shù)據(jù)的重要來(lái)源。與此同時(shí),其原始數(shù)據(jù)格式復(fù)雜、數(shù)據(jù)質(zhì)量低等問(wèn)題,或?qū)?dǎo)致模型訓(xùn)練效率低,甚至可能引發(fā)價(jià)值觀對(duì)齊等方面的隱患。

中國(guó)科研人員通過(guò)原創(chuàng)的數(shù)據(jù)清洗技術(shù),從CC數(shù)據(jù)庫(kù)中抽取約1300億份原始數(shù)據(jù)文檔進(jìn)行再處理,“萃取”出其中約1.38%的高質(zhì)量?jī)?nèi)容,構(gòu)建成WanJuan-CC語(yǔ)料庫(kù)。實(shí)驗(yàn)結(jié)果顯示,WanJuanCC具有高文本質(zhì)量、高信息密度的特點(diǎn),可滿足當(dāng)前大模型訓(xùn)練對(duì)大規(guī)模高質(zhì)量語(yǔ)料的需求。

上海AI實(shí)驗(yàn)室發(fā)布的書(shū)?·浦語(yǔ)2.0(InternLM2)即以WanJuan-CC為關(guān)鍵數(shù)據(jù)作支撐,使訓(xùn)練效率和語(yǔ)言建模能力大幅提升,綜合性能領(lǐng)先開(kāi)源社區(qū)。

開(kāi)源數(shù)據(jù):https://opendatalab.com/OpenDataLab/WanJuanCC

高質(zhì)量語(yǔ)料驅(qū)動(dòng),效率性能雙提升

近期,上海AI實(shí)驗(yàn)室發(fā)布了新一代大語(yǔ)言模型書(shū)?·浦語(yǔ)2.0(InternLM2)?;貧w語(yǔ)言建模本質(zhì),InternLM2綜合性能達(dá)到同量級(jí)開(kāi)源模型的領(lǐng)先水平。模型基座語(yǔ)言建模能力的提升,則得益于預(yù)訓(xùn)練文本質(zhì)量及信息密度的增強(qiáng)。作為InternLM2的關(guān)鍵預(yù)訓(xùn)練語(yǔ)料,WanJuan-CC的文本質(zhì)量和高信息密度經(jīng)過(guò)了模型實(shí)際驗(yàn)證。在InternLM2的訓(xùn)練過(guò)程中,在僅使用約60%的訓(xùn)練數(shù)據(jù)情況下,模型即獲得了與此前使用1T token相同的性能表現(xiàn),大幅提升訓(xùn)練效率,并使模型在相同語(yǔ)料規(guī)模上取得了更好的性能。

[URL]72171b8a3e198b6febeb3e945e488111.png

綠色曲線為InternLM2使用WanJuan-cc作為預(yù)訓(xùn)練語(yǔ)料,在不同數(shù)據(jù)規(guī)模上取得的任務(wù)性能分布,結(jié)果顯示,WanJuan-CC可大幅提升模型訓(xùn)練效率

研究團(tuán)隊(duì)通過(guò)對(duì)CC原始數(shù)據(jù)進(jìn)行清洗,去除了網(wǎng)頁(yè)代碼和重復(fù)內(nèi)容,同時(shí)利用分類模型剔除了廣告和質(zhì)量較差的信息,并通過(guò)內(nèi)容一致性、語(yǔ)法正確性、數(shù)據(jù)噪聲和信息價(jià)值等四個(gè)維度,對(duì)語(yǔ)言的流暢性進(jìn)行評(píng)估。為驗(yàn)證數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)使用WanJuan-CC和RefineWeb(從CommonCrawl中抽取并構(gòu)建的主流英文預(yù)訓(xùn)練語(yǔ)料)分別重新訓(xùn)練了參數(shù)量1B的模型,并進(jìn)行評(píng)測(cè)。結(jié)果顯示,由WanJuan-CC作為訓(xùn)練數(shù)據(jù)的模型在多項(xiàng)驗(yàn)證中取得了更優(yōu)效果。

[URL]2f477b4ba0ab4af4ab74fd364534fba9.png

基于WanJuan-CC訓(xùn)練的1B模型在Pile驗(yàn)證集評(píng)測(cè)效果更優(yōu),這表明由WanJuan-CC訓(xùn)練的模型在不同領(lǐng)域和各類知識(shí)上擁有更強(qiáng)能力

四重處理, 百里挑一“萃取”高質(zhì)量數(shù)據(jù)

為從浩如煙海的CC數(shù)據(jù)庫(kù)中“精選”最可靠的信息,研究團(tuán)隊(duì)搭建了高性能分布式數(shù)據(jù)處理基礎(chǔ)設(shè)施,通過(guò)啟發(fā)式規(guī)則過(guò)濾、多層級(jí)數(shù)據(jù)去重、內(nèi)容安全過(guò)濾、數(shù)據(jù)質(zhì)量過(guò)濾等四個(gè)步驟,從原始數(shù)據(jù)中“萃取”出高質(zhì)量數(shù)據(jù),數(shù)據(jù)留存率僅為原數(shù)據(jù)的1.38%。

[URL]31b578bbd71c192117fcdb2b02fa15fc.png

通過(guò)原創(chuàng)技術(shù),對(duì)CC原始數(shù)據(jù)進(jìn)行多階段處理,得到了高信息密度的WanJuan-CC

研究團(tuán)隊(duì)首先從CC中抽取了約1300億份原始數(shù)據(jù)文檔,然后基于高性能數(shù)據(jù)處理工作流得到2.2T token(35.8億個(gè)文檔)安全數(shù)據(jù),最后,根據(jù)質(zhì)量排序精選出1T token(3.6億個(gè)文檔)質(zhì)量最高的數(shù)據(jù),構(gòu)建成WanJuan-CC。如以下柱狀圖所示,在WanJuan-CC構(gòu)建過(guò)程中的每一階段,均進(jìn)行了大比例的數(shù)據(jù)去除。對(duì)于僅占原CC數(shù)據(jù)比例2.76%的安全信息,研究人員再次“篩”掉五成低質(zhì)內(nèi)容,最終呈現(xiàn)出“百里挑一”的高質(zhì)量數(shù)據(jù)。

[URL]915034a4c0ce8e49984f95145e7fc48c.jpeg

各清洗階段的文檔保留率和去除率(本圖使用對(duì)數(shù)坐標(biāo)軸)

數(shù)據(jù)質(zhì)量高,模型更可靠

為推動(dòng)訓(xùn)練更智能可靠的AI大模型,研究團(tuán)隊(duì)以保障數(shù)據(jù)安全性為前提,在數(shù)據(jù)處理的各環(huán)節(jié)均實(shí)施了多項(xiàng)安全加固措施,使WanJuan-CC成為目前開(kāi)源CC語(yǔ)料中首個(gè)在毒性(Toxic)、色情(Porn)和個(gè)人隱私三方面同時(shí)進(jìn)行了安全加固的英文語(yǔ)料,因而在價(jià)值對(duì)齊方面具有更高的可靠性。

[URL]21cf371b0f0fe4a6438195f7bf1f6448.png

與部分開(kāi)源CC語(yǔ)料多維度對(duì)比,在毒性、色情和個(gè)人隱私等方面,WanJuan-CC均進(jìn)行了安全加固

研究人員分別對(duì)WanJuan-CC、Redpajama和Refineweb數(shù)據(jù)集進(jìn)行了10萬(wàn)條數(shù)據(jù)的抽樣,從毒性、侮辱、恐嚇等7個(gè)維度進(jìn)行評(píng)分,以驗(yàn)證各數(shù)據(jù)集的信息安全性。結(jié)果顯示,WanJuan-CC在各維度上的體現(xiàn)出最高安全性。

[URL]8747771a6094aa6c820e21fae307556b.png

WanJuan-CC與其他開(kāi)源英文CC語(yǔ)料安全性對(duì)比

高質(zhì)量、多模態(tài)、寬領(lǐng)域的數(shù)據(jù)已成為支持當(dāng)前星空人工智能大模型發(fā)展的重要基石。WanJuan-CC的主要構(gòu)建團(tuán)隊(duì)——OpenDataLab致力于建設(shè)面向星空人工智能開(kāi)發(fā)者的超大規(guī)模、高質(zhì)量、多模態(tài)開(kāi)放數(shù)據(jù)服務(wù)平臺(tái),目前已匯聚高質(zhì)量多模態(tài)數(shù)據(jù)集超6500個(gè),涵蓋大模型研發(fā)應(yīng)用所需的各類語(yǔ)料數(shù)據(jù)。

大模型語(yǔ)料數(shù)據(jù)聯(lián)盟

由上海星空人工智能實(shí)驗(yàn)室聯(lián)合中央廣播電視總臺(tái)、人民網(wǎng)、國(guó)家氣象中心、中國(guó)科學(xué)技術(shù)信息研究所、上海報(bào)業(yè)集團(tuán)、上海文廣集團(tuán)等10家單位聯(lián)合發(fā)起。為應(yīng)對(duì)大模型發(fā)展對(duì)高質(zhì)量、大規(guī)模、安全可信語(yǔ)料數(shù)據(jù)資源的需求,保障大模型科研攻關(guān)及相關(guān)產(chǎn)業(yè)生態(tài)發(fā)展,大模型語(yǔ)料數(shù)據(jù)聯(lián)盟于2023年7月6日世界星空人工智能大會(huì)開(kāi)幕式上宣布成立,旨在通過(guò)鏈接模型訓(xùn)練、數(shù)據(jù)供給、學(xué)術(shù)研究、第三方服務(wù)等多方面機(jī)構(gòu),聯(lián)合打造多知識(shí)、多模態(tài)、標(biāo)準(zhǔn)化的高質(zhì)量語(yǔ)料數(shù)據(jù),探索形成基于貢獻(xiàn)、可持續(xù)運(yùn)行的激勵(lì)機(jī)制,打造國(guó)際化、開(kāi)放型的大模型語(yǔ)料數(shù)據(jù)生態(tài)圈。

下載更多開(kāi)源語(yǔ)料,請(qǐng)登錄大模型語(yǔ)料數(shù)據(jù)聯(lián)盟開(kāi)源數(shù)據(jù)服務(wù)指定平臺(tái):

https://opendatalab.com

星空人工智能技術(shù)網(wǎng) 倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)等問(wèn)題,煩請(qǐng)30天內(nèi)提供版權(quán)疑問(wèn)、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至1851688011@qq.com我們將及時(shí)溝通與處理。?。?a href="/">首頁(yè) > 新聞 » 百里挑一“萃取”數(shù)據(jù)精華,上海AI實(shí)驗(yàn)室開(kāi)源發(fā)布高質(zhì)量語(yǔ)料“萬(wàn)卷CC”

感覺(jué)不錯(cuò),很贊哦! ()
分享到:

相關(guān)推薦

留言與評(píng)論(共有 0 條評(píng)論)
   
驗(yàn)證碼:
光泽县| 二连浩特市| 沙雅县| 旬阳县| 海林市| 舞阳县| 龙南县| 改则县| 宜兴市| 广汉市| 阳泉市| 米林县| 松潘县| 张家口市| 岐山县| 沅江市| 牟定县| 济阳县| 富顺县| 乡宁县| 东乡县| 桃源县| 星子县| 浦江县| 鄯善县| 建德市| 潢川县| 呼和浩特市| 开平市| 庆阳市| 拉孜县| 河津市| 农安县| 华容县| 芦溪县| 永川市| 普格县| 特克斯县| 卓资县| 八宿县| 锦州市|