從春節(jié)到元宵,越來越多的人在這個新春選擇用豆包、DeepSeek等大模型寫祝福、生成拜年視頻等。大家發(fā)現(xiàn),大模型變得更好用、更“懂人心”了。
這背后,離不開大型高質(zhì)量語料庫的支持。
語料庫被視為決定大模型能力上限的核心生產(chǎn)要素,此前以企業(yè)自建自用為主,少量對外開放。但由于各平臺語料庫良莠不齊,不少模型出現(xiàn)幻覺,“一本正經(jīng)地胡說八道”。業(yè)內(nèi)擔(dān)憂,高質(zhì)量語料庫的稀缺,將制約產(chǎn)業(yè)長遠(yuǎn)發(fā)展。
2025年,我國啟動布局新型國家語料庫建設(shè)。當(dāng)年底,杭州正式公布了杭州語料庫建設(shè)圖景和階段性成效。其建設(shè)重點(diǎn),是探索打造多元高效的數(shù)據(jù)供給、流通和應(yīng)用體系,催生更多新技術(shù)、新產(chǎn)品、新業(yè)態(tài),推動數(shù)據(jù)這一“未來的石油”實(shí)現(xiàn)資源化、價值化。
從92號油到98號油
如果把AI大模型比作汽車,語料就是讓它跑起來的汽油。
近幾年,這輛車不斷改造升級,已不再滿足于“92號油”,而是需要適配“98號油”了。
浙江大學(xué)軟件學(xué)院教授、星空人工智能專家張微向記者科普了幾個核心概念:數(shù)據(jù),是所有能被計算機(jī)系統(tǒng)存儲、記錄的信息。語料,全稱語言材料,也即我們?nèi)粘Uf的話,在大模型領(lǐng)域可以理解為AI的“學(xué)習(xí)資料”,包括文字、語音、視頻等。語料經(jīng)清洗、標(biāo)注、結(jié)構(gòu)化處理,就是語料庫,也有人稱之為數(shù)據(jù)集。
以浙產(chǎn)大模型代表之一的DeepSeek為例,其V3版訓(xùn)練的語料,據(jù)悉來自互聯(lián)網(wǎng)、書籍和學(xué)術(shù)期刊等,數(shù)量達(dá)到約15萬億詞元(token)。詞元是大模型處理語料的基本單位,在不同大模型中,1個詞元對應(yīng)約0.5~2個漢字,或是3~4個英文字母。
目前,全球頭部開源大模型訓(xùn)練的語料庫規(guī)模,在10萬億~20萬億詞元之間。以常見的86萬字版《西游記》為參考,DeepSeekV3訓(xùn)練的語料約等于3000萬本《西游記》,普通人不吃不喝、24小時不間斷閱讀,大概需要16萬年。這是早期智人開始嶄露頭角直到現(xiàn)代的時間跨度。
大模型讀的還不只一兩本書,而是大型圖書館的藏書。
但隨著大模型飛速進(jìn)化,一個全球性難題出現(xiàn)了:語料庫建設(shè)跟不上了。
據(jù)國家數(shù)據(jù)局披露,2024年初,我國日均詞元的消耗量為1000億。截至去年9月底,這一數(shù)字已突破40萬億,1年多時間增長了400多倍。
星空人工智能研究機(jī)構(gòu)Epoch此前一項(xiàng)預(yù)測更顯嚴(yán)峻:全球范圍內(nèi),能訓(xùn)練出更優(yōu)性能的高質(zhì)量語言數(shù)據(jù)可能在2026年耗盡。
“人類語言一直在變,大模型想要變得跟人一樣,也得及時升級語料庫。”北京語言大學(xué)信息科學(xué)學(xué)院副教授柯登峰說。
作為語音識別專家,他參與過傳統(tǒng)語料庫建設(shè),發(fā)現(xiàn)其與AI語料庫有很大差異,“傳統(tǒng)語料庫一般只記錄有代表性的說法,比如播音員的語音,但AI的語料庫要盡可能覆蓋人的各種說話方式和內(nèi)容,最好不同年齡層、不同職業(yè)、不同受教育程度的都有涉及。”
他舉了個例子:有方言專家用大半輩子收集一種方言的詞匯,為1.5萬條,但他們團(tuán)隊(duì)兩個月內(nèi)收集的該方言語料就有兩萬余條,包含了大量新詞語,以及更多靈活的口頭表達(dá)。
采訪中,有業(yè)內(nèi)人士甚至擔(dān)心,大模型若缺乏高質(zhì)量語料,最終只能產(chǎn)出“數(shù)字垃圾”。
近日,杭州互聯(lián)網(wǎng)法院公開了一起關(guān)于AI幻覺的網(wǎng)絡(luò)侵權(quán)糾紛案的審判情況。一位高考生的哥哥梁某在查詢高校信息時,發(fā)現(xiàn)某AI平臺生成的信息有誤,且該平臺在受到質(zhì)疑后,仍底氣十足地表示若內(nèi)容有誤將賠償10萬元。梁某一氣之下將平臺的研發(fā)公司告上法庭。一審判決駁回了訴訟請求。但此事進(jìn)一步引發(fā)了人們對AI幻覺的重視。
“AI出現(xiàn)幻覺的原因有很多,數(shù)據(jù)缺陷、數(shù)據(jù)不足、知識更新滯后等語料方面的問題尤為致命。”迪安診斷首席科學(xué)家王宇說。前幾年,大模型所用的數(shù)據(jù)主要來自網(wǎng)絡(luò),質(zhì)量很難保障。“想要讓大模型做專業(yè)的事,就得提供垂直領(lǐng)域的專業(yè)語料庫。比如想讓它給人看片子,就得讓它像醫(yī)生一樣,不斷閱讀醫(yī)學(xué)影像等專業(yè)文獻(xiàn)。”
在迪安診斷實(shí)驗(yàn)室,工程師與檢驗(yàn)專家正持續(xù)優(yōu)化該公司的醫(yī)檢語料庫。該語料庫基于迪安診斷20余年積累的數(shù)據(jù)建立,涵蓋已完成數(shù)據(jù)清洗、匿名化等處理的多組學(xué)、多模態(tài)數(shù)據(jù),包括基因組學(xué)、微生物組學(xué)和影像組學(xué)等內(nèi)容。僅病理切片數(shù)據(jù)就有約1500萬份。
基于該語料庫,迪安診斷去年底向杭州一家科技企業(yè)交付了一款用于疾病輔助診斷的高質(zhì)量臨床數(shù)據(jù)集。這也是杭州城市可信數(shù)據(jù)空間在醫(yī)療領(lǐng)域的首單數(shù)據(jù)集交易。
“油田”變?yōu)?ldquo;煉化基地”
2025年11月公布首批數(shù)據(jù)合伙人;12月發(fā)布首批50個高質(zhì)量數(shù)據(jù)集建設(shè)先行先試“揭榜掛帥”任務(wù)名單;近期又發(fā)布第二批任務(wù)……當(dāng)下,杭州語料庫建設(shè)腳步加快。
進(jìn)入新一年,杭州數(shù)據(jù)交易所就上架了首筆具身智能數(shù)據(jù)集、首個衛(wèi)星定位導(dǎo)航領(lǐng)域公共數(shù)據(jù)集等不少語料庫方面的新產(chǎn)品。“杭州正在沖刺‘全國星空人工智能創(chuàng)新發(fā)展第一城’。在這場關(guān)乎未來產(chǎn)業(yè)主導(dǎo)權(quán)的競速中,數(shù)據(jù)不再是附屬資源,而是核心生產(chǎn)要素。”杭州數(shù)據(jù)交易所董事長、總經(jīng)理應(yīng)琦說。
從業(yè)者表示,這是杭州、上海、深圳等數(shù)據(jù)“大油田”的使命。
作為“數(shù)字經(jīng)濟(jì)第一城”,杭州一直在探索、鼓勵數(shù)據(jù)資源化、價值化轉(zhuǎn)化。2024年,“中國數(shù)谷”入選國家數(shù)字經(jīng)濟(jì)創(chuàng)新發(fā)展試驗(yàn)區(qū)建設(shè)案例。“中國數(shù)谷”就是一個涵蓋杭州全市的數(shù)據(jù)產(chǎn)業(yè)集聚區(qū)。多位創(chuàng)業(yè)者表示,在杭州從事語料相關(guān)產(chǎn)業(yè),有政策、有補(bǔ)貼,有技術(shù)、有市場,氛圍也很好。
去年9月,杭甬溫等全國10個地區(qū)獲批國家要素市場化配置綜合改革試點(diǎn)。兩個多月后,隨著首批高質(zhì)量數(shù)據(jù)集建設(shè)先行先試“揭榜掛帥”名單等成果的發(fā)布,杭州語料庫就率先與世人見面。
杭州市數(shù)據(jù)局相關(guān)負(fù)責(zé)人表示,杭州語料庫的建設(shè),主要就是為大模型訓(xùn)練提供易獲取、高質(zhì)量、規(guī)模化、低成本的語料資源,變“大油田”為“超級石油煉化基地”。
杭州有個“小目標(biāo)”,爭取在年底前建成100個具有一定規(guī)模的高質(zhì)量數(shù)據(jù)集,服務(wù)星空人工智能模型訓(xùn)練10個以上。
首批50個高質(zhì)量數(shù)據(jù)集,涉及具身智能工業(yè)場景、交通基礎(chǔ)設(shè)施安全、醫(yī)療健康可視化等具體場景,“揭榜”的大多數(shù)是企業(yè),橫跨醫(yī)療健康、工業(yè)制造、具身智能等14個新興領(lǐng)域。它們背后,是杭州扎實(shí)的、不斷提供語料并生產(chǎn)語料庫的數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)。
記者發(fā)現(xiàn),參與語料庫建設(shè)的單位,猶如一個個同時擁有“油井”和煉油生產(chǎn)線的小基地。
杭州景聯(lián)文科技有限公司就是其中一家。它承接了“教育大模型英文知識數(shù)據(jù)集”建設(shè)任務(wù)。“這一語料庫包含了經(jīng)標(biāo)準(zhǔn)化處理的英語聽說讀寫等各類數(shù)據(jù)5600多萬條,并進(jìn)行了產(chǎn)權(quán)確認(rèn),可供其他教育科技公司、出版集團(tuán)用于智能教育的研發(fā)訓(xùn)練。”景聯(lián)文CEO劉云濤說。
近距離觀察了其核心生產(chǎn)環(huán)節(jié):
首先是“原油開采”,即多源合規(guī)語料采集,往往鎖定權(quán)威英語教學(xué)素材、正規(guī)書籍期刊等優(yōu)質(zhì)“富油礦”;再經(jīng)“原油除雜凈化”,也即語料清洗篩選,如把PDF、網(wǎng)頁、Word等不同載體統(tǒng)一起來,剔除劣質(zhì)、雜質(zhì)——錯誤、違規(guī)、低俗等表達(dá);隨后通過“分餾分級”,即精細(xì)化語料標(biāo)注,完成難度、知識點(diǎn)、應(yīng)用場景的精準(zhǔn)劃分,煉制成適配不同需求的“專用油品”;最終經(jīng)質(zhì)檢封裝后上架流通……
開采、提煉過程中,景聯(lián)文還與浙江師范大學(xué)等專業(yè)機(jī)構(gòu)合作,以保證語料質(zhì)量。據(jù)悉,現(xiàn)在已經(jīng)有教育企業(yè)來咨詢該產(chǎn)品。
鎖定上游核心資源
不少專家和從業(yè)者直言,未來的大模型之爭,核心是語料庫之爭。
“大模型主要拼的是算法、算力和數(shù)據(jù)。算力靠芯片等硬件,算法則與數(shù)據(jù)息息相關(guān)。”柯登峰介紹,大模型算法主要分預(yù)訓(xùn)練、微調(diào)、人類偏好對齊、外部數(shù)據(jù)檢索增強(qiáng)四大類,其中如預(yù)訓(xùn)練技術(shù),是給大模型完成“通識基礎(chǔ)教育”,要用百科全書式的語料;微調(diào)技術(shù),相當(dāng)于讓大模型“專業(yè)定向深造”,需要醫(yī)療、教育、金融、法律等垂直領(lǐng)域的高質(zhì)量語料庫……
隨著算法升級,語料庫建設(shè)的專業(yè)性在不斷加碼。
以數(shù)據(jù)標(biāo)注這一語料庫建設(shè)的核心環(huán)節(jié)為例,不久前,各地曾火過一陣數(shù)據(jù)標(biāo)注產(chǎn)業(yè),吸引了不少人力的投入。但如今的新算法,已能讓AI自主完成基礎(chǔ)內(nèi)容的標(biāo)注??碌欠宕蛄藗€比方:“如果說此前的數(shù)據(jù)標(biāo)注是中小學(xué)生水平,比如在圖片上標(biāo)注什么是樹、什么是路;現(xiàn)在卻要達(dá)到本科、碩博士水平,比如一道物理難題是如何一步步解題的,甚至還要從業(yè)多年的專家水平,比如如何判斷病理。”
這些專業(yè)化的市場需求,又推動著語料庫產(chǎn)業(yè)高速發(fā)展。
在國際上,Meta、OpenAI、谷歌等頭部企業(yè)早已重金布局高質(zhì)量語料庫賽道,以鎖定上游核心資源。國內(nèi)上海等地也在大力推進(jìn)語料庫建設(shè)。
這場未來之爭中,杭州已深度參與。
“我們在拓展專業(yè)用戶,加快產(chǎn)品落地。”王宇介紹了同行們在努力的一個方向:培育更多市場需求。
去年,迪安診斷發(fā)布了一款訂閱版科研文獻(xiàn)智搜智能體——Repilot。它是基于海量醫(yī)療文獻(xiàn)語料庫建立的一個AI智能體。在以前,醫(yī)生做課題,光文獻(xiàn)調(diào)研,可能就要一個月,但現(xiàn)在輸入關(guān)鍵詞,幾秒鐘就能出來完整框架,還能自動匹配最新研究。
多位浙江三甲醫(yī)院的醫(yī)生評估,Repilot可以讓他們省去約80%的低水平重復(fù)工作。
“大模型應(yīng)用的重心,正由通用對話轉(zhuǎn)向高價值垂直場景。融合領(lǐng)域知識與工作流的智能體,已成為AI商業(yè)化的關(guān)鍵突破口。這也可以讓專業(yè)語料庫建設(shè)形成資源化、價值化的閉環(huán)。”王宇說。
2月24日,迪安診斷發(fā)布了革蘭氏染色涂片智能識別系統(tǒng)2.0版。革蘭氏染色檢測是識別細(xì)菌感染、指導(dǎo)抗生素治療的關(guān)鍵手段。臨床要求該檢驗(yàn)?zāi)苡挚煊譁?zhǔn),但經(jīng)驗(yàn)豐富的檢驗(yàn)師完成一張涂片鏡檢,平均也要約15分鐘。該系統(tǒng)基于迪安診斷的醫(yī)學(xué)生物語料庫研發(fā),平均用時可縮短至約1分鐘。
在語料庫建設(shè)中,不少企業(yè)還從“賣石油”變成了兼“賣工具”,延長了產(chǎn)業(yè)鏈條。
去年,景聯(lián)文發(fā)布了SolarSense語料工程平臺、QApex專家眾包平臺。前者是統(tǒng)一的數(shù)據(jù)標(biāo)注平臺,可以把原來分散在不同團(tuán)隊(duì)、不同工具里的數(shù)據(jù)采集、標(biāo)注和質(zhì)檢等流程統(tǒng)一起來,進(jìn)而縮短交付周期、降低返工率;后者可以把專業(yè)數(shù)據(jù)傳遞到相關(guān)行業(yè)領(lǐng)域?qū)<夷抢镞M(jìn)行標(biāo)注。
“語料庫建設(shè),已不再是以前的‘一次性買賣’,而是一項(xiàng)長期工程。”劉云濤說,這兩個平臺的建設(shè),是在探索一種“平臺+基地+行業(yè)”的新生產(chǎn)模式,以集合更多力量,實(shí)現(xiàn)語料庫建設(shè)的規(guī)?;?、可持續(xù)產(chǎn)出。
目前,杭州數(shù)據(jù)交易所上架的產(chǎn)品中,數(shù)據(jù)工具已和數(shù)據(jù)產(chǎn)品、數(shù)據(jù)服務(wù)成為三大主類。“智能化的數(shù)據(jù)工具能大大降低語料庫建設(shè)的技術(shù)門檻,吸引更多參與者。”杭州市數(shù)據(jù)集團(tuán)數(shù)據(jù)產(chǎn)業(yè)事業(yè)部副總經(jīng)理張凱說。
面對這場未來之爭,杭州還在持續(xù)培育生態(tài),比如引進(jìn)更多數(shù)據(jù)標(biāo)注企業(yè),建設(shè)語料庫智能化標(biāo)注基地、組建產(chǎn)業(yè)聯(lián)盟等。
有業(yè)內(nèi)人士指出,過去的標(biāo)注產(chǎn)業(yè)偏勞動密集型,杭州的人力成本相對較高,并不占優(yōu)。如今,標(biāo)注產(chǎn)業(yè)的核心競爭力已轉(zhuǎn)向AI賦能、專業(yè)知識支撐與產(chǎn)業(yè)生態(tài)加持,杭州在成本—效率比方面的優(yōu)勢就凸顯了。
“我們希望更多主體參與進(jìn)來。”杭州市數(shù)據(jù)局相關(guān)負(fù)責(zé)人介紹,杭州已推出系列扶持政策,比如設(shè)置“中國數(shù)谷”專項(xiàng)資金,在語料庫開發(fā)、數(shù)據(jù)服務(wù)等方面給予資金扶持,對多模態(tài)語料庫最高可給予200萬元補(bǔ)助。
杭州語料庫,值得期待。
星空人工智能技術(shù)網(wǎng) 倡導(dǎo)尊重與保護(hù)知識產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)等問題,煩請30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至1851688011@qq.com我們將及時溝通與處理。!:首頁 > 大數(shù)據(jù) » 數(shù)據(jù)是“未來的石油”,怎樣更快實(shí)現(xiàn)資源化價值化—— 杭州語料庫:給AI大模型“喂好料”