国产综合五区在线,久久精午夜福利国产精品

從春節(jié)到元宵，越來越多的人在這個新春選擇用豆包、DeepSeek等大模型寫祝福、生成拜年視頻等。大家發(fā)現(xiàn)，大模型變得更好用、更“懂人心”了。

　　這背后，離不開大型高質(zhì)量語料庫的支持。

　　語料庫被視為決定大模型能力上限的核心生產(chǎn)要素，此前以企業(yè)自建自用為主，少量對外開放。但由于各平臺語料庫良莠不齊，不少模型出現(xiàn)幻覺，“一本正經(jīng)地胡說八道”。業(yè)內(nèi)擔(dān)憂，高質(zhì)量語料庫的稀缺，將制約產(chǎn)業(yè)長遠(yuǎn)發(fā)展。

　　2025年，我國啟動布局新型國家語料庫建設(shè)。當(dāng)年底，杭州正式公布了杭州語料庫建設(shè)圖景和階段性成效。其建設(shè)重點(diǎn)，是探索打造多元高效的數(shù)據(jù)供給、流通和應(yīng)用體系，催生更多新技術(shù)、新產(chǎn)品、新業(yè)態(tài)，推動數(shù)據(jù)這一“未來的石油”實(shí)現(xiàn)資源化、價值化。

　　從92號油到98號油

　　如果把AI大模型比作汽車，語料就是讓它跑起來的汽油。

　　近幾年，這輛車不斷改造升級，已不再滿足于“92號油”，而是需要適配“98號油”了。

　　浙江大學(xué)軟件學(xué)院教授、星空人工智能專家張微向記者科普了幾個核心概念：數(shù)據(jù)，是所有能被計算機(jī)系統(tǒng)存儲、記錄的信息。語料，全稱語言材料，也即我們?nèi)粘Ｕf的話，在大模型領(lǐng)域可以理解為AI的“學(xué)習(xí)資料”，包括文字、語音、視頻等。語料經(jīng)清洗、標(biāo)注、結(jié)構(gòu)化處理，就是語料庫，也有人稱之為數(shù)據(jù)集。

　　以浙產(chǎn)大模型代表之一的DeepSeek為例，其V3版訓(xùn)練的語料，據(jù)悉來自互聯(lián)網(wǎng)、書籍和學(xué)術(shù)期刊等，數(shù)量達(dá)到約15萬億詞元（token）。詞元是大模型處理語料的基本單位，在不同大模型中，1個詞元對應(yīng)約0.5～2個漢字，或是3～4個英文字母。

　　目前，全球頭部開源大模型訓(xùn)練的語料庫規(guī)模，在10萬億～20萬億詞元之間。以常見的86萬字版《西游記》為參考，DeepSeekV3訓(xùn)練的語料約等于3000萬本《西游記》，普通人不吃不喝、24小時不間斷閱讀，大概需要16萬年。這是早期智人開始嶄露頭角直到現(xiàn)代的時間跨度。

　　大模型讀的還不只一兩本書，而是大型圖書館的藏書。

　　但隨著大模型飛速進(jìn)化，一個全球性難題出現(xiàn)了：語料庫建設(shè)跟不上了。

　　據(jù)國家數(shù)據(jù)局披露，2024年初，我國日均詞元的消耗量為1000億。截至去年9月底，這一數(shù)字已突破40萬億，1年多時間增長了400多倍。

　　星空人工智能研究機(jī)構(gòu)Epoch此前一項(xiàng)預(yù)測更顯嚴(yán)峻：全球范圍內(nèi)，能訓(xùn)練出更優(yōu)性能的高質(zhì)量語言數(shù)據(jù)可能在2026年耗盡。

　　“人類語言一直在變，大模型想要變得跟人一樣，也得及時升級語料庫。”北京語言大學(xué)信息科學(xué)學(xué)院副教授柯登峰說。

　　作為語音識別專家，他參與過傳統(tǒng)語料庫建設(shè)，發(fā)現(xiàn)其與AI語料庫有很大差異，“傳統(tǒng)語料庫一般只記錄有代表性的說法，比如播音員的語音，但AI的語料庫要盡可能覆蓋人的各種說話方式和內(nèi)容，最好不同年齡層、不同職業(yè)、不同受教育程度的都有涉及。”

　　他舉了個例子：有方言專家用大半輩子收集一種方言的詞匯，為1.5萬條，但他們團(tuán)隊(duì)兩個月內(nèi)收集的該方言語料就有兩萬余條，包含了大量新詞語，以及更多靈活的口頭表達(dá)。

　　采訪中，有業(yè)內(nèi)人士甚至擔(dān)心，大模型若缺乏高質(zhì)量語料，最終只能產(chǎn)出“數(shù)字垃圾”。

　　近日，杭州互聯(lián)網(wǎng)法院公開了一起關(guān)于AI幻覺的網(wǎng)絡(luò)侵權(quán)糾紛案的審判情況。一位高考生的哥哥梁某在查詢高校信息時，發(fā)現(xiàn)某AI平臺生成的信息有誤，且該平臺在受到質(zhì)疑后，仍底氣十足地表示若內(nèi)容有誤將賠償10萬元。梁某一氣之下將平臺的研發(fā)公司告上法庭。一審判決駁回了訴訟請求。但此事進(jìn)一步引發(fā)了人們對AI幻覺的重視。

　　“AI出現(xiàn)幻覺的原因有很多，數(shù)據(jù)缺陷、數(shù)據(jù)不足、知識更新滯后等語料方面的問題尤為致命。”迪安診斷首席科學(xué)家王宇說。前幾年，大模型所用的數(shù)據(jù)主要來自網(wǎng)絡(luò)，質(zhì)量很難保障。“想要讓大模型做專業(yè)的事，就得提供垂直領(lǐng)域的專業(yè)語料庫。比如想讓它給人看片子，就得讓它像醫(yī)生一樣，不斷閱讀醫(yī)學(xué)影像等專業(yè)文獻(xiàn)。”

　　在迪安診斷實(shí)驗(yàn)室，工程師與檢驗(yàn)專家正持續(xù)優(yōu)化該公司的醫(yī)檢語料庫。該語料庫基于迪安診斷20余年積累的數(shù)據(jù)建立，涵蓋已完成數(shù)據(jù)清洗、匿名化等處理的多組學(xué)、多模態(tài)數(shù)據(jù)，包括基因組學(xué)、微生物組學(xué)和影像組學(xué)等內(nèi)容。僅病理切片數(shù)據(jù)就有約1500萬份。

　　基于該語料庫，迪安診斷去年底向杭州一家科技企業(yè)交付了一款用于疾病輔助診斷的高質(zhì)量臨床數(shù)據(jù)集。這也是杭州城市可信數(shù)據(jù)空間在醫(yī)療領(lǐng)域的首單數(shù)據(jù)集交易。

　　“油田”變?yōu)?ldquo;煉化基地”

　　2025年11月公布首批數(shù)據(jù)合伙人；12月發(fā)布首批50個高質(zhì)量數(shù)據(jù)集建設(shè)先行先試“揭榜掛帥”任務(wù)名單；近期又發(fā)布第二批任務(wù)……當(dāng)下，杭州語料庫建設(shè)腳步加快。

　　進(jìn)入新一年，杭州數(shù)據(jù)交易所就上架了首筆具身智能數(shù)據(jù)集、首個衛(wèi)星定位導(dǎo)航領(lǐng)域公共數(shù)據(jù)集等不少語料庫方面的新產(chǎn)品。“杭州正在沖刺‘全國星空人工智能創(chuàng)新發(fā)展第一城’。在這場關(guān)乎未來產(chǎn)業(yè)主導(dǎo)權(quán)的競速中，數(shù)據(jù)不再是附屬資源，而是核心生產(chǎn)要素。”杭州數(shù)據(jù)交易所董事長、總經(jīng)理應(yīng)琦說。

　　從業(yè)者表示，這是杭州、上海、深圳等數(shù)據(jù)“大油田”的使命。

　　作為“數(shù)字經(jīng)濟(jì)第一城”，杭州一直在探索、鼓勵數(shù)據(jù)資源化、價值化轉(zhuǎn)化。2024年，“中國數(shù)谷”入選國家數(shù)字經(jīng)濟(jì)創(chuàng)新發(fā)展試驗(yàn)區(qū)建設(shè)案例。“中國數(shù)谷”就是一個涵蓋杭州全市的數(shù)據(jù)產(chǎn)業(yè)集聚區(qū)。多位創(chuàng)業(yè)者表示，在杭州從事語料相關(guān)產(chǎn)業(yè)，有政策、有補(bǔ)貼，有技術(shù)、有市場，氛圍也很好。

　　去年9月，杭甬溫等全國10個地區(qū)獲批國家要素市場化配置綜合改革試點(diǎn)。兩個多月后，隨著首批高質(zhì)量數(shù)據(jù)集建設(shè)先行先試“揭榜掛帥”名單等成果的發(fā)布，杭州語料庫就率先與世人見面。

　　杭州市數(shù)據(jù)局相關(guān)負(fù)責(zé)人表示，杭州語料庫的建設(shè)，主要就是為大模型訓(xùn)練提供易獲取、高質(zhì)量、規(guī)模化、低成本的語料資源，變“大油田”為“超級石油煉化基地”。

　　杭州有個“小目標(biāo)”，爭取在年底前建成100個具有一定規(guī)模的高質(zhì)量數(shù)據(jù)集，服務(wù)星空人工智能模型訓(xùn)練10個以上。

　　首批50個高質(zhì)量數(shù)據(jù)集，涉及具身智能工業(yè)場景、交通基礎(chǔ)設(shè)施安全、醫(yī)療健康可視化等具體場景，“揭榜”的大多數(shù)是企業(yè)，橫跨醫(yī)療健康、工業(yè)制造、具身智能等14個新興領(lǐng)域。它們背后，是杭州扎實(shí)的、不斷提供語料并生產(chǎn)語料庫的數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)。

　　記者發(fā)現(xiàn)，參與語料庫建設(shè)的單位，猶如一個個同時擁有“油井”和煉油生產(chǎn)線的小基地。

　　杭州景聯(lián)文科技有限公司就是其中一家。它承接了“教育大模型英文知識數(shù)據(jù)集”建設(shè)任務(wù)。“這一語料庫包含了經(jīng)標(biāo)準(zhǔn)化處理的英語聽說讀寫等各類數(shù)據(jù)5600多萬條，并進(jìn)行了產(chǎn)權(quán)確認(rèn)，可供其他教育科技公司、出版集團(tuán)用于智能教育的研發(fā)訓(xùn)練。”景聯(lián)文CEO劉云濤說。

　　近距離觀察了其核心生產(chǎn)環(huán)節(jié)：

　　首先是“原油開采”，即多源合規(guī)語料采集，往往鎖定權(quán)威英語教學(xué)素材、正規(guī)書籍期刊等優(yōu)質(zhì)“富油礦”；再經(jīng)“原油除雜凈化”，也即語料清洗篩選，如把PDF、網(wǎng)頁、Word等不同載體統(tǒng)一起來，剔除劣質(zhì)、雜質(zhì)——錯誤、違規(guī)、低俗等表達(dá)；隨后通過“分餾分級”，即精細(xì)化語料標(biāo)注，完成難度、知識點(diǎn)、應(yīng)用場景的精準(zhǔn)劃分，煉制成適配不同需求的“專用油品”；最終經(jīng)質(zhì)檢封裝后上架流通……

　　開采、提煉過程中，景聯(lián)文還與浙江師范大學(xué)等專業(yè)機(jī)構(gòu)合作，以保證語料質(zhì)量。據(jù)悉，現(xiàn)在已經(jīng)有教育企業(yè)來咨詢該產(chǎn)品。

　　鎖定上游核心資源

　　不少專家和從業(yè)者直言，未來的大模型之爭，核心是語料庫之爭。

　　“大模型主要拼的是算法、算力和數(shù)據(jù)。算力靠芯片等硬件，算法則與數(shù)據(jù)息息相關(guān)。”柯登峰介紹，大模型算法主要分預(yù)訓(xùn)練、微調(diào)、人類偏好對齊、外部數(shù)據(jù)檢索增強(qiáng)四大類，其中如預(yù)訓(xùn)練技術(shù)，是給大模型完成“通識基礎(chǔ)教育”，要用百科全書式的語料；微調(diào)技術(shù)，相當(dāng)于讓大模型“專業(yè)定向深造”，需要醫(yī)療、教育、金融、法律等垂直領(lǐng)域的高質(zhì)量語料庫……

　　隨著算法升級，語料庫建設(shè)的專業(yè)性在不斷加碼。

　　以數(shù)據(jù)標(biāo)注這一語料庫建設(shè)的核心環(huán)節(jié)為例，不久前，各地曾火過一陣數(shù)據(jù)標(biāo)注產(chǎn)業(yè)，吸引了不少人力的投入。但如今的新算法，已能讓AI自主完成基礎(chǔ)內(nèi)容的標(biāo)注?？碌欠宕蛄藗€比方：“如果說此前的數(shù)據(jù)標(biāo)注是中小學(xué)生水平，比如在圖片上標(biāo)注什么是樹、什么是路；現(xiàn)在卻要達(dá)到本科、碩博士水平，比如一道物理難題是如何一步步解題的，甚至還要從業(yè)多年的專家水平，比如如何判斷病理。”

　　這些專業(yè)化的市場需求，又推動著語料庫產(chǎn)業(yè)高速發(fā)展。

　　在國際上，Meta、OpenAI、谷歌等頭部企業(yè)早已重金布局高質(zhì)量語料庫賽道，以鎖定上游核心資源。國內(nèi)上海等地也在大力推進(jìn)語料庫建設(shè)。

　　這場未來之爭中，杭州已深度參與。

　　“我們在拓展專業(yè)用戶，加快產(chǎn)品落地。”王宇介紹了同行們在努力的一個方向：培育更多市場需求。

　　去年，迪安診斷發(fā)布了一款訂閱版科研文獻(xiàn)智搜智能體——Repilot。它是基于海量醫(yī)療文獻(xiàn)語料庫建立的一個AI智能體。在以前，醫(yī)生做課題，光文獻(xiàn)調(diào)研，可能就要一個月，但現(xiàn)在輸入關(guān)鍵詞，幾秒鐘就能出來完整框架，還能自動匹配最新研究。

　　多位浙江三甲醫(yī)院的醫(yī)生評估，Repilot可以讓他們省去約80%的低水平重復(fù)工作。

　　“大模型應(yīng)用的重心，正由通用對話轉(zhuǎn)向高價值垂直場景。融合領(lǐng)域知識與工作流的智能體，已成為AI商業(yè)化的關(guān)鍵突破口。這也可以讓專業(yè)語料庫建設(shè)形成資源化、價值化的閉環(huán)。”王宇說。

　　2月24日，迪安診斷發(fā)布了革蘭氏染色涂片智能識別系統(tǒng)2.0版。革蘭氏染色檢測是識別細(xì)菌感染、指導(dǎo)抗生素治療的關(guān)鍵手段。臨床要求該檢驗(yàn)?zāi)苡挚煊譁?zhǔn)，但經(jīng)驗(yàn)豐富的檢驗(yàn)師完成一張涂片鏡檢，平均也要約15分鐘。該系統(tǒng)基于迪安診斷的醫(yī)學(xué)生物語料庫研發(fā)，平均用時可縮短至約1分鐘。

　　在語料庫建設(shè)中，不少企業(yè)還從“賣石油”變成了兼“賣工具”，延長了產(chǎn)業(yè)鏈條。

　　去年，景聯(lián)文發(fā)布了SolarSense語料工程平臺、QApex專家眾包平臺。前者是統(tǒng)一的數(shù)據(jù)標(biāo)注平臺，可以把原來分散在不同團(tuán)隊(duì)、不同工具里的數(shù)據(jù)采集、標(biāo)注和質(zhì)檢等流程統(tǒng)一起來，進(jìn)而縮短交付周期、降低返工率；后者可以把專業(yè)數(shù)據(jù)傳遞到相關(guān)行業(yè)領(lǐng)域?qū)＜夷抢镞M(jìn)行標(biāo)注。

　　“語料庫建設(shè)，已不再是以前的‘一次性買賣’，而是一項(xiàng)長期工程。”劉云濤說，這兩個平臺的建設(shè)，是在探索一種“平臺+基地+行業(yè)”的新生產(chǎn)模式，以集合更多力量，實(shí)現(xiàn)語料庫建設(shè)的規(guī)?；?、可持續(xù)產(chǎn)出。

　　目前，杭州數(shù)據(jù)交易所上架的產(chǎn)品中，數(shù)據(jù)工具已和數(shù)據(jù)產(chǎn)品、數(shù)據(jù)服務(wù)成為三大主類。“智能化的數(shù)據(jù)工具能大大降低語料庫建設(shè)的技術(shù)門檻，吸引更多參與者。”杭州市數(shù)據(jù)集團(tuán)數(shù)據(jù)產(chǎn)業(yè)事業(yè)部副總經(jīng)理張凱說。

　　面對這場未來之爭，杭州還在持續(xù)培育生態(tài)，比如引進(jìn)更多數(shù)據(jù)標(biāo)注企業(yè)，建設(shè)語料庫智能化標(biāo)注基地、組建產(chǎn)業(yè)聯(lián)盟等。

　　有業(yè)內(nèi)人士指出，過去的標(biāo)注產(chǎn)業(yè)偏勞動密集型，杭州的人力成本相對較高，并不占優(yōu)。如今，標(biāo)注產(chǎn)業(yè)的核心競爭力已轉(zhuǎn)向AI賦能、專業(yè)知識支撐與產(chǎn)業(yè)生態(tài)加持，杭州在成本—效率比方面的優(yōu)勢就凸顯了。

　　“我們希望更多主體參與進(jìn)來。”杭州市數(shù)據(jù)局相關(guān)負(fù)責(zé)人介紹，杭州已推出系列扶持政策，比如設(shè)置“中國數(shù)谷”專項(xiàng)資金，在語料庫開發(fā)、數(shù)據(jù)服務(wù)等方面給予資金扶持，對多模態(tài)語料庫最高可給予200萬元補(bǔ)助。

　　杭州語料庫，值得期待。

繼續(xù)閱讀：

星空人工智能技術(shù)網(wǎng) 倡導(dǎo)尊重與保護(hù)知識產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)等問題，煩請30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至1851688011@qq.com我們將及時溝通與處理。！：首頁 > 大數(shù)據(jù) » 數(shù)據(jù)是“未來的石油”，怎樣更快實(shí)現(xiàn)資源化價值化—— 杭州語料庫：給AI大模型“喂好料”

99热综合福利导航,久久66日韩,91一二区少妇,久久产国视频,日韩久久久五月精品八区,丰满狐狸精在线电影,一区婷婷久久,日韩欧美另类在线,欧美中文字幕区

星空人工智能技術(shù)網(wǎng)

數(shù)據(jù)是“未來的石油”，怎樣更快實(shí)現(xiàn)資源化價值化—— 杭州語料庫：給AI大模型“喂好料”

相關(guān)推薦