不卡久草av91去色色|黄色A级片视频毛片www|欧美国产午夜福利|看看欧美大片靠逼逼|蜜乳AV影视一级久久|国产无码美女优优色社区|国产精品中文字幕二区|69国产精品成人无码|国产精品黄色爱情一级片|国产精品在线偷拍

人民日報(bào)出版社主管 人民周刊雜志社主辦

010-65363526rmzk001@163.com

中文高質(zhì)量數(shù)據(jù)集加速建設(shè)

大模型如何更懂“中國話”

本報(bào)記者 王云杉    2025-12-25 09:09:42    人民日報(bào)

“過馬路時(shí),你要注意看車!”

“我計(jì)劃明天去車展看車。”

這兩句話里的“看車”是一個(gè)意思嗎?相信不少人要會(huì)心一笑,表面上看是同一個(gè)詞組,但其含義因語境不同發(fā)生了變化。

這就是中文里常見的“一詞多義”現(xiàn)象。人工智能大模型是一種與人類語言密切相關(guān)的技術(shù),要讓大模型深刻理解這一現(xiàn)象,離不開中文數(shù)據(jù)的持續(xù)供給。

目前,國內(nèi)多數(shù)模型訓(xùn)練使用的數(shù)據(jù),中文數(shù)據(jù)占比已經(jīng)超過60%,有的模型達(dá)到80%。大模型訓(xùn)練中,中文數(shù)據(jù)占比提升有何意義?中文高質(zhì)量數(shù)據(jù)為何持續(xù)增加?如何進(jìn)一步增加中文數(shù)據(jù)的開發(fā)與供給?記者進(jìn)行了采訪。

數(shù)據(jù)就像大模型的“知識(shí)教材”

不同語言的數(shù)據(jù)對大模型性能有怎樣的影響?“數(shù)據(jù)就像大模型的‘知識(shí)教材’,教材的語言屬性不同,會(huì)對模型的知識(shí)體系產(chǎn)生不同影響。”清華大學(xué)計(jì)算社會(huì)科學(xué)與國家治理實(shí)驗(yàn)室執(zhí)行主任、教授孟慶國表示。

從知識(shí)來源看,過去我國大模型常面臨“數(shù)據(jù)依賴”風(fēng)險(xiǎn)——英文數(shù)據(jù)在全球互聯(lián)網(wǎng)的占比較高,如前沿科技論文、行業(yè)標(biāo)準(zhǔn)、文化典籍等多以英文呈現(xiàn),全球高質(zhì)量標(biāo)注數(shù)據(jù)也多以英文為主。

“語言類大模型一般需要遵循一定的語言習(xí)慣。”工業(yè)和信息化部信息通信經(jīng)濟(jì)專家委員會(huì)委員盤和林認(rèn)為,中文數(shù)據(jù)占比提高,既方便了用戶理解其輸出結(jié)果,又可以保障和提升我國在大模型上的研發(fā)能力。

“若中文數(shù)據(jù)占比低,模型在關(guān)鍵技術(shù)迭代中易受‘數(shù)據(jù)授權(quán)限制’‘更新延遲’等影響。”孟慶國說,中文數(shù)據(jù)占比提高,助力我國在“數(shù)據(jù)安全”“技術(shù)自主”上邁出關(guān)鍵步伐,有利于我國掌握大模型發(fā)展主動(dòng)權(quán)。

“中文數(shù)據(jù)中獨(dú)有的文化習(xí)慣、隱喻表達(dá)、政策術(shù)語等在英文數(shù)據(jù)中難以得到體現(xiàn)。模型長期學(xué)習(xí)英文數(shù)據(jù),所形成的‘英文式認(rèn)知邏輯’,在理解中文特有的思維方式時(shí)容易出現(xiàn)偏差。”科大訊飛消費(fèi)者AI交互業(yè)務(wù)部總經(jīng)理趙艷軍介紹,中文數(shù)據(jù)比重的提升,增強(qiáng)了大模型對中華文化及中國場景的理解能力。比如中醫(yī)問診時(shí),“上火”“濕氣”等概念需要中文語境才能準(zhǔn)確推理。

從知識(shí)傳承看,中文數(shù)據(jù)承載著我國數(shù)千年的文化積累,中文數(shù)據(jù)占比提高,能讓大模型推動(dòng)中華文化的數(shù)字化傳播。“中文數(shù)據(jù)占比高的模型能講解‘文言文虛詞用法’‘詩詞平仄規(guī)律’等。比如,在解釋‘之乎者也’時(shí),結(jié)合《論語》《孟子》等中文典籍案例,讓傳統(tǒng)文化教育更生動(dòng)。”孟慶國說。

中文高質(zhì)量數(shù)據(jù)供給能力不斷增強(qiáng)

中文普通數(shù)據(jù)和中文高質(zhì)量數(shù)據(jù)有何區(qū)別?普通數(shù)據(jù)多為未經(jīng)審核的網(wǎng)絡(luò)文本、非專業(yè)內(nèi)容,易出現(xiàn)事實(shí)錯(cuò)誤或概念混淆。而高質(zhì)量數(shù)據(jù)需經(jīng)過“事實(shí)核查、專業(yè)審核”,語義準(zhǔn)確且來源可追溯。

要理解中文高質(zhì)量數(shù)據(jù)的重要性,可從醫(yī)療診斷這一專業(yè)場景講起。今年8月,中文臨床醫(yī)學(xué)知識(shí)圖譜“磐醫(yī)知識(shí)圖譜”在浙江臺(tái)州發(fā)布。“當(dāng)前,一些大模型學(xué)習(xí)的醫(yī)學(xué)知識(shí),來源于互聯(lián)網(wǎng)公開數(shù)據(jù),而這些公開數(shù)據(jù),有的不嚴(yán)謹(jǐn)、有的存在矛盾、有的更新滯后,這些情況都會(huì)對大模型生成的結(jié)果產(chǎn)生負(fù)面影響。”浙江省全省醫(yī)療智能決策重點(diǎn)實(shí)驗(yàn)室主任林輝表示,“磐醫(yī)知識(shí)圖譜”中的數(shù)據(jù)均由醫(yī)學(xué)專家審核,每個(gè)知識(shí)點(diǎn)都有明確來源,且動(dòng)態(tài)更新醫(yī)學(xué)進(jìn)展。

大模型性能的提升,體現(xiàn)了中文高質(zhì)量數(shù)據(jù)的價(jià)值。得益于一系列因素的合力助推,中文高質(zhì)量數(shù)據(jù)的供給能力不斷增強(qiáng)——

政策有支持。從《“數(shù)據(jù)要素×”三年行動(dòng)計(jì)劃(2024—2026年)》提出“打造高質(zhì)量人工智能大模型訓(xùn)練數(shù)據(jù)集”,到國家數(shù)據(jù)局布局建設(shè)數(shù)據(jù)標(biāo)注基地,政策利好下,大量中文高質(zhì)量數(shù)據(jù)集加速建設(shè)。

技術(shù)有突破。中文數(shù)據(jù)因“歧義多、語境依賴強(qiáng)”,早期標(biāo)注成本是英文數(shù)據(jù)的1.8—2.5倍,隨著技術(shù)不斷進(jìn)步,開發(fā)難度也在降低。例如,國內(nèi)某“中文語義標(biāo)注系統(tǒng)”已可自動(dòng)區(qū)分“打毛衣”“打電話”中“打”的含義,讓標(biāo)注效率提升了3倍,且成本有效降低。

行業(yè)有共識(shí)。國內(nèi)垂直場景對“中文適配”大模型的需求不斷升溫,推動(dòng)中文數(shù)據(jù)從“輔助補(bǔ)充”變?yōu)?ldquo;核心資源”,更多企業(yè)參與到中文數(shù)據(jù)的開發(fā)之中。如中國移動(dòng)已建成覆蓋超30個(gè)行業(yè)、超3500TB(太字節(jié))的通用高質(zhì)量數(shù)據(jù)集。

協(xié)同建標(biāo)準(zhǔn),細(xì)分多場景

Token(通常所說的“詞元”)是處理文本的最小數(shù)據(jù)單元。數(shù)據(jù)顯示,2024年初,我國日均Token的消耗量為1000億,截至今年9月底,我國日均Token消耗量已突破40萬億。這些數(shù)字背后,是中文數(shù)據(jù)資源的快速積累和價(jià)值釋放。

如何進(jìn)一步增強(qiáng)中文數(shù)據(jù)的開發(fā)和供給?專家學(xué)者帶來了思考和建議。

首先是建標(biāo)準(zhǔn)?,F(xiàn)有的中文數(shù)據(jù)中,重復(fù)的內(nèi)容多、質(zhì)量高的少,尤其是在醫(yī)療、工業(yè)等垂直領(lǐng)域,高質(zhì)量數(shù)據(jù)更是稀缺。比如醫(yī)療數(shù)據(jù),有的醫(yī)院記錄病歷只寫“發(fā)燒”,有的會(huì)寫“發(fā)燒38.5攝氏度、伴咳嗽2天”,若無標(biāo)準(zhǔn)的“尺子”判斷數(shù)據(jù)質(zhì)量,進(jìn)一步的開發(fā)難以推進(jìn)。

“明確了不同領(lǐng)域的中文標(biāo)注標(biāo)準(zhǔn)后,才更有利于建設(shè)和完善評價(jià)、激勵(lì)機(jī)制。”孟慶國認(rèn)為,應(yīng)加快研究制定中文數(shù)據(jù)分級標(biāo)準(zhǔn),從而釋放中文數(shù)據(jù)的供給活力。

其次是強(qiáng)技術(shù)。高質(zhì)量數(shù)據(jù)集的建設(shè)過程中仍不可避免會(huì)遇到大量數(shù)據(jù)孤島和合規(guī)難題,比如,不同機(jī)構(gòu)的數(shù)據(jù)因?yàn)殡[私安全等合規(guī)要求,難以跨域流通,導(dǎo)致各機(jī)構(gòu)重復(fù)開展數(shù)據(jù)標(biāo)注,既浪費(fèi)資源,又無法形成規(guī)模效應(yīng)。

“可推廣應(yīng)用新一代標(biāo)注技術(shù),在原始數(shù)據(jù)不出域且保證隱私安全的條件下,完成跨機(jī)構(gòu)協(xié)同標(biāo)注,從而整合多機(jī)構(gòu)力量,避免重復(fù)勞動(dòng)。”趙艷軍說。

此外要補(bǔ)場景。我國產(chǎn)業(yè)體系完備,其廣度和深度決定了需要更多細(xì)分場景的中文數(shù)據(jù)。“比如,在元宇宙等新興場景中,中文數(shù)據(jù)使用量僅為英文的1/5;又如,中醫(yī)、非遺等傳統(tǒng)場景數(shù)字化程度低,大量寶貴信息尚未轉(zhuǎn)化為可用數(shù)據(jù)資源。”孟慶國表示,可推動(dòng)政產(chǎn)學(xué)研用協(xié)同,專項(xiàng)采集各種垂直場景中文數(shù)據(jù),激活產(chǎn)業(yè)應(yīng)用。

 

推進(jìn)文化和科技融合

“十五五”規(guī)劃建議提出,“推進(jìn)文化和科技融合”。探索文化和科技融合的有效機(jī)制,需要用互聯(lián)網(wǎng)思維和信息技術(shù)改進(jìn)文化創(chuàng)作生產(chǎn)流程,推動(dòng)文化建設(shè)數(shù)智化賦能、信息化轉(zhuǎn)型。

“文化IP+科技體驗(yàn)”,重塑文旅產(chǎn)業(yè)生態(tài)。通過線上數(shù)字平臺(tái)與線下沉浸場景的結(jié)合,多地打造數(shù)字文旅空間、開發(fā)“旅游+智能體”新應(yīng)用等,實(shí)現(xiàn)文化和科技雙向賦能。“文化創(chuàng)作+人工智能”,拓展產(chǎn)業(yè)融合場景。當(dāng)前,以大模型為代表的AI技術(shù),與影視、文博等領(lǐng)域深度融合,催生出AI短劇、博物館數(shù)字文創(chuàng)等新產(chǎn)品,不僅豐富了文化表達(dá)方式,也培育出更多文化消費(fèi)新場景。“特色文化+數(shù)字技術(shù)”,助力鄉(xiāng)村全面振興。通過數(shù)字技術(shù),將地標(biāo)農(nóng)產(chǎn)品、鄉(xiāng)村非遺技藝融入微短劇等內(nèi)容創(chuàng)作,能夠進(jìn)一步提升特色文化產(chǎn)品的創(chuàng)意能力和表現(xiàn)力,為鄉(xiāng)村全面振興注入新動(dòng)能。

——北京大學(xué)文化產(chǎn)業(yè)研究院學(xué)術(shù)委員會(huì)主任  陳少峰

 

《人民日報(bào)》(2025年12月25日 第 07 版)

(責(zé)編:張若涵)

相關(guān)熱詞搜索:

上一篇:加快制造業(yè)中試平臺(tái)高水平建設(shè)
下一篇:最后一頁

人民周刊網(wǎng)版權(quán)及免責(zé)聲明:

1.凡本網(wǎng)注明“來源:人民周刊網(wǎng)”或“來源:人民周刊”的所有作品,版權(quán)均屬于人民周刊網(wǎng)(本網(wǎng)另有聲明的除外);未經(jīng)本網(wǎng)授權(quán),任何單位及個(gè)人不得轉(zhuǎn)載、摘編或以其它方式使用上述作品;已經(jīng)與本網(wǎng)簽署相關(guān)授權(quán)使用協(xié)議的單位及個(gè)人,應(yīng)注意作品中是否有相應(yīng)的授權(quán)使用限制聲明,不得違反限制聲明,且在授權(quán)范圍內(nèi)使用時(shí)應(yīng)注明“來源:人民周刊網(wǎng)”或“來源:人民周刊”。違反前述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任。

2.本網(wǎng)所有的圖片作品中,即使注明“來源:人民周刊網(wǎng)”及/或標(biāo)有“人民周刊網(wǎng)(m.xeap.cn)”“人民周刊”水印,但并不代表本網(wǎng)對該等圖片作品享有許可他人使用的權(quán)利;已經(jīng)與本網(wǎng)簽署相關(guān)授權(quán)使用協(xié)議的單位及個(gè)人,僅有權(quán)在授權(quán)范圍內(nèi)使用圖片中明確注明“人民周刊網(wǎng)記者XXX攝”或“人民周刊記者XXX攝”的圖片作品,否則,一切不利后果自行承擔(dān)。

3.凡本網(wǎng)注明“來源:XXX(非人民周刊網(wǎng)或人民周刊)”的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)。

4.如因作品內(nèi)容、版權(quán)和其它問題需要同本網(wǎng)聯(lián)系的,請?jiān)?0日內(nèi)進(jìn)行。

※ 聯(lián)系電話:010-65363526 郵箱:rmzk001@163.com