齊魯網(wǎng)·閃電新聞4月1日訊 近日,教育部、國家語委、中央網(wǎng)信辦共同印發(fā)了《關(guān)于加強數(shù)字中文建設(shè) 推進語言文字信息化發(fā)展的意見》,對加快推進以信息化促進語言文字事業(yè)高質(zhì)量發(fā)展,以數(shù)字化賦能語言文字更好服務(wù)現(xiàn)代化建設(shè)等,作出了全面部署。教育部在3月31日舉行的新聞發(fā)布會上對文件進行全面解讀,介紹了全面推進語言文字信息化發(fā)展有關(guān)情況。
教育部語言文字信息管理司司長劉培俊在介紹推進語言文字信息化發(fā)展和數(shù)字中文建設(shè)有關(guān)情況時表示,黨的十八大以來,我國語言文字信息化建設(shè)持續(xù)加強,有力服務(wù)科技自立自強。大幅度擴充語言文字信息處理技術(shù)標準。會同有關(guān)部門推動研制并發(fā)布了《信息技術(shù) 中文編碼字符集》等國家通用語言文字和民族語言文字信息化規(guī)范標準100多項,為自然語言處理技術(shù)在人工智能、數(shù)字產(chǎn)品和信息產(chǎn)業(yè)領(lǐng)域的應(yīng)用創(chuàng)新奠定規(guī)范基礎(chǔ)。
清華大學、北京大學、哈爾濱工業(yè)大學等開展了語言文字信息技術(shù)的深度研發(fā),促進中文信息互聯(lián)互通。其中,北京大學王選計算機研究所建成了中華精品字庫。大規(guī)模構(gòu)建語言資源體系。建成了世界最大規(guī)模的語言資源庫和中國語言資源知識圖譜,多模態(tài)集成120多種語言和方言資源。大領(lǐng)域布局大語言模型技術(shù)應(yīng)用,聚焦關(guān)鍵領(lǐng)域的需求,試點建設(shè)了一批自主安全可控的大語言模型。其中,北京師范大學古漢語大語言模型等已上線。
高水平開展普通話水平測試,全面實現(xiàn)從人工到智能的普通話測試方式轉(zhuǎn)變,制發(fā)電子證書9000多萬份。廣東省建成全國首個普通話水平測試智慧考場。高標準建設(shè)語言學習資源。開通國家智慧教育平臺語言服務(wù)欄目,建成國家通用語言文字學習平臺,匯聚8000多項學習資源,打造中華經(jīng)典資源庫、中小學語文示范誦讀庫等。高起點規(guī)范數(shù)字空間語言文字,發(fā)布《信息技術(shù)產(chǎn)品國家通用語言文字使用管理規(guī)定》,規(guī)范信息技術(shù)產(chǎn)品研發(fā),會同有關(guān)部門開展“清朗·規(guī)范網(wǎng)絡(luò)語言文字使用”專項行動。
多領(lǐng)域推動語言文化資源共建共享。建成國家語委媒體語言語料庫、冬奧會多語言術(shù)語庫、公共服務(wù)領(lǐng)域譯寫規(guī)范術(shù)語庫、規(guī)范標準課程庫等30多項,多渠道打造示范平臺。上線國家語言資源服務(wù)平臺、中國語言文字數(shù)字博物館、中國語言資源博物館數(shù)字展區(qū)等。指導各地各校開展云端學習等課程平臺。多模式推進傳承傳播。數(shù)字賦能讓收藏在博物館的文物活起來,支持聯(lián)合開展古文字數(shù)字化研究,開通甲骨文數(shù)據(jù)平臺,傳承中華優(yōu)秀傳統(tǒng)文化根脈。
數(shù)字賦能讓書寫在古籍里的文字活起來,建成中華思想文化術(shù)語數(shù)據(jù)庫,面向國際傳播1200多條反映中華民族話語體系中最核心最本質(zhì)的思想文化術(shù)語,并與40多個國家和地區(qū)開展多語種數(shù)字版權(quán)合作。已建成集成化、智能化、國際化的全球中文學習平臺,用戶超1600萬人,覆蓋190多個國家和地區(qū),深度化合作建立聯(lián)盟,中文學習聯(lián)盟云服務(wù)平臺提供3萬門在線課程,與中外1600多家機構(gòu)合作,推動實現(xiàn)中文人人、時時、處處可學可用、易學易用。
廣角度支持科研攻關(guān)。發(fā)布漢字簡繁文本智能轉(zhuǎn)換系統(tǒng)、大語言模型評測技術(shù)等百余項科研成果。廣布局設(shè)置科研機構(gòu)。設(shè)立中國語言智能研究中心、多語種信息技術(shù)研究中心、語言技術(shù)與數(shù)字經(jīng)濟研究中心等,形成語言科技研發(fā)方陣。廣聯(lián)動鼓勵成果轉(zhuǎn)化。支持有關(guān)高校聯(lián)合人工智能及信息服務(wù)領(lǐng)域頭部企業(yè),研發(fā)語言翻譯、智能語音、大語言模型等產(chǎn)品。
劉培俊表示,經(jīng)過多年努力,語言文字信息化以應(yīng)用為導向、以服務(wù)為主線,形成了多語種資源廣泛開發(fā)、多方面技術(shù)創(chuàng)新應(yīng)用、多類型主體共同推進、多維度賦能發(fā)揮作用的良好局面,有效服務(wù)經(jīng)濟社會高質(zhì)量發(fā)展。為搶抓大語言模型迭代升級新機遇、助力“人工智能+”新行動、回應(yīng)經(jīng)濟社會發(fā)展新需求,《關(guān)于加強數(shù)字中文建設(shè) 推進語言文字信息化發(fā)展的意見》明確提出,加強數(shù)字中文建設(shè)的理念、政策、行動和項目,將數(shù)字中文建設(shè)作為服務(wù)數(shù)字中國建設(shè)的重要任務(wù)和全面推進語言文字信息化發(fā)展的突出重點,全方位釋放語言文字在經(jīng)濟社會發(fā)展中的數(shù)據(jù)要素價值,著力推進中文數(shù)字化與數(shù)據(jù)中文化,著力推進創(chuàng)新應(yīng)用與規(guī)范安全,著力推進新型中文服務(wù)體系構(gòu)建與語言文字治理體系完善。
《意見》明確兩個發(fā)展階段,有序?qū)崿F(xiàn)2027和2035年語言文字信息化發(fā)展目標。第一步到2027年,是以數(shù)字中文建設(shè)為重點的強基示范階段,形成語言文字信息化推進機制,推動語言文字信息化規(guī)范標準、前沿語言技術(shù)、優(yōu)質(zhì)語言資源、新型語言服務(wù)等基礎(chǔ)支撐能力顯著增強。第二步面向2035年,是全面推進語言文字信息化發(fā)展的深化賦能階段,推動承載中華文化的中文在全球數(shù)字空間、網(wǎng)絡(luò)空間以及生成式人工智能等關(guān)鍵場景中的使用占比和價值引領(lǐng)作用顯著提高,實現(xiàn)我國語言文字信息化整體水平位居世界前列。
《意見》部署三項重大任務(wù),統(tǒng)籌推動技術(shù)創(chuàng)新、體系保障和關(guān)鍵賦能落地見效。創(chuàng)新應(yīng)用自然語言處理、大語言模型、多模態(tài)信息處理、知識圖譜、語料加工等五項前沿技術(shù),重點服務(wù)大語言模型等人工智能技術(shù)創(chuàng)新應(yīng)用“制高點”,夯實國家關(guān)鍵語料基礎(chǔ)設(shè)施“新基建”。系統(tǒng)建設(shè)語言文字規(guī)范標準、資源服務(wù)、人才培養(yǎng)、協(xié)同創(chuàng)新和安全治理五大保障體系,重點提升語言文字信息化的基礎(chǔ)能力。統(tǒng)籌實施數(shù)字中文服務(wù)教育發(fā)展、助力科技創(chuàng)新、賦能文化傳承、推動產(chǎn)業(yè)升級、促進社會進步等五大賦能行動,重點推進語言技術(shù)與關(guān)鍵領(lǐng)域需求深度融合應(yīng)用。