【来源:人民政协报】
数字中文建设不是简单地利用数字技术将所有或部分中文材料一股脑地进行数字化处理,主要是进行新技术条件下有针对性的信息建构与处理。
近日,教育部、国家语委、中央网信办印发《关于加强数字中文建设 推进语言文字信息化发展的意见》,提出到2027年,国家数字中文建设行动取得重要成效,语言文字数据要素价值有效释放。到2035年,中文在全球数字空间、网络空间以及生成式人工智能等关键应用场景中的使用占比显著提高;语言文字信息化有力支撑国家语言能力建设、语言文字事业和经济社会高质量发展,整体水平位居世界前列。
随着电子计算机和互联网技术的发展与普及,数字技术在越来越多的领域得到应用,成为推动经济、教育、科技和文化等事业不断创新发展的重要力量。语言文字作为人类智能开发、信息交流、思想表达、文明互鉴和对外交往的基础性工具,其信息化建设直接关涉国家主权、安全、发展大局及社会大众的学习、工作和生活。以数字技术赋能的数字中文建设有助于全面提升语言文字信息化水平。因此,加强数字中文建设就成为当前乃至今后一段时间内的重要任务。
数字中文建设需要语言文字基础研究与应用研究提供支撑。数字中文建设不是简单地利用数字技术将所有或部分中文材料一股脑地进行数字化处理,主要是进行新技术条件下有针对性的信息建构与处理。哪些中文材料可作为数据、如何挖掘数据、如何进行数据标注以及建设怎样的数据平台、实现什么样的数据共享共用等,需要通盘考虑、充分评估、科学设计、精心打造,而且为了更好地适应语言文字信息化建设,服务国家发展战略,数字中文建设的规范性和标准性需要有充分的保障,这就不可避免地需要深化语言文字的基础研究和应用研究。通过系统深入的研究,一方面为相关规范标准的制定提供理论与实践方面的充分理据,另一方面为数据挖掘、分析和处理奠定学理基础,提供语言学方面的专业指导。
数字中文建设需要高等院校提供技术和人才支持。数字中文建设的本质是对中文数据进行数字技术赋能。这项工作对人才提出了新的更高要求,一方面要受过良好的语言学训练,具备较高的语言文字学素养,可以进行语言数据的切分、标注、分析等,另一方面,要有计算机、人工智能、大数据等方面的专业知识与技能,会编写代码,能进行数据处理等。当下,这样的复合型人才非常紧缺。高等院校要针对现实需要,创新人才培养模式,加强语言学科与计算机、人工智能及大数据等学科的交叉融合,积极探索复合型人才培养路径,创造条件,使高层次复合型人才迅速成长,以满足数字中文建设的迫切需要。
数字中文建设要加强行业和部门合作,协同推进。当前,语言文字信息技术的应用领域日益扩大,跨学科、跨行业的使用已成常态,而且还在不断向纵深发展。这就使得数字中文建设不能单单局限于高等院校和科研机构。高等院校和科研机构要引领、带动企事业单位和社会组织等参与进来,让更多的社会力量发挥各自优势和特点,要针对自然语言处理、生成式人工智能、语言的机器翻译及优秀文化成果的创新性转化等课题的现实需求,科学合理地布局实施数字中文建设。在条件成熟的情况下,共建“数字中文”联盟,形成语言文字信息技术融合创新、共建共享的机制,从而提升语言文字信息技术的理论研究水平、产业应用能力和社会服务效能。
加强数字中文建设,旨在提升我国语言文字信息化水平,推进语言文字与信息技术的深度融合,充分发掘和释放语言文字的数据要素价值。当前,生成式人工智能和自然语言处理技术勃兴,且应用领域日益扩大,使用需求不断攀升,大语言模型在其中扮演着极为重要的角色,而支撑大语言模型运作的是丰富的文本数据。因此,数据挖掘、整合及数据平台的建设成为重中之重。国家建设语言文字大数据中心,并通过推动基础性语言资源建设,带动大规模中文语料库及民族语言文字语料库、手语盲文语料库、行业领域语料库、语言监测动态语料库等的建设,即是着眼于数字技术赋能语言文字开辟的广阔前景而作的重要部署,相信这些工作将会为以中国式现代化全面推进强国建设和民族复兴伟业作出新的更大贡献。
(作者系全国政协委员、中国社会科学院语言研究所研究员)
作者:王灿龙
文字编辑:司晋丽
新媒体编辑:叶瑶楷(实习)
审核:李木元
声明:此文版权归原作者所有,若有来源错误或者侵犯您的合法权益,您可通过邮箱与我们取得联系,我们将及时进行处理。邮箱地址:jpbl@jp.jiupainews.com
相关文章:
全国政协委员王灿龙:以数字中文建设有效释放语言文字数据要素价值05-06
著名导演王晶爆料:刘德华的女儿会5种语言05-05
时政“留声机”科技好“young”的05-05
AI周报|巴菲特称不会将全部赌注押在AI上;苹果重组AI部门05-05
【甘快看】“五一”特刊·致敬工匠丨“机车心脏医师”潘春望:毫厘之间护航钢铁动脉05-02
永生木棉花:艺博院打造院藏红色经典美术作品数字艺术展05-02
准确把握阶段性要求,科学谋划“十五五”05-02