语言数据是信息时代的生产要素

语言数据是信息时代的生产要素
好像土地之于农人,机器之于工人,计算机经过对言语数据的加工学习能够获得常识与智能,从而去发明人类的新生活——言语数据是信息年代的出产要素作者:李宇明(北京言语大学言语资源高精尖立异中心主任兼首席科学家)  跟着5G、言语智能和物联网的快速开展,人类社会正在发生划年代的改变。人类的知道也应跟着年代前进而不断更新,从头审视已然,及时预判将然。言语终究是一种什么现象?言语学终究怎么开展?便是需求审视、需求预判的。  1.?言语数据是出产要素????  出产要素与出产力开展水平和经济制度密切相关。数据具有出产要素性质,只要信息化开展到必定阶段才干成为实际,才干被人知道。  早在2017年12月8日,习近平总书记就提出“要构建以数据为要害要素的数字经济”。之后,在2018年4月“首届数字我国建造峰会”(福州)、2018年5月我国国际大数据工业博览会、2018年9月江苏互联网大会,以及2019年12月第六届我国国际大数据大会上,都突出了“数据是数字经济要害要素”的论题。特别是在2018江苏互联网大会上,工业和信息化部总经济师王新哲着重,“以数据作为要害出产要素的数字经济正在成为继农业经济、工业经济之后的新式经济形状”。至此,人们获得了两个根本知道:1.数字经济是继农业经济、工业经济之后的新式经济形状;2.数字经济的要害出产要素是数据。  党的十九届四中全会提出,“健全劳作、本钱、土地、常识、技能、办理、数据等出产要素由商场点评奉献、按奉献决议酬劳的机制。”这是对数据具有出产要素性质这一知道的总结,把数据与劳作、本钱、土地、常识、技能、办理并列为第七大出产要素,能够经过商场按奉献取酬。这是严重的理论立异,表现着对信息化社会的实质知道,是在数字经济快速开展布景下经济制度的与时俱进。  一般以为,数据是信息的表现形式和载体。跟着科技与社会的前进,数据的内在和外延都可能会发生改变。但有一点现在是能够必定的,那便是大都数据都是“言语数据”。其一,言语(包含文字)是人类信息最为重要的载体,大约80%的信息是用言语负载的。没有用言语负载的信息,也常常需求言语来协助阐释,比方图像、雕塑、音乐、服装、修建等艺术。其二,言语资源自身也是言语数据。言语数据是最为重要的数据,应当归于“出产要素”领域。  言语数据是信息年代的出产要素,好像土地之于农人,机器之于工人,计算机经过对言语数据的加工学习能够获得常识与智能,从而去发明人类的新生活。跟着言语智能的开展,言语数据的出产要素特点定会越来越明晰。6月16日,国际智能大会期间,智能机器人指挥乐团演奏曲目。新华社发  2.言语数据归入数字经济视界????  20世纪50年代,人类就开端进行机器翻译的测验,练习机器进行言语信息处理的进程由此开端。中文信息处理经过字处理、词处理阶段的艰难行进,已顺畅步入言语处理阶段,尽力让计算机具有言语智能。信息检索、主动翻译、机器写作、人机对话等领域的快速开展,得益于言语大数据的集聚与运用。  言语是人类独有的符号体系,这是言语学的经典知道。可是跟着言语智能的开展,言语将为人类和机器这两个“物种”一同享有。现在重要的言语外交,大都都是“人-机-机-人”的外交,是“人-机”“机-机”“机-人”的组成,疫情期间的云端会议、线上课程、网络购物、网上就医等,都归于这种外交形式。如果与“人形机器人”对话,机器具有言语这一现象,就会看得更为显着。跟着物联网的开展,只要在需求驱动的目的物上植入“言语感应器”,人就能够经过具有言语智能的机器与万物相关,与万物对话,使万物具有“言语智能”。  2018年12月举行的中心经济工作会议从头界说了基础设施建造,把5G、人工智能、工业互联网、物联网界说为“新式基础设施建造”,简称“新基建”。一年多来,新基建的内容不断丰富,相貌逐步明晰。新基建不仅是信息网络等的基础设施建造,还让基建物具有“智能”,特别是言语智能,以便完成人与万物的相关对话。  与信息相关的工业,有许多是言语工业。在较高的工业化年代,据瑞士言语经济学家的研讨,言语工业为社会GDP的奉献挨近10%。信息化年代,数据能够成为出产要素的年代,言语工业的经济能量会大幅提高,能够猜测,没有言语工业的昌盛,开展不出昌盛的数字经济。  未来,也许是不久的未来,言语数据将成为重要的出产要素,言语将进入重要的出产力领域。集聚、办理言语数据并使其发挥最大效果,将成为开展出产的重要任务,言语工业、言语工作将成为数字经济的一方重要支柱。  3.?言语与物理、社会、信息“三元空间”????  人类构成之前,国际便是自然界,仅仅一个“物理空间”。人类的构成与开展,便在物理空间中生长出一个“社会空间”。言语与社会空间一同生长,大约距今3到5万年前的旧石器年代,人类已有较老练的口头言语,白话的载体是声波。大约距今5000至5500年前,文字在两河流域发生,言语有了新载体光波。20世纪20年代,播送、电视相继呈现,有声媒体使言语有了第三大载体电波。20世纪末,互联网商业化,言语信息处理也快速前进,人类开端建构一个新空间——“信息空间”,也便是常说的“虚拟空间”“网络空间”。潘云鹤院士2019年在题为《人工智能2.0与数字经济》的陈述中,敏锐指出人类正由传统的“物理空间”“人类社会”二元空间,逐步进入了“物理空间”“人类社会”“信息空间”所构成的三元空间。  信息空间是一个正在开展的空间,其结构和运转机理还在被逐步知道、逐步完善中。但有一点相对清晰,那便是信息空间主要是被数字化了的言语空间。言语曩昔是在社会空间中运用,现在是在社会空间、信息空间这两个空间中运用。跟着物联网、言语智能的开展和智能化新基建的施行,言语将跨入物理空间,在人类的三元空间中运用。言语在人类出产活动的效果将更为明显。  言语现已不仅仅是人文现象,它是“具有声光电三大前言、为人类与机器两个‘物种’同享、将运用在社会、信息、物理三元空间中”的事物。言语学作为“研讨言语及其相关问题”的科学,也不能局限于“言语文学”,而应当是横跨文理工的归纳学科。  2017年10月,美国希拉姆学院提出“新文科”的教育理念,对其29个专业重组,把新技能融入哲学、文学、言语等课程中。这反映了学科穿插交融的年代大趋势。我国也在活跃推动“新工科、新医科、新农科、新文科”建造。依据言语的性质,就应当按照“新文科”的思路开展言语学。归纳、穿插、融入新技能的言语学,才干够习惯“数据是数字经济的要害出产要素”的年代出题和经济制度,促进常识经济的开展,推动智能化新基建的开展。当然,新基建和常识经济的策划者,也应当充沛注重言语和言语学,获取言语学的科学盈利。  《光明日报》( 2020年07月04日?12版)