当前位置: 首页 > 科技资讯 >

突破自然语言处理瓶颈 需大数据与富知识双轮驱动 

时间:2020-01-07 02:48:00
国家科学技术委员会今年发布的八项国家人工智能战略中,有三项与自然语言处理有关。最近,北京致远人工智能研究所首席科学家孙茂松说,自然语言处理是全球人工智能战略的关

国家科学技术委员会今年发布的八项国家人工智能战略中,有三项与自然语言处理有关。最近,北京致远人工智能研究所首席科学家孙茂松说,自然语言处理是全球人工智能战略的关键。然而,目前与自然语言处理相关的技术还远远不成熟,许多问题需要突破。那么,目前的解决方案是什么?

学术领域被称为自然语言,实际上是指人类语言。自然语言处理可以说是人工智能出现之前的一个重要研究对象。孙茂松说。

语言是人类独立于动物的重要特征之一。但是我们不应该把自己看得太好,更不要说认为人类的语言是一个模板,动物的语言也是非常强大的,而且并不缺乏超越我们的语言。例如孙茂松指出,鲸鱼有三百亿神经细胞和二百多亿人,他们自己的神经系统比我们的更发达,语言极其丰富,而鱼在海洋光线差的情况下,可以进行很强的交流,到目前为止,人类对其语言的理解是非常有限的。虽然动物的语言与人类的语言有很大的不同,但共同性是语言是两个人之间的桥梁,桥梁的作用是研究的关键。

20世纪60年代,机器翻译系统出现了。相关部门对圣经中的句子进行了测试。句子的直译意思是思想是愿意的,但身体是脆弱的。但当用当时的机器翻译成俄语,再用俄语系统翻译成英语时,它就变成了伏特加很好,但肉腐烂了,酒也坏了。今天,用谷歌翻译系统把这个英文句子翻译成中文基本上可以保持语义学不变,这是一个了不起的进步。

然而,大数据驱动的自然语言处理的瓶颈在于,一位著名的机器翻译专家提出了机器翻译中的笔问题,即笔有两种含义:钢笔和栅栏,谷歌和微软的机器翻译都不能根据不同的上下文将其翻译成正确的含义。如果你看过这句话,机器可能会准确地翻译它,如果你没有看到它,你可能需要积累知识。大数据驱动的自然语言处理有很大的局限性,即利用知识处理问题的能力几乎没有。孙茂松指出。

近年来,自然语言处理受到全世界学术界的高度重视。美国国防高级研究计划局(darpa)在基于知识的语言智能方面投入了大量资金,包括数据知识和行为、低资源语言处理、知识引导模式推理、自动知识获取等。

据报道,目前,中国在大数据驱动的深度学习方面取得了显著进展,近年来在这一水平上取得了许多重要进展。一些专家指出,未来需要通过知识驱动的突破来实现自然语言处理。孙茂松认为,大数据和知识丰富的双轮驱动可能成为解决这一问题的关键,即在大数据驱动的基础上加入丰富的知识驱动,两者的结合是必不可少的。他强调,知识是系统性的,而不是破碎的。

因此,北京智源人工智能研究院自然语言处理项目组将致力于解决多类型知识资源建设、深入理解自然语言、可控自然语言生成、知识融合机器翻译、智能语言学习、对话系统等问题。