自然语言中最难传递的信息是什么?
作为语言信息处理技术的研究方向,自然语言处理一直是人工智能领域的核心课题之一。在日常生活中,我们有时会遇到一些模棱两可或令人费解的句子实例,让人直观地理解为计算机理解人类语言太难了。本文从自然语言理解的本质和关键,以及自然语言理解的特点和难点四个方面对“什么是NLP的难点”进行了通俗易懂的介绍。
本文总字数6214,阅读时间约21分钟。
作者简介
刘志远是清华大学计算机科学系的副教授。他的研究兴趣包括自然语言处理、知识地图和语义计算、社会计算和计算社会科学。
第一,自然语言理解的本质是结构预测。
要搞清楚自然语言理解的难度,首先要看自然语言理解任务的性质。作为人工智能关注的三类信息(语音、视觉和语言)之一,自然语言文本是一种典型的非结构化数据,由一系列语言符号(如汉字)组成。为了理解自然语言的表意意义,需要建立对非结构化文本背后的语义结构的预测。所以自然语言理解的很多任务,包括但不限于中文分词、词性标注、命名实体识别、* * * *指代消解、句法分析、语义角色标注等。,都是关于预测文本序列背后的特定语义结构。比如中文分词,就是在没有空格分隔的句子上加上空格或者其他符号,标出句子中每个词的边界,相当于给这个文本序列加上一些结构语义信息。