自然语言处理(NLP)被誉为“人工智能皇冠上的明珠”,是计算机科学领域与人工智能领域中的一个重要方向,有着广阔的应用空间。自然语言理解和自然语言生成十分困难,其根本原因在于自然语言文本和对话的各个层次广泛存在各种各样的歧义性或多义性。有效学习词汇表示和抽取信息、关系在其中有着重要地位。
近日,中国科学院自动化研究所自然语言处理组在多模态词汇表示模型、大规模关系抽取、时间检测和事件识别方面取得一系列进展。
1.基于动态融合方法的多模态词汇表示模型
与基于文本的模型相比,多模态模型可以学习到更好的词汇表示。以往的多模态词汇表示模型平等地对待不同模态的信息,但不同模态的信息对不同类型的词汇的贡献程度是不同的,如在抽象词“快乐”中,文本模态对词义的贡献要大于感知觉模态的贡献;而在具象词“桌子”中,文本和感知觉模态都会极大地影响词汇的含义。
据此,自动化所王少楠、张家俊、宗成庆等科研人员提出了三种动态融合机制,分别针对模态、词类和词汇对不同模态赋予不同权重。由于标准答案并不为人所知,该研究提出可以通过间接利用相关或相似词对作为弱监督信号,让模态在学习词汇是否是相关词汇的过程中,自动学习不同模态的权重。该研究在多个词汇相关相似性数据集上进行测试的结果表明,动态融合方法可以极大地提高词汇表示的质量。定性分析显示,该模型可以针对不同类型的词汇赋予不同的权重。
该研究表明,利用计算模型对数据的规律进行挖掘可以帮助认知科学的相关研究。
2.基于人脑成分语义表征的多模态词汇表示和组合模型
已有研究表明,多模态模型在学习词汇表示方面可以得到比单模态模型更好的效果。多模态词汇表示模型指利用视觉、听觉、文本等多种模态的信息去学习词汇的语义向量表示。但“多模态词汇表示中到底编码了什么信息”、“它们在什么方面可以超过单模态的模型”,以及“不同模态的语义组合过程有什么区别和联系”等问题尚未清晰。
由于多模态模型的研究最初是受到人脑概念表征启发而来,王少楠、张家俊、宗成庆等科研人员假设与人脑的词汇表征进行相关性研究来回答上述问题。该研究提出了一种简单的基于人脑成分语义表征的相关性方法。首先通过与人脑成分语义表征进行相关性分析,调查不同类型的词汇表示中蕴含了什么样的信息。基本假设是,如果两个不同语义空间的距离矩阵具有高相关性,那么这两个空间的语义向量编码了相似的信息。因此,结果得到的高相关性意味着在计算模型中更多地编码了这种属性信息。然后,将计算模型得到的词汇语义表征映射到人脑的成分语义表征空间中,去探讨组合模型究竟如何组合不同类型的词汇的属性。为了解释“不同类型的短语组合模型在组合词汇向量的过程中发生了什么”,该研究设计了一种映射方法,以直观地比较不同类型的组合模型。这个方法的基本思想是通过将词汇和短语向量映射到可解释的成分语义空间中,来观察词汇在组合成短语的过程中不同的属性是如何变化的,并以此解释不同类型组合模型的工作机制。
该研究探讨了自然语言理解中最基础的问题,即如何表征词汇的含义,以及如何将词汇的含义进行组合构成更大粒度文本单元的含义。该研究是结合最新的认知心理学的研究成果和自然语言处理任务的初步尝试。
3.基于强化学习的大规模关系抽取
关系抽取是自然语言处理领域的一个重要任务,它致力于从文本句子中抽取关系事实,即关系及其对应的两个实体。传统的有监督关系抽取方法虽然能在关系抽取任务上取得很好的效果,但都依赖人工标注的数据,难以扩展到大规模的场景中。近年来,相关学者提出使用弱监督的方法,利用现有大规模知识库对文本进行自动回标,可较容易得到大规模的弱监督数据。弱监督的数据以“包”为单位,一个实体对的“包”包含了所有同时提及这两个实体的句子,有噪音存在。弱监督的数据中单个句子没有关系标签,而“包”有直接的关系标签。因此,传统的有监督模型无法直接应用到弱监督数据中。
为了突破传统有监督方法无法在弱监督数据中应用的限制,自动化所曾祥荣、何世柱、刘康、赵军等科研人员提出了一种利用强化学习在弱监督数据中进行句子级关系抽取的方法。该方法首先对一个“包”中的所有句子进行关系抽取,然后根据expressed-at-least-once假设用“包”中所有句子所抽取的关系来预测“包”的关系:如果“包”中所有句子的关系都是NA关系,则预测“包”的关系为NA,否则将预测为非NA关系类别中概率最大的那个。将“包”的预测结果与标注结果进行比较,得出奖赏值,利用该奖赏值对句子关系抽取器进行训练。在公开的New York Times数据集的两个不同版本上进行的实验表明,该方法可以有效提升句子关系抽取器的性能。与基线方法相比,该研究提出的方法得到了13.36%的提升。
该研究将强化学习引入到关系抽取任务中,为如何进行大规模的关系抽取提供了新思路,并在自然语言处理的开放式关系抽取、事件抽取等任务中具有很大应用潜力。
4.基于门控多语注意力机制的事件检测
事件检测和识别是信息抽取的一个重要任务,它致力于从非结构化文本中检测出事件触发词并识别出其触发的事件类型。目前这项任务的大多数方法仅仅专注于从单一语言中提取线索,忽略了其他语言所蕴含的大量信息。这些单语方法中存在的数据稀缺性以及单语歧义性问题,会在一定程度上影响事件的检测识别效果。综合考虑多语信息对单语方法进行改进和扩充,是降低单语方法中此类内在问题影响的相对有效途径。
为了联合多语信息进行事件的检测与识别,自动化所刘健、陈玉博、刘康、赵军等科研人员开发出一种多语方法——门控多语言注意(GMLATT)框架,来同时处理前述问题。该方法采用上下文关注机制,利用多语数据的一致性信息缓解了数据稀缺的问题;同时提出了跨语言的门控注意力机制,利用多语数据所蕴含的互补信息,一定程度上缓解了单语歧义的问题。该框架首先采用机器翻译获得单语数据所对应的多语平行语料,然后利用无监督方法学习得到双语数据的词汇对齐信息。在此基础之上,在每种单语数据中利用注意力机制对单个句子的文本内容进行建模,不同的词汇依据其指示性被给予不同的权重,因而可以学习得到更具表示性的语言特征。这些特征大大扩充了单语线索,一定程度上缓解了单语方法所面临的数据稀缺性问题。为了融合多语线索,该框架通过门控多语注意力机制对多语置信度进行建模,每种语言都采用门控神经网络得到其置信权重。通过平衡多语的组合系数,把多语特征融合到一起。多语融合特征中涵盖了多语互补性信息,一定程度上缓解了单语方法中的单语歧义性问题。该方法在ACE 2005数据集上进行了实验验证,结果表明这种方法优于当前的处理方法。
该研究提出的门控多语言注意框架为如何联合多语信息辅助单语任务提供了新的解决思路,并且在自然语言处理的命名实体识别,实体关系消歧,实体关系抽取等任务中具有极大的应用潜力。