深圳市云计算关键技术与应用重点实验室(SPCCTA) 10级尹文鹏,裴雨龙同学的三篇论文被2012年国际计算语言会议接受为长文。该会议将于12月8日至15日在印度孟买召开。

COLING系列学术会议由ICCL(International Committee on Computational Linguistics,国际计算语言学委员会)主办,每两年一次,是国际计算语言学研究领域顶级国际会议之一(ACL/COLING/EMNLP)。该会议已经连续举办23届,在自然语言处理级相关学术领域具有重要的地位。

  •  SentTopic-MultiRank:a novel ranking model for multi-document summarization
  • 作者:Wenpeng Y in , Yulong Pei ,Fan Zhang , Lian′en Huang
  • 文章链接:http://aclweb.org/anthology/C12-1182

该篇论文作者将传统的句子关系网映射到多关系网环境下(multi-relational network),首先用话题模型LDA检测出多个topic并将其视为关系(relation types); 然后在每一种关系/话题下,构建了一个句子连接图。最终多关系环境下的具体图形成了一个张量。作者使用MultiRank算法进行句子和话题重要性分布的计算。实验于DUC数据集上验证了该方法在generic multi-document summarization 和query-biased multi-document summarization上的有效性。

  •  RelationListwise for query-focused multi-document summarization
  • 作者:Wenpeng Y in ,Li fu Huang ,Yulong Pei ,Lian′en Huang
  • 文章链接:http://aclweb.org/anthology/C12-1181

本文作者第一次将Listwise Learning to rank应用于query-biased summarization的任务中。与传统的listwise不同在于,作者考虑了句子之间的相似性,以此来增强listwise的排序性能。其基本原理如下:一个句子的最终排序位置不仅受自己的特征向量影响,更加应该考虑与它相邻近的句子的位置。基于此,作者设计了RelationListwise这一个新的模型,在DUC数据集上的实验显示它比经典的Listwise和pairwise learning to rank等有监督排序方法性能明显提高。

本文提出了一种新的排序融合框架,将多种广泛应用在摘要领域的模型有机的结合在一起,为了能够有效的知道融合过程,作者通过加入人工标记数据作为训练集的方法将该框架设计成有监督的摘要框架。通过集成四种常见的摘要模型并使用基于1-gram和2-gram的训练集,本文提出的框架能够显著的提高摘要生成的质量。此外,通过尝试不用种类的组会方式,本文作者进一步探讨了不同模型对整体框架的影响。通过DUC2004数据的实验,改框架能够有效的提高摘要的质量。

该论文作者为10级尹文鹏和裴雨龙同学,于2012年8月投稿,文章相关作者的全部署名北京大学深圳研究生院,指导老师为深圳市云计算关键技术与应用重点实验室(SPCCTA)、互联网信息工程研发中心黄连恩老师。

发表评论

电子邮件地址不会被公开。