17级谢英英同学、18级李渝同学参加ICPADS 2018国际学术会议

在实验室雷凯老师的指导下,16级章奇超、17级谢英英以及18级李渝同学各有一篇论文被IEEE International Conference on Parallel and Distributed Systems 2018国际学术会议(IEEE ICPADS 2018)录用。 下面是论文简介 论文题目:Reputation-based Byzantine Fault-Tolerance for Consortium Blockchain 论文作者:Kai Lei, Qichao Zhang, Limei Xu and Zhuyun Qi 论文简介: 实用拜占庭容错算法在联盟区块链系统中得到了广泛应用,但该类算法难以及时识别出错节点,易受针对于主节点的各类攻击,并且其共识成员的投票话语权的相同,不适用于话语权区分的场景。为了解决这些问题,本研究提出了基于信誉的拜占庭容错(RBFT)算法。我们设计了信誉模型来评估共识过程中每个成员的行为,出错节点将会被降低信誉分,并且在共识过程中获得较低的话语权。另外,我们设计了基于信誉分的主节点切换方案,高信誉分的节点将具有更多的机会成为主节点来产生合法区块。实验结果表明RBFT获得了良好的性能,并确保了系统的安全性和可靠性。   论文题目:OptCaching: A Stackelberg Game and Belief Propagation Based Caching Scheme for Joint Utility Optimization in Fog Computing 论文作者:Kai Lei, Yingying Xie, Jian Shi, Haijun Zhang, Gong Zhang, Bo Bai 论文简介:雾计算将云计算的概念延伸到网络边缘,为大量有低延时要求的应用提供支持。本文研究在三层雾计算场景下,如何合理分配雾节点缓存资源使得联合优化内容提供商、网络运营商和用户的效用。本文对内容提供商、网络运营商和用户之间缓存租赁、定价、利用行为进行建模,并且定义了三者各自的效用函数;将内容提供商与网络运营商之间的缓存定价和租赁行为建模为一个Stackelberg博弈,通过理论分析找到了Stackelberg均衡点;设计了一个基于置信传播的分布式缓存放置算法,通过降低用户平均下载延迟进一步优化了用户效用。实验验证了在Stackelberg均衡点处三者效用达到联合优化的状态;相比于基于全局流行度的缓存放置策略,用户的平均下载延迟降低了33.7%。   论文题目:NDN Producer Mobility Management based on Echo State Network: a Lightweight Machine Learning 论文作者:Kai Lei, Yu Li, Xuewei Piao, Haijun Zhang 论文简介:命名数据网络(Named Data Networking , NDN)在架构设计上对内容消费者移动具有天然的支持,但在内容生产者移动的解决方案上,只是借鉴了TCP/IP移动性解决方案的思想,将TCP/IP网络架构中的Mobile IP等方案应用在NDN网络架构中,虽然有效解决了其原生解决方案(命名链路状态路由协议,NLSR)大规模路由聚合所带来的开销,但不可避免地延续了TCP/IP移动中如三角路由、往返时延长、响应率低等问题。 为更高效地解决NDN生产者移动性问题,充分利用NDN以数据为中心、无连接、路由与转发分离、自带缓存等优势,设计了一种基于马尔可夫链预测的生产者移动策略。根据现有的研究,本文提出了一种基于回声状态网络(Echo State Network,ESN)预测的NDN生产者移动策略。在生产者移动切换发生之前,根据预测对网络设备进行预配置,以低带宽代价提升内容响应速度并降低因移动切换带来的额外时延,实现无缝切换。模型分析以及在ndnSIM上的仿真实验结果表明,本文策略在切换延时,丢包率,切换开销等指标上均具有一定的优势。   ICPADS是科学家和工程师交流和分享关于并行和/或分布式系统的新想法及其最新研究成果的主要国际论坛,成立于1992年。今年于2018年12月11日-12月13日在新加坡圣淘沙举行。会议包括了主题演讲、论文发表、poster展示以及workshop展示等;主题包括并行式和分布式算法、高性能计算、移动计算以及AI应用等方面。会议邀请了来自学术界(如来自中国科学技术大学的李向阳教授、来自Rutgers University的Manish Parashar教授等)和产业界(如来自AI Singapore的Stefan Winkler等)的专家作为Panel Discussion的speakers讨论对AI、IoT以及Urban Computing的看法和展望。   李渝同学、谢英英同学以及章奇超同学分别于12月11日、12月12日和12月13日上午就各自中稿的文章进行了分享,并与来自全球的学者进行了深入交流。   参加本次会议, 他们对相关领域内最新研究进展有了进一步了解,开拓了视野,也认识了来自五洲四海的科研小伙伴。通过做这次报告,他们切身意识到了只有准备充分才能自信沉着,同时也还需多多加强英语口语和表达。与参会人员的交流,使他们受到了很多启发和鼓舞。感谢互联网研发中心和雷老师的资助。...
Read More

16级李可可同学参加GLOBECOM 2018国际学术会议

在实验室雷凯老师的指导下,16级李可可同学的一篇论文被Global Communications Conference 2018国际学术会议(GLOBECOM 2018)录用。   下面是论文简介 论文题目:Distributed Information-agnostic Flow Scheduling in Data Centers based on Wait-Time 论文简介:数据中心网络现有的流量调度方法主要是为了最小化短流的流完成时间,并没有考虑优化延时敏感的长流(比如VR视频流,AI交互式问答流)的流完成时间。此外,在现有的流量调度方法中,信息可知的方案(如L2DCT, D2TCP)在实际中难以部署,这是因为它们需要预先知道流的相关信息(如流的大小);而信息不可知的调度方案(即PIAS)虽然不需要提前知道流的大小信息,但它需要一个中央化的服务器,这就导致在网络规模很大时,PIAS的可扩展性很差。 考虑到现有方案的局限性,在本文中,我们提出一种分布式信息不可知的流量调度方法(DIAS),该方法既能优化短流的流完成时间,也能优化延时敏感的长流的流完成时间。在DIAS中,数据包是根据它们的优先级进行转发的,而数据包的优先级是根据它们在发送端的缓冲区内的等待时间决定的,数据包的等待时间越久,它的优先级越低。此外,DIAS不像PIAS一样采用一个集中化的服务器收集流量负载信息,而是采用每个交换机将流量负载信息附在ACK包中返回给发送端的方式,流量负载信息是用来调整决定数据包优先级的阈值的。ns-3模拟器中的实验结果显示,与DCTCP、L2DCT相比,DIAS分别能够降低54.7%和50.1%的流完成时间,此外,与PIAS相比,DIAS能够保证延时敏感的长流更短的流完成时间,因此比PIAS性能更好。   GLOBECOM是IEEE旗下两大通信旗舰会议之一,今年12月9日-12月13日在阿联酋首都阿布扎比举行。GLOBECOM旨在促进通信各个方面的创新。会议包括了主题演讲、教学讲座、论文发表、研发成果展示以及workshop展示等;内容涵盖完整的计算、通信和网络方面。会议邀请了来自学术界(如来自Stanford University的Guru Parulkar教授等)和产业界(如来自Intel的Udayan Mukherjee,来自华为的Wen Tong等)的专家作为Keynote Speeker分享相关领域的最新进展。   李可可同学于阿联酋时间12月11日下午进行了论文分享并且与来自全球的学者进行了深入交流。   通过参加本次会议,解到了相关领域内最新研究进展,开拓了视野。通过做报告,认识到了语言表达的重要性。通过与参会人员的交流,受到了很多启发。感谢互联网研发中心和雷老师的资助。...
Read More

16级袁凯琦参加BIBM2018国际学术会议

在雷凯老师与沈颖老师的指导下,16级学生袁凯琦的一篇论文被第18届IEEE International Conference on Bioinformatics and Biomedicine (BIBM2018) 录用。   下面是论文简介。 论文题目:Drug2Vec: Knowledge-aware Feature-driven Method for Drug Representation Learning 论文简介:正确的药物表示在医疗保健分析中具有广泛的应用,例如药物相互作用(DDI)预测和药物 - 药物相似性(DDS)计算。然而,药物应用涉及准确的药物特征选择和丰富的标注数据,需要耗费专家巨大的时间和精力。目前,关于药物向量特征表示的研究中仍存在特征稀疏,向量维数过高等瓶颈。为了减轻这些不足,我们提出了Drug2Vec,这是一种知识感知的特征驱动的方法,可以准确地学习药物相关知识。具体地,我们首先从药物领域特定语料库中学习药理学特征以改善药物区分度。然后,我们利用神经网络从各种知识库和语料库中学习药物分类特征和药物文本描述特征,解决单一数据源中药物属性的不完整性,并减轻不完整或不准确的公共和专有来源的限制。最后,提出了一种联合交互式学习方法,以根据各种药物特征的相关性发现和学习更多信息。我们对临床医学的医学数据集进行了一系列实验,以证明Drug2Vec能够表示药物特征。 从实验结果来看,Drug2Vec可以准确判别新的药物 - 药物相互作用关系,准确率高达92.19%,证明Drug2Vec显著提高了训练中未见的药物 - 药物相互作用关系的预测质量。   2018年12月3日到6日,袁凯琦同学前往西班牙首都马德里参加BIBM会议。BIBM会议是生物信息学及生物计算领域的顶级会议之一,旨在为计算机科学,生物学,化学,医药学,统计数学的科学家及学者提供了一个跨领域跨平台互相交流的平台, 被中国计算机学会(CCF)列为B类会议 。   本次会议共设24个workshop,46个session(涵盖105篇文章的presentation)和3个keynote组成。袁凯琦同学在主题为Cheminformatics, drug representation and interaction的会议厅进行了文章“Drug2Vec: Knowledge-aware Feature-driven Method for Drug Representation Learning”的学术报告。在Q&A环节,与会者提了很多问题,主要在数据来源,特征处理和医学数据在深度学习模型中的训练等方面,并对文章的工作予以肯定。在与各位学者讨论过程中,充分体会到了医疗与人工智能结合的挑战(医学背景知识,医学数据采集,医学特征的选择)。 通过这次会议,我听取了来自世界各地的学者的报告,同时也意识到了自己的不足,自己各方面的能力亟需提高。如今人工智能已经延伸至各个领域,如何进一步利用医学数据,从海量医学信息迅速有效的挖掘,找到“医疗+人工智能”的切实可行的落地场景是当今时代向我们提出的挑战。最后,再次感谢互联网研发中心雷凯老师和沈颖老师在论文写作、投稿等方面给予的支持。...
Read More

17级覃孟同学中稿InfoCom 2019

IEEE International Conference on Computer Communications 2019 (InfoCom 2019)将于2019年4月29日至5月2日,在法国巴黎举行。InfoCom是计算机网络通信领域的国际顶级学术会议,也被CCF推荐为计算机网络方向的A类会议。 17级同学覃孟在实验室雷凯老师指导下,完成一篇长文"GCN-GAN: A Non-linear Temporal Link Prediction Model for Weighted Dynamic Networks",并以确认被InfoCom 2019录用!中稿论文的简介如下: 论文标题: GCN-GAN: A Non-linear Temporal Link Prediction Model for Weighted Dynamic Networks 论文作者: Kai Lei, Meng Qin, Bo Bai*, Gong Zhang, Min Yang* 英文摘要: In this paper, we generally formulate the dynamics prediction problem of various network systems (e.g., the prediction of mobility, traffic and topology) as the temporal link prediction task. Different from conventional techniques of temporal link prediction that ignore the potential non-linear characteristics and the informative link weights in the dynamic network, we introduce a novel non-linear model GCN-GAN to tackle the challenging temporal link prediction task of weighted dynamic networks. The proposed model leverages the benefits of the graph convolutional network (GCN), long short-term memory (LSTM) as well as the generative adversarial network (GAN). Thus, the dynamics, topology structure and evolutionary patterns of weighted dynamic networks can be fully exploited to improve the temporal link prediction performance. Concretely, we...
Read More

雷凯老师和17级杜茂瑜,黄济乐同学参加中国区块链技术大会

雷凯老师和杜茂瑜,黄济乐同学于2018年11月25日,在杭州参加了中国区块链大会,并做了题为“区块链与未来网络基础设施”的报告。报告内容如下: 区块链的见解 区块链中网络基础问题 内容中心网络(ICN)与区块链的结合优势 案例:区块链与无人机 IEN -- 智能生态网络的核心理念和构想   文明发展的必然过程:可以类比于社会发展从原始社会-奴隶社会-封建社会-资本主义社会-社会主义社会-共产主义社会 “块游记”表达的是对块链文明的探索,路上需要伙伴:悟空:自由、自我,能力高强;悟能:彻底的自由是不存在的,一切自由都是要在有约束的条件下的;悟净:代表的是普通人,芸芸众生。当我们还没有做好计划和准备的时候,最好的状态就是控制自我,保持一个很好的心境。 佛语说:空色情。三者之间的和谐决定了万千社会,取经之路也就是我们探索和寻求和谐的过程   “块游记”表达的是对块链文明的探索,路上需要伙伴:悟空:自由、自我,能力高强;悟能:彻底的自由是不存在的,一切自由都是要在有约束的条件下的;悟净:代表的是普通人,芸芸众生。当我们还没有做好计划和准备的时候,最好的状态就是控制自我,保持一个很好的心境。 佛语说:空色情。三者之间的和谐决定了万千社会,取经之路也就是我们探索和寻求和谐的过程   Maze核心解决的问题: 文件下载慢,文件资源找不到   Maze没有解决的问题: 1.“创世币”免费赠送,没有起到激励的作用; 2.中心化的激励思路没有考虑效果; 3.内容审计; 4.文件确权; 5.FreeRider无社会责任感 未来网络的设计一定要赋予社会属性,不再是追求个人利益的最大化,而是追求整个网络生态的利益最大化   第三点的用户:包括了各种各样的需求(皇权、神权、民权)   互联网金融:追求去中介、普惠 互联网金融科技:去中心、价值交换   Internet:网间网 IP设计的时候只解决传输的问题,没有考虑上层的应用需求和市场经济需求。 IP互联网的三大问题: IP系统的传输类似以前的轨道交通,是单电对单电的,未来网络中不应该以以IP地址作为标识; 寻址方式一定要固定一个物理地理位置,但是实际上现在移动性已经很强了; IP在设计的时候就没有考虑安全的问题,更不必说价值传输的问题。   内容中心网络最核心的是用数据内容作为标识 基础设施很重要,网络的功能丰富化很重要,现有的上层应用补丁常常重复化,而网络本来就应该承担更多的共性需求。   内容中心网络最核心的是用数据内容作为标识 基础设施很重要,网络的功能丰富化很重要,现有的上层应用补丁常常重复化,而网络本来就应该承担更多的共性需求。       内容中心网络最核心的是用数据内容作为标识 基础设施很重要,网络的功能丰富化很重要,现有的上层应用补丁常常重复化,而网络本来就应该承担更多的共性需求。       无人机工作: 缓存中毒:区块链环境下,大家的数据各有一份,但是都不能保证自己是否被篡改过,中本聪用6个块才确定上链才能用概率来保证安全。 在一个不能依赖不能相信任何人的环境下如何做证明和验证来解决安全问题,这种思路模式和传统的解决问题的方式不同,当网络失去了上帝,要如何做设计才能在和谐中保障秩序。 我们团队的取经任务: “联网“要解决的不只是传输问题,而是要解决一个网络生态。随着人工智能的进步,现在的网络逐渐分流为数据层和控制层,数据层作为“车轮子”,但是“车”的好坏还是重点在控制层。 有些场景用区块链好,但是不是必须,有些场景用区块链是必须,我们找出来这些场景才是区块链核心的价值,我们总结区块链的必须场景有: 1.多领域或者交叉领域(跨价值或者跨信任)状态下的共识; 2.通过计算机快速构建一种权益分配。 我们团队的取经任务: “联网“要解决的不只是传输问题,而是要解决一个网络生态。随着人工智能的进步,现在的网络逐渐分流为数据层和控制层,数据层作为“车轮子”,但是“车”的好坏还是重点在控制层。 有些场景用区块链好,但是不是必须,有些场景用区块链是必须,我们找出来这些场景才是区块链核心的价值,我们总结区块链的必须场景有: 1.多领域或者交叉领域(跨价值或者跨信任)状态下的共识; 2.通过计算机快速构建一种权益分配。 “权”不是一个简单的二分类; 数字经济时代,数据的权和商品的权不同,因为数据可复制,所以它的所有权和使用权不是可以轻易绑定的。 最适用于研究的场景就是物联网,例如物联网第一步是要解决传感器的数据(盖有时间戳),只要不作假,它的复制是可以被分辨的。 重构生态:把现有的生态和谐重构。 想象一个物联网环境。在这个环境中物联网传感设备产生有用的价值内容,同时作为内容生产者发送给需要该内容的消费者。网络中的路由设备作为这些价值内容的传递者,应该获得相应的收益。注意这里的收益仅仅只针对于传递有价值的内容数据。传递其他的数据如:控制数据,是不会获得收益的。甚至如果传递垃圾数据:如病毒,还应该给予相应的惩罚。 IEN面向未来百万个智能节点接入的网络,共识机制依赖构建一个立体分层主链和子链的方法来解决scalability的问题。子链是基于用户需求不同而派生的区块链,它可以自定义共识方式,但不独立存在于主链之外,必须基于主链提供的基础设施才能运行;主链使用PoW共识,各个子链之间没有信任关系,而是通过主链进行信任的传递。子链之间的Token通过主链进行兑换。IEN 的子链和主链按照设定的协议进行交互 ,以达到信任传递和交易传递的目的 通过智能合约实现激励,区块链中的Token承载可权益量化的价值。细粒度的Token量化价值解决了确权问题,其通过区块链进行交易的流通过程实现了价值的维护和流通。该技术的普及无疑会加速自然进化“适者生存、劣者淘汰”基本生态协议执行的速度,会让未来社会文明繁荣创新的步伐,更加快速。    ...
Read More

沈颖老师与16级袁凯琦参加ICDM2018国际学术会议

在雷凯老师和沈颖老师的指导下,16级学生袁凯琦的一篇Demo论文被第18届IEEE International Conference on Data Mining(ICDM 2018)录用。下面是论文简介. 论文题目:IDDAT:An Ontology-Driven Decision Support System for Infectious Disease Diagnosis and Therapy 论文简介:基于传染病和抗生素本体,参考临床上疾病诊断与病历数据,文章提出一套为常见感染疾病及其诊疗自动医疗决策系统IDDAT。IDDAT所使用的本体还与医疗领域其他本体进行对比实验,在疾病诊断和治疗方案方面的准确性,召回率等指标均获得十分出色的表现。 2018年11月17日至20日,沈颖老师和研三学生袁凯琦前往新加坡圣淘沙岛会议中心参加ICDM会议。圣淘沙岛位于新加坡本岛南部,素有“欢乐宝石”的美誉。ICDM涵盖了数据挖掘的所有方面,吸引了来自统计、机器学习、模式识别、数据库、数据仓库、数据可视化、基于知识系统和高性能计算等领域的研究人员,应用程序开发人员与从业人员。ICDM旨在促进新颖、高质量的研究成果和对具有挑战性的数据挖掘问题的解决方案, 被中国计算机学会(CCF)列为B类会议 。 本次会议共设立Deep Learning,Recommendation,Bioinformatics等分会场。现场各位学者做了精彩纷呈的学术回报,在听取报告时,遇到了不少与实验室知识图谱组联系比较紧密的课题,我们也提出了不少问题,随着讨论的深入,也加深了对文章的理解。会后,学生袁凯琦在沈老师的指导下,将继续紧密follow一些相关研究:Dynamic Illness Severity Prediction via Multi-task RNNs for Intensive Care Unit,A United Approach to Learning Sparse Attributed Network Embedding等文章,以进一步开展毕业设计研究工作。 18日1:30至5:40是Demo Paper展示环节。我们给与会者讲解了“IDDAT: An Ontology-Driven Decision Support System for Infectious Disease Diagnosis and Therapy”。在讲解过程中,大家比较关心数据来源,疾病诊断与决策的底层实现,知识图谱的存储与推理等等问题,充满体会到了医疗与人工智能结合的挑战(医学背景知识,医学数据采集),并对我们的工作予以肯定。 听完三天的会议报告,我们获益匪浅,并且总结了目前主要的研究趋势: 多视角注意力机制 多任务学习 时间序列信息 User信息编码 我们希望在接下来的日子,能够把这些新想法融合到实验室的研究工作中。最后,感谢互联网研发中心雷凯老师和沈颖老师在论文写作、投稿等方面给予的支持。 ...
Read More

近年来内容中心网络与区块链重点实验室优秀文章概览(二)

实验室经过这几年的积累,发表了不少优秀的文章,现在在这做一个展示概要,包括文章的简介,pdf链接以及部分文章的开源代码github链接。 IEEE Transactions on Industrial Informatics ( Volume: 14 , Issue: 6 , June 2018 ) An NDN IoT Content Distribution Model With Network Coding Enhanced Forwarding Strategy for 5G 文章链接:https://ieeexplore.ieee.org/document/8170270 作者:Kai Lei,Shangru Zhong ,Fangxing Zhu,Kuai Xu,Haijun Zhang 简介:第五代(5G)物联网(IoT)应用的挑战性要求激发了对可行网络架构的期望需求,而命名数据网络(NDN)是支持高密度物联网应用的合适候选者。为了在大规模物联网应用中有效地分发越来越多的数据,本文将网络编码技术应用到NDN中,以提​​高物联网网络吞吐量和5G内容传输效率。基于概率的多径转发策略被设计用于网络编码以充分利用其潜力。为了量化在5G NDN中应用网络编码的性能优势,本文将网络编码集成到ndnSIM模拟器中实现的NDN流媒体系统中。实验结果清楚而公正地表明,考虑5G NDN中的网络编码可以显着提高性能,可靠性和QoS。此外,这是一般解决方案,因为它适用于大多数缓存方法。更重要的是,我们的方法在提供包括高质量流视频服务在内的不断增长的物联网应用方面具有巨大的潜力。 Abstract: The challenging requirements of fifth-generation (5G) Internet-of-Things (IoT) applications have motivated a desired need for feasible network architecture, while Named Data Networking (NDN) is a suitable candidate to support the high density IoT applications. To effectively distribute increasingly large volumes of data in large-scale IoT applications, this paper applies network coding techniques into NDN to improve IoT network throughput and efficiency of content delivery for 5G. A probability-based multipath forwarding strategy is designed for network coding to make full use of its potential. To quantify performance benefits of applying network coding in 5G NDN, this paper integrates network coding into a NDN streaming media system implemented in the ndnSIM simulator. The experimental results clearly and fairly demonstrate that considering network coding in...
Read More

15级张丽珠同学中稿JOURNAL OF BIOMEDICAL INFORMATICS期刊

Journal of Biomedical Informatics 期刊 Journal of Biomedical Informatics(https://www.journals.elsevier.com/knowledge-based-systems/) 是人工智能领域跨学科、面向应用的学术期刊,最新的影响因子(IF)为2.882。 15级同学张丽珠,在实验室雷凯老师和沈颖老师的指导下,完成一篇论文,并已确认被Journal of Biomedical Informatics 期刊录用,论文具体简介如下: 标题:CBN: Constructing a Clinical Bayesian Network based on Data from the Electronic Medical Record 作者:Ying Shen, Lizhu Zhang, Jin Zhang, Min Yang, Buzhou Tang, Yaliang Li, Kai Lei 链接:https://authors.elsevier.com/a/1Y1Yd5SMDQYjHP 简介: 从电子病历(EMR)学习涉及疾病和症状的候选因果关系的过程是学习直接从真实医疗保健数据执行诊断推断的模型的第一步。然而,现有的诊断推理系统依赖于诸如本体之类的知识库,其通过劳动密集型过程手动编译或者使用简单的成对统计自动导出。我们探索CBN,一种用于医学本体概率推理的临床贝叶斯网络构建,直接从EMR学习高质量贝叶斯拓扑和完整本体。具体来说,我们首先从超过10,000个被识别的患者记录中提取医疗实体关系,并采用优势比(OR值)计算和K2贪婪算法来自动构建贝叶斯拓扑。然后,贝叶斯估计用于概率分布。最后,我们采用贝叶斯网络来完成本体的因果关系和概率分布,以增强本体推理能力。通过评估学习的拓扑结构与医生的专家意见和熵计算以及通过计算基于本体的诊断分类,我们的研究表明,从医疗记录中直接和自动构建高质量的健康拓扑和本体是可行的。我们的结果是可复现的,我们将在文章发布后发布该工作的源代码和CN-Stroke知识图谱。...
Read More

16级邓扬中稿AAAI 2019

The Thirty-Third AAAI Conference on Artificial Intelligence (AAAI-19) 将于2019年1月27日至2月1日在美国夏威夷举行。AAAI是人工智能领域的顶级国际会议(https://aaai.org/Conferences/AAAI-19/),CCF A类会议。   16级邓扬同学在雷凯老师和沈颖老师的指导下,在本次会议中被录用了一篇论文,下面是论文简介: Multi-Task Learning with Multi-View Attention for Answer Selection and Knowledge Base Question Answering 作者:Yang Deng, Yuexiang Xie, Yaliang Li, Min Yang, Nan Du, Wei Fan, Kai Lei*, Ying Shen* (*Correspond Author)   简介:答案选择和知识库问答(KBQA)是问答系统的两个重要任务。现有的方法分别解决这两个任务,需要大量的重复工作,而忽略了任务之间丰富的相关信息。本文基于以下动机,通过多任务学习(MTL)同时处理答案选择和KBQA任务。首先,答案选择和KBQA都可以看作是一个排序问题,一个在文本级别,而另一个在知识级别。第二,这两个任务可以互相促进:答案选择可以结合来自知识库(KB)的外部知识,而KBQA可以通过从答案选择中学习上下文信息来改进。为了实现联合学习这两项任务的目的,我们提出了一种新的多任务学习方案,它利用从不同角度学习的多视角注意力,使这些任务能够相互交互,并学习更全面的句子表示。在多个真实数据集上的实验验证了该方法的有效性,提高了答案选择和KBQA的性能。此外,多视角注意力机制被证明能有效地从不同表征角度组装注意力信息。...
Read More

近年来内容中心网络与区块链重点实验室优秀文章概览(一)

实验室经过这几年的积累,发表了不少优秀的文章,现在在这做一个展示概要,包括文章的简介,pdf链接以及部分文章的开源代码github链接。 COLING 2018国际会议 Knowledge as A Bridge: Improving Cross-domain Answer Selection with External Knowledge 作者:Yang Deng, Ying Shen, Min Yang, Yaliang Li, Nan Du, Wei Fan, Kai Lei 文章链接:https://aclanthology.coli.uni-saarland.de/papers/C18-1279/c18-1279 简介:答案选择是一项重要而具有挑战性的任务。在大量标记的训练数据可用的领域已经取得了显著的进展。然而,获得丰富的注释数据是耗时和昂贵的过程,将答案选择模型应用到具有有限标记数据的新领域将会有很大的障碍。在本文中,我们提出了知识感知注意力网络(KAN),一个跨领域答案选择的迁移学习框架,使用知识库作为桥梁,使知识从源领域转移到目标领域。具体地,我们设计了一个知识模块,将基于知识的表示学习集成到答案选择模型中。所学的基于知识的向量表示由源领域和目标领域共享,这不仅利用大量的跨领域数据,而且还受益于正则化效应,从而导致更通用的文本表示来帮助新领域中的任务。为了验证我们的模型的有效性,我们使用SQUAD-T数据集作为源域数据集和三个其他数据集(即yahoo QA,TREC QA和insuranceQA)作为目标域。实验结果表明,KAN具有很强的适用性和通用性,在跨域答案选择方面明显优于目前最好的模型算法。 Abstract Answer selection is an important but challenging task. Significant progress has been made in domains where a large amount of labeled training data is available. However, obtaining rich annotated data is a time-consuming and expensive process, creating a substantial barrier for applying answer selection models to a new domain which has limited labeled data. In this paper, we propose Knowledge-aware Attentive Network (KAN), a transfer learning framework for crossdomain answer selection, which uses the knowledge base as a bridge to enable knowledge transfer from the source domain to the target domains. Specifically, we design a knowledge module to integrate the knowledge-based representational learning into answer selection models. The learned knowledge-based representations are shared by source and target domains, which not only leverages large amounts of cross-domain data, but also benefits from...
Read More