16级李可可同学参加GLOBECOM 2018国际学术会议

在实验室雷凯老师的指导下,16级李可可同学的一篇论文被Global Communications Conference 2018国际学术会议(GLOBECOM 2018)录用。 下面是论文简介 论文题目:Distributed Information-agnostic Flow Scheduling in Data Centers based on Wait-Time 论文简介:数据中心网络现有的流量调度方法主要是为了最小化短流的流完成时间,并没有考虑优化延时敏感的长流(比如VR视频流,AI交互式问答流)的流完成时间。此外,在现有的流量调度方法中,信息可知的方案(如L2DCT, D2TCP)在实际中难以部署,这是因为它们需要预先知道流的相关信息(如流的大小);而信息不可知的调度方案(即PIAS)虽然不需要提前知道流的大小信息,但它需要一个中央化的服务器,这就导致在网络规模很大时,PIAS的可扩展性很差。 考虑到现有方案的局限性,在本文中,我们提出一种分布式信息不可知的流量调度方法(DIAS),该方法既能优化短流的流完成时间,也能优化延时敏感的长流的流完成时间。在DIAS中,数据包是根据它们的优先级进行转发的,而数据包的优先级是根据它们在发送端的缓冲区内的等待时间决定的,数据包的等待时间越久,它的优先级越低。此外,DIAS不像PIAS一样采用一个集中化的服务器收集流量负载信息,而是采用每个交换机将流量负载信息附在ACK包中返回给发送端的方式,流量负载信息是用来调整决定数据包优先级的阈值的。ns-3模拟器中的实验结果显示,与DCTCP、L2DCT相比,DIAS分别能够降低54.7%和50.1%的流完成时间,此外,与PIAS相比,DIAS能够保证延时敏感的长流更短的流完成时间,因此比PIAS性能更好。 GLOBECOM是IEEE旗下两大通信旗舰会议之一,今年12月9日-12月13日在阿联酋首都阿布扎比举行。GLOBECOM旨在促进通信各个方面的创新。会议包括了主题演讲、教学讲座、论文发表、研发成果展示以及workshop展示等;内容涵盖完整的计算、通信和网络方面。会议邀请了来自学术界(如来自Stanford University的Guru Parulkar教授等)和产业界(如来自Intel的Udayan Mukherjee,来自华为的Wen Tong等)的专家作为Keynote Speeker分享相关领域的最新进展。 李可可同学于阿联酋时间12月11日下午进行了论文分享并且与来自全球的学者进行了深入交流。 通过参加本次会议,解到了相关领域内最新研究进展,开拓了视野。通过做报告,认识到了语言表达的重要性。通过与参会人员的交流,受到了很多启发。感谢互联网研发中心和雷老师的资助。...
Read More

17级覃孟同学中稿InfoCom 2019

IEEE International Conference on Computer Communications 2019 (InfoCom 2019)将于2019年4月29日至5月2日,在法国巴黎举行。InfoCom是计算机网络通信领域的国际顶级学术会议,也被CCF推荐为计算机网络方向的A类会议。 17级同学覃孟在实验室雷凯老师指导下,完成一篇长文"GCN-GAN: A Non-linear Temporal Link Prediction Model for Weighted Dynamic Networks",并以确认被InfoCom 2019录用!中稿论文的简介如下: 论文标题: GCN-GAN: A Non-linear Temporal Link Prediction Model for Weighted Dynamic Networks 论文作者: Kai Lei, Meng Qin, Bo Bai*, Gong Zhang, Min Yang* 英文摘要: In this paper, we generally formulate the dynamics prediction problem of various network systems (e.g., the prediction of mobility, traffic and topology) as the temporal link prediction task. Different from conventional techniques of temporal link prediction that ignore the potential non-linear characteristics and the informative link weights in the dynamic network, we introduce a novel non-linear model GCN-GAN to tackle the challenging temporal link prediction task of weighted dynamic networks. The proposed model leverages the benefits of the graph convolutional network (GCN), long short-term memory (LSTM) as well as the generative adversarial network (GAN). Thus, the dynamics, topology structure and evolutionary patterns of weighted dynamic networks can be fully exploited to improve the temporal link prediction performance. Concretely, we...
Read More

雷凯老师和17级杜茂瑜,黄济乐同学参加中国区块链技术大会

雷凯老师和杜茂瑜,黄济乐同学于2018年11月25日,在杭州参加了中国区块链大会,并做了题为“区块链与未来网络基础设施”的报告。报告内容如下: 区块链的见解 区块链中网络基础问题 内容中心网络(ICN)与区块链的结合优势 案例:区块链与无人机 IEN -- 智能生态网络的核心理念和构想   文明发展的必然过程:可以类比于社会发展从原始社会-奴隶社会-封建社会-资本主义社会-社会主义社会-共产主义社会 “块游记”表达的是对块链文明的探索,路上需要伙伴:悟空:自由、自我,能力高强;悟能:彻底的自由是不存在的,一切自由都是要在有约束的条件下的;悟净:代表的是普通人,芸芸众生。当我们还没有做好计划和准备的时候,最好的状态就是控制自我,保持一个很好的心境。 佛语说:空色情。三者之间的和谐决定了万千社会,取经之路也就是我们探索和寻求和谐的过程   “块游记”表达的是对块链文明的探索,路上需要伙伴:悟空:自由、自我,能力高强;悟能:彻底的自由是不存在的,一切自由都是要在有约束的条件下的;悟净:代表的是普通人,芸芸众生。当我们还没有做好计划和准备的时候,最好的状态就是控制自我,保持一个很好的心境。 佛语说:空色情。三者之间的和谐决定了万千社会,取经之路也就是我们探索和寻求和谐的过程   Maze核心解决的问题: 文件下载慢,文件资源找不到   Maze没有解决的问题: 1.“创世币”免费赠送,没有起到激励的作用; 2.中心化的激励思路没有考虑效果; 3.内容审计; 4.文件确权; 5.FreeRider无社会责任感 未来网络的设计一定要赋予社会属性,不再是追求个人利益的最大化,而是追求整个网络生态的利益最大化   第三点的用户:包括了各种各样的需求(皇权、神权、民权)   互联网金融:追求去中介、普惠 互联网金融科技:去中心、价值交换   Internet:网间网 IP设计的时候只解决传输的问题,没有考虑上层的应用需求和市场经济需求。 IP互联网的三大问题: IP系统的传输类似以前的轨道交通,是单电对单电的,未来网络中不应该以以IP地址作为标识; 寻址方式一定要固定一个物理地理位置,但是实际上现在移动性已经很强了; IP在设计的时候就没有考虑安全的问题,更不必说价值传输的问题。   内容中心网络最核心的是用数据内容作为标识 基础设施很重要,网络的功能丰富化很重要,现有的上层应用补丁常常重复化,而网络本来就应该承担更多的共性需求。   内容中心网络最核心的是用数据内容作为标识 基础设施很重要,网络的功能丰富化很重要,现有的上层应用补丁常常重复化,而网络本来就应该承担更多的共性需求。       内容中心网络最核心的是用数据内容作为标识 基础设施很重要,网络的功能丰富化很重要,现有的上层应用补丁常常重复化,而网络本来就应该承担更多的共性需求。       无人机工作: 缓存中毒:区块链环境下,大家的数据各有一份,但是都不能保证自己是否被篡改过,中本聪用6个块才确定上链才能用概率来保证安全。 在一个不能依赖不能相信任何人的环境下如何做证明和验证来解决安全问题,这种思路模式和传统的解决问题的方式不同,当网络失去了上帝,要如何做设计才能在和谐中保障秩序。 我们团队的取经任务: “联网“要解决的不只是传输问题,而是要解决一个网络生态。随着人工智能的进步,现在的网络逐渐分流为数据层和控制层,数据层作为“车轮子”,但是“车”的好坏还是重点在控制层。 有些场景用区块链好,但是不是必须,有些场景用区块链是必须,我们找出来这些场景才是区块链核心的价值,我们总结区块链的必须场景有: 1.多领域或者交叉领域(跨价值或者跨信任)状态下的共识; 2.通过计算机快速构建一种权益分配。 我们团队的取经任务: “联网“要解决的不只是传输问题,而是要解决一个网络生态。随着人工智能的进步,现在的网络逐渐分流为数据层和控制层,数据层作为“车轮子”,但是“车”的好坏还是重点在控制层。 有些场景用区块链好,但是不是必须,有些场景用区块链是必须,我们找出来这些场景才是区块链核心的价值,我们总结区块链的必须场景有: 1.多领域或者交叉领域(跨价值或者跨信任)状态下的共识; 2.通过计算机快速构建一种权益分配。 “权”不是一个简单的二分类; 数字经济时代,数据的权和商品的权不同,因为数据可复制,所以它的所有权和使用权不是可以轻易绑定的。 最适用于研究的场景就是物联网,例如物联网第一步是要解决传感器的数据(盖有时间戳),只要不作假,它的复制是可以被分辨的。 重构生态:把现有的生态和谐重构。 想象一个物联网环境。在这个环境中物联网传感设备产生有用的价值内容,同时作为内容生产者发送给需要该内容的消费者。网络中的路由设备作为这些价值内容的传递者,应该获得相应的收益。注意这里的收益仅仅只针对于传递有价值的内容数据。传递其他的数据如:控制数据,是不会获得收益的。甚至如果传递垃圾数据:如病毒,还应该给予相应的惩罚。 IEN面向未来百万个智能节点接入的网络,共识机制依赖构建一个立体分层主链和子链的方法来解决scalability的问题。子链是基于用户需求不同而派生的区块链,它可以自定义共识方式,但不独立存在于主链之外,必须基于主链提供的基础设施才能运行;主链使用PoW共识,各个子链之间没有信任关系,而是通过主链进行信任的传递。子链之间的Token通过主链进行兑换。IEN 的子链和主链按照设定的协议进行交互 ,以达到信任传递和交易传递的目的 通过智能合约实现激励,区块链中的Token承载可权益量化的价值。细粒度的Token量化价值解决了确权问题,其通过区块链进行交易的流通过程实现了价值的维护和流通。该技术的普及无疑会加速自然进化“适者生存、劣者淘汰”基本生态协议执行的速度,会让未来社会文明繁荣创新的步伐,更加快速。    ...
Read More

沈颖老师与16级袁凯琦参加ICDM2018国际学术会议

在雷凯老师和沈颖老师的指导下,16级学生袁凯琦的一篇Demo论文被第18届IEEE International Conference on Data Mining(ICDM 2018)录用。下面是论文简介. 论文题目:IDDAT:An Ontology-Driven Decision Support System for Infectious Disease Diagnosis and Therapy 论文简介:基于传染病和抗生素本体,参考临床上疾病诊断与病历数据,文章提出一套为常见感染疾病及其诊疗自动医疗决策系统IDDAT。IDDAT所使用的本体还与医疗领域其他本体进行对比实验,在疾病诊断和治疗方案方面的准确性,召回率等指标均获得十分出色的表现。 2018年11月17日至20日,沈颖老师和研三学生袁凯琦前往新加坡圣淘沙岛会议中心参加ICDM会议。圣淘沙岛位于新加坡本岛南部,素有“欢乐宝石”的美誉。ICDM涵盖了数据挖掘的所有方面,吸引了来自统计、机器学习、模式识别、数据库、数据仓库、数据可视化、基于知识系统和高性能计算等领域的研究人员,应用程序开发人员与从业人员。ICDM旨在促进新颖、高质量的研究成果和对具有挑战性的数据挖掘问题的解决方案,从而推进数据挖掘的进展。 本次会议共设立Deep Learning,Recommendation,Bioinformatics等分会场。现场各位学者做了精彩纷呈的学术回报,在听取报告时,遇到了不少与实验室知识图谱组联系比较紧密的课题,我们也提出了不少问题,随着讨论的深入,也加深了对文章的理解。会后,学生袁凯琦在沈老师的指导下,将继续紧密follow一些相关研究:Dynamic Illness Severity Prediction via Multi-task RNNs for Intensive Care Unit,A United Approach to Learning Sparse Attributed Network Embedding等文章,以进一步开展毕业设计研究工作。 18日1:30至5:40是Demo Paper展示环节。我们给与会者讲解了“IDDAT: An Ontology-Driven Decision Support System for Infectious Disease Diagnosis and Therapy”。在讲解过程中,大家比较关心数据来源,疾病诊断与决策的底层实现,知识图谱的存储与推理等等问题,充满体会到了医疗与人工智能结合的挑战(医学背景知识,医学数据采集),并对我们的工作予以肯定。 听完三天的会议报告,我们获益匪浅,并且总结了目前主要的研究趋势: 多视角注意力机制 多任务学习 时间序列信息 User信息编码 我们希望在接下来的日子,能够把这些新想法融合到实验室的研究工作中。最后,感谢互联网研发中心雷凯老师和沈颖老师在论文写作、投稿等方面给予的支持。 ...
Read More

近年来内容中心网络与区块链重点实验室优秀文章概览(二)

实验室经过这几年的积累,发表了不少优秀的文章,现在在这做一个展示概要,包括文章的简介,pdf链接以及部分文章的开源代码github链接。 IEEE Transactions on Industrial Informatics ( Volume: 14 , Issue: 6 , June 2018 ) An NDN IoT Content Distribution Model With Network Coding Enhanced Forwarding Strategy for 5G 文章链接:https://ieeexplore.ieee.org/document/8170270 作者:Kai Lei,Shangru Zhong ,Fangxing Zhu,Kuai Xu,Haijun Zhang 简介:第五代(5G)物联网(IoT)应用的挑战性要求激发了对可行网络架构的期望需求,而命名数据网络(NDN)是支持高密度物联网应用的合适候选者。为了在大规模物联网应用中有效地分发越来越多的数据,本文将网络编码技术应用到NDN中,以提​​高物联网网络吞吐量和5G内容传输效率。基于概率的多径转发策略被设计用于网络编码以充分利用其潜力。为了量化在5G NDN中应用网络编码的性能优势,本文将网络编码集成到ndnSIM模拟器中实现的NDN流媒体系统中。实验结果清楚而公正地表明,考虑5G NDN中的网络编码可以显着提高性能,可靠性和QoS。此外,这是一般解决方案,因为它适用于大多数缓存方法。更重要的是,我们的方法在提供包括高质量流视频服务在内的不断增长的物联网应用方面具有巨大的潜力。 Abstract: The challenging requirements of fifth-generation (5G) Internet-of-Things (IoT) applications have motivated a desired need for feasible network architecture, while Named Data Networking (NDN) is a suitable candidate to support the high density IoT applications. To effectively distribute increasingly large volumes of data in large-scale IoT applications, this paper applies network coding techniques into NDN to improve IoT network throughput and efficiency of content delivery for 5G. A probability-based multipath forwarding strategy is designed for network coding to make full use of its potential. To quantify performance benefits of applying network coding in 5G NDN, this paper integrates network coding into a NDN streaming media system implemented in the ndnSIM simulator. The experimental results clearly and fairly demonstrate that considering network coding in...
Read More

15级张丽珠同学中稿Journal of Biomedical Informatics期刊

Journal of Biomedical Informatics 期刊 Journal of Biomedical Informatics(https://www.journals.elsevier.com/knowledge-based-systems/) 是人工智能领域跨学科、面向应用的学术期刊,最新的影响因子(IF)为2.882。 15级同学张丽珠,在实验室雷凯老师和沈颖老师的指导下,完成一篇论文,并已确认被Journal of Biomedical Informatics 期刊录用,论文具体简介如下: 标题:CBN: Constructing a Clinical Bayesian Network based on Data from the Electronic Medical Record 作者:Ying Shen, Lizhu Zhang, Jin Zhang, Min Yang, Buzhou Tang, Yaliang Li, Kai Lei 链接:https://authors.elsevier.com/a/1Y1Yd5SMDQYjHP 简介: 从电子病历(EMR)学习涉及疾病和症状的候选因果关系的过程是学习直接从真实医疗保健数据执行诊断推断的模型的第一步。然而,现有的诊断推理系统依赖于诸如本体之类的知识库,其通过劳动密集型过程手动编译或者使用简单的成对统计自动导出。我们探索CBN,一种用于医学本体概率推理的临床贝叶斯网络构建,直接从EMR学习高质量贝叶斯拓扑和完整本体。具体来说,我们首先从超过10,000个被识别的患者记录中提取医疗实体关系,并采用优势比(OR值)计算和K2贪婪算法来自动构建贝叶斯拓扑。然后,贝叶斯估计用于概率分布。最后,我们采用贝叶斯网络来完成本体的因果关系和概率分布,以增强本体推理能力。通过评估学习的拓扑结构与医生的专家意见和熵计算以及通过计算基于本体的诊断分类,我们的研究表明,从医疗记录中直接和自动构建高质量的健康拓扑和本体是可行的。我们的结果是可复现的,我们将在文章发布后发布该工作的源代码和CN-Stroke知识图谱。...
Read More

16级邓扬中稿AAAI 2019

The Thirty-Third AAAI Conference on Artificial Intelligence (AAAI-19) 将于2019年1月27日至2月1日在美国夏威夷举行。AAAI是人工智能领域的顶级国际会议(https://aaai.org/Conferences/AAAI-19/),CCF A类会议。   16级邓扬同学在雷凯老师和沈颖老师的指导下,在本次会议中被录用了一篇论文,下面是论文简介: Multi-Task Learning with Multi-View Attention for Answer Selection and Knowledge Base Question Answering 作者:Yang Deng, Yuexiang Xie, Yaliang Li, Min Yang, Nan Du, Wei Fan, Kai Lei*, Ying Shen*(共同通讯)   简介:答案选择和知识库问答(KBQA)是问答系统的两个重要任务。现有的方法分别解决这两个任务,需要大量的重复工作,而忽略了任务之间丰富的相关信息。本文基于以下动机,通过多任务学习(MTL)同时处理答案选择和KBQA任务。首先,答案选择和KBQA都可以看作是一个排序问题,一个在文本级别,而另一个在知识级别。第二,这两个任务可以互相促进:答案选择可以结合来自知识库(KB)的外部知识,而KBQA可以通过从答案选择中学习上下文信息来改进。为了实现联合学习这两项任务的目的,我们提出了一种新的多任务学习方案,它利用从不同角度学习的多视角注意力,使这些任务能够相互交互,并学习更全面的句子表示。在多个真实数据集上的实验验证了该方法的有效性,提高了答案选择和KBQA的性能。此外,多视角注意力机制被证明能有效地从不同表征角度组装注意力信息。...
Read More

17级覃孟参加SIGCOMM 2018国际会议

2018年8月20日至25日,实验室17级覃孟同学参加了在匈牙利布达佩斯举行的ACM SIGCOMM 2018国际学术会议(ACM Special Interest Group on Data Communication),并在该会议附属的Network Meets AI & ML (NetAI) Workshop上将实验室最新研究成果与来自全球不同研究领域的学者共同讨论。 ACM SIGCOMM 2018会场     ACM SIGCOMM是计算机网络通信领域的重要学术会议,被中国计算机学会(CCF)列为A类学术会议,主要关注计算机网络通信应用、技术、体系结构和协议等的最新研究成果;同时,今年也是NetAI Workshop在SIGCOMM会议举办的第一届,该workshop主要关注如何利用人工智能技术有效应对现有网络系统的面临的挑战。 本次ACM SIGCOMM会议主要关注投稿论文是否在计算机网络通信领域是否具有: 重要且深刻的贡献 (Important deep contributions); 大胆且新颖的想法 (Daring novel ideas); 较宽广的应用范围和包容性(Breadth of scope and inclusivity)。 最终在222篇投稿论文中选择接收40篇;其中,两篇Best Paper分别为"Sincraonia: Near-Optimal Network Design for Colflows",以及"Inferrin Persistent Interdomain Congestion"。另外,两篇Test of Time Award论文分别为SIGCOMM 2008的"A Scalable, Commodity Data Center Network Architecture"和SIGCOMM 2016的"XORs in the air: practical wireless network coding"。 在会议伊始,主办方简要地总结了近期计算机网络通信领域的几大研究热点,主要包括: 无线网络; 数据中心网络; 机器学习技术在计算机网络领域的应用。 尤其对于机器学习技术的应用,会议的主流观点认为,随着人工智能在近几年的蓬勃发展,其受关注程度远远超过了计算机网络,但计算机网络应该始终保持其作为一个核心研究领域的地位,且应该成为一个不断发展的研究热点。进一步地,NetAI Workshop的主旨也强调,人工智能技术能够用于应对目前计算机网络中面临的挑战;另一方面,计算机网络的前沿技术也能够有效地帮助人工智能系统解决性能瓶颈问题。二者应该相辅相成,共同发展。 会议内容锦集     实验室17级覃孟同学和16级张翼同学在雷老师的指导下,分别在NetAI Workshop上发表长文"Adaptive Multiple Non-negative Matrix Factorization for Temporal Link Prediction in Dynamic Networks"和"IFS-RL: An Intelligent Forwarding Strategy Based on Reinforcement Learning in Named-Data Networking",并分别由覃孟同学和华为2012实验室的白铂老师做论文的口头汇报。 NetAI Workshop报告现场     两篇论文的简介如下: 标题:Adaptive Multiple Non-negative Matrix Factorization for Temporal Link Prediction in Dynamic Networks 作者: Kai Lei, Meng Qin, Bo Bai*, Gong Zhang. 文章链接:https://dl.acm.org/citation.cfm?id=3229546 简介:对于用户移动性、网络动态拓扑和网络流量的预测是改善各种网络系统性能的有效手段,而相关的网络系统动态性预测问题能够以复杂网络分析的观点一般性地抽象为时序链路预测(temporal link prediction)问题。从网络表征(network embedding)的观点出发,提出一种自适应多重非负矩阵分解(adaptive nonnegative matrix factorization, AM-NMF)模型解决上述问题。在非负矩阵分解(nonnegative matrix factorization, NMF)框架下,该模型将动态网络嵌入到一个保留了不同网络快照动态变化特征的低维隐含空间。特别地,由于引入自适应参数自动地调节混合模型中不同分量的相对重要性,该模型还能有效地结合不同时间片下的隐含信息,并考虑单个时间片与动态网络整体的内在关联性。进一步地,关于下一个时间片网络快照的预测结果能够通过执行NMF的逆过程生成。作为一个应用示例,该模型也被应用于各种网络系统相关的数据集,包括人移动网络、车辆移动网络、无线网格网络和数据中心网络。相关实验结果表明,该方法在无权网络和带权网络的时序链路预测任务上的性能超过现有的方法。   标题: IFS-RL: An Intelligent Forwarding Strategy Based on Reinforcement Learning in Named-Data Networking 作者:Yi Zhang, Bo Bai, Kuai Xu, Kai Lei* 文章链接:https://dl.acm.org/citation.cfm?id=3229547 简介:命名数据网络(Named-Data Network, DND)是一种新型的通信范式,它的基本网络原语是基于命名数据而不是主机标识。与传统的IP网络架构相比,NDN的数据传输平面允许每个路由器独立自主地选择下一个转发的接口,而不依赖于具体的路由过程。因此,转发策略在NDN的自适应高效数据传输过程中具有重要的影响。现有的大多数转发策略使用固定的控制规则或基于适用于某些特定部署环境的简单模型,但并不能应用于多种网络场景,也不能应对多样的应用需求。基于增强学习(reinforcement learning),提出一种智能转发策略IFS-RL。通过训练一系列的神经网络,该模型能够根据路由节点收集的Interest包历史转发信息自适应地确定合适的转发接口,而并不依赖于某个预定程序的模型(pre-programmed model)。因此,该模型能够适用于多种不同的网络状态。在基本模型的基础上,也考察了模型的学习力度,并提出一种改进方案使得基本模型能够有效地应对网络拓扑的变化。在NDNSim上的相关性能评价实验结果表明,IFS-RL模型在吞吐量和丢包率方面相比于现有方法具有更好的性能。 通过参加本次会议,不仅了解到了计算机网络通信领域最新研究进展,也充分认识到自身的学术研究能力仍与顶级学术会议有巨大的差距,以及自身研究工作中存在的不足,可谓收获颇丰。在接下来的科研工作中,不仅需要脚踏实地做出具有实质性学术贡献的工作,也需要有挑战国际顶级学术会议和期刊的勇气、魄力和信心。最后,感谢互联网研发中心雷凯老师的资助,以及在论文写作、投稿等方面给予的支持。 ACM SIGCOMM 2019信息 @匈牙利 布达佩斯 多瑙河畔...
Read More

16级陈道源、邓扬同学参加COLING 2018国际会议

美国时间2018年8月20-26日,16级陈道源、邓扬同学与雷凯老师一同参加了在美国新墨西哥洲圣达菲(Santa Fe, New Mexico)举办的COLING 2018 (International Conference on Computational Linguistics) 计算语言学国际会议,将实验室的研究成果在会议上展示并与来自全球的学者共同讨论。 COLING会议是自然语言处理领域的重要国际会议,每两年举办一次,被中国计算机学会(CCF)列为B类会议,专注于展示与计算语言学及自然语言处理基础理论、技术与应用有关的研究,在信息检索领域具有很高的国际影响力(http://coling2018.org/)。 陈道源同学在本次会议上发表了一篇长文“Cooperative Denoising for Distantly Supervised Relation Extraction”,并在会议上做了海报论文展示。 邓扬同学在本次会议上发表了一篇长文“Knowledge as A Bridge: Improving Cross-domain Answer Selection with External Knowledge”,并在会议上做了口头汇报论文展示。 通过参加本次会议,了解了相关领域内最新研究进展,开拓了视野。通过做报告,认识到了语言表达的重要性。通过与参会人员的交流,受到了很多启发。感谢互联网研发中心、雷老师和沈老师的资助。   以下是论文列表及简介: Cooperative Denoising for Distantly Supervised Relation Extraction 作者:Kai Lei*, Daoyuan Chen*, Yaliang Li, Nan Du, Min Yang, Wei Fan, Ying Shen. (* indicates equal contribution) 文章链接:https://aclanthology.coli.uni-saarland.de/papers/C18-1036/c18-1036 简介:远监督关系抽取极大地减少了从非结构化文本中提取关系事实的人力成本。但是它存在着噪声标签的问题,这会极大损害抽取性能。与此同时,知识图谱中所表达的有用信息仍未在最先进的远监督关系提取方法中得到充分利用。针对这些挑战,我们提出了一种新的协同去噪框架,该框架由两个分别利用文本语料库和知识图谱的基础网络组成,以及一个通过自适应双向知识精馏和以动态集成应对噪声变化实例的协作模块。在真实数据集上的实验结果表明所提出的方法可以有效减少噪声标签,并在最先进的方法上取得实质性的改进。   Knowledge as A Bridge: Improving Cross-domain Answer Selection with External Knowledge 作者:Yang Deng, Ying Shen, Min Yang, Yaliang Li, Nan Du, Wei Fan, Kai Lei 文章链接:https://aclanthology.coli.uni-saarland.de/papers/C18-1279/c18-1279 简介:答案选择是一项重要而具有挑战性的任务。在大量标记的训练数据可用的领域已经取得了显著的进展。然而,获得丰富的注释数据是耗时和昂贵的过程,将答案选择模型应用到具有有限标记数据的新领域将会有很大的障碍。在本文中,我们提出了知识感知注意力网络(KAN),一个跨领域答案选择的迁移学习框架,使用知识库作为桥梁,使知识从源领域转移到目标领域。具体地,我们设计了一个知识模块,将基于知识的表示学习集成到答案选择模型中。所学的基于知识的向量表示由源领域和目标领域共享,这不仅利用大量的跨领域数据,而且还受益于正则化效应,从而导致更通用的文本表示来帮助新领域中的任务。为了验证我们的模型的有效性,我们使用SQUAD-T数据集作为源域数据集和三个其他数据集(即yahoo QA,TREC QA和insuranceQA)作为目标域。实验结果表明,KAN具有很强的适用性和通用性,在跨域答案选择方面明显优于目前最好的模型算法。 ...
Read More

16级袁凯琦同学参加KSEM 2018国际会议

2018年8月17日至19日, 16级袁凯琦同学在雷凯,沈颍老师指导下, 参加了在中国沈阳举办的KSEM 2018(The 11th International Conference on Knowledge Science, Engineering and Management)国际会议, 将实验室的成果在会议上展示并与来自全球的学者共同讨论。 国际知识科学工程与管理大会(KSEM)是知识科学相关领域领先的国际会议,是中国计算机学会推荐为C类会议,其议题主要包括知识科学(Knowledge Science),知识工程(Knowledge Engineering)和知识管理(Knowledge Management)等三个方面,具有一定的国际影响力。该会议此次共收到投稿262篇投稿,其中仅有62篇被全文接收,接收率为23.6%,27篇以短文形式接收,接收率为10.3%,竞争较为激烈。 袁凯琦同学在本次会议上发表了一篇“MedSim: A Novel Semantic Similarity Measurein Bio-medical Knowledge Graphs”, 并做了oral汇报。 通过参加本次会议,了解了相关领域内最新研究进展,开拓了视野。通过做报告,认识到了语言表达与外语的重要性。通过与参会人员的交流,受到了很多启发。感谢互联网研发中心、雷老师和沈老师的资助。     下面是论文简介。 论文题目:MedSim: A Novel Semantic Similarity Measure in Bio-medical Knowledge Graphs 论文作者:Kai Lei, Kaiqi Yuan, Qiang Zhang and Ying Shen 文章链接:https://link.springer.com/chapter/10.1007/978-3-319-99365-2_43 论文简介:我们提出了一种基于权威的生物医学知识图和大规模语料库的新型予以相似性方法MedSim,用于研究抗生素治疗替代方案。文中中除了利用知识图谱的层次结构和语料库的信息外,MedSim还通过构建多维的医学特征向量来进行进一步解释医学特征。在实验结果评估方面,MedSim比其他语义相似性方法在由医生评分的528个抗生素对的数据集产生了统计学上显著的改进。此外,文章中还通过案例分析,探索MedSim在药物替代治疗方案和药物滥用预防方面的应用。 ...
Read More