2014年03月11日,星期二晚19点30分,互联网实验室2014-2015学年第一次科研沙龙如期在会议室A118举行。参与本次科研沙龙的有雷凯老师、黄连恩老师以及实验室全体同学。本次科研沙龙由12级于倩主持,11级张志明及王思博同学分别针对自己的研究方向做了详细的讲解。


                                                                                     

通过11级张志明同学的讲解,我们了解到主题是关联规则,用于从用户的购买行为中挖掘频繁项集,向未购买的用户推荐关联商品。它是数据挖掘中的一个简单而有效的算法。在淘宝,亚马逊等购物网站广泛应用。接着presentation中,张志明同学以具体的应用场景作为背景进行进步的介绍。最后在问答环节中,大家分别从概念到实现中自己不明白的地方进行提问。
Q&A摘录:
(王亚洲)问: 频繁项挖掘出的结果,用在推荐系统中,需不需要考虑那些项集比较少的项。
答: 在实际的应用中使用的结果可能是最后几层,而不只是挖掘出的最后一层。
(王如慧)问:支持度是不是在每一次迭代中都不一样?每一次迭代的阈值,如何设定?阈值和支持度是相关的,若设定过小爱哦,那复杂度就相当大了?
答: 支持度由于下一层组合的,出现的次数可能会比单个商品出现的次数少,所以支持度可以不一样。阈值的设定是随便设的,可以说是经验值,要根据实际的环境。在实际应用时,需要做大量的实验,来衡量。
(张帆)问: 这个算法对于那种大数据是不是效果不太好?而且会有挖掘出来的关系为负向的关系
答: 的确在大数据下效果不是很好。

王思博同学主要讲解通用实体配图系统,该系统是在百度实习时接手的项目。首先介绍了实体是什么,接着介绍了实体配图的总体流程:首先对每个类别的实体进行配图,然后输入图片的全量库,包括simid,tag信息,图片周边文本等图片属性,根据term重要性,与实体进行匹配,然后根据图片特征的分类,和图片的simhash值进行相似性合并,并对图片质量在做一遍筛选,最后输出实体与图片的关联,并对结果进行评测。最后王思博对该系统的各个模块的详细过程又进行了讲解。

Q&A摘录:
(吴迪)问:对于那些事件而言,是否可以搜索。比如马来航空这个
答: 大多数这种是对于一个实际存在的物体,对于事件的话不一定。
(王亚洲)问:实体对应图片的过程,能不能倒过来,即:它与百度识图的关系。
答:只要是图片经过一定方式处理,实际上实体和图片的对应过程就相当于对文本的处理和对文本的匹配。是可以倒过来进行的。
(欧阳陶旭)问: 现有的实体库配图过程能否采集使用者的信息进行反馈调整?
答: 当下的流程只能通过人工进行调整。

附:
获奖名单:

优胜奖:王思博
鼓励奖 张志明
好问题奖: 吴迪、欧阳陶旭、王如慧、王亚洲、张帆
PPT、活动录像存放地址:
ftp://219.223.192.222/ 2014-2015学年科研沙龙/第一次 20140311