2014-2015学年科研沙龙(八)

科研沙龙活动记录(八) 时间:2014.12.22 18:30 地点:A118会议室 主讲人:钟尚儒 黄康贤 主持人:袁梦 参与人员:雷凯老师和13级、14级同学 活动内容:       钟尚儒同学介绍了Google开源的音视频聊天技术WebRTC,回顾了其历史由来和介绍了技术框架和底层实现。这是一个基于Web前端的音视频通信技术,Google将其开源,希望Web开发者能用简单的JavaScript API就可以开发基于浏览器(Chrome、FireFox等)网页的实时多媒体聊天应用,无需下载安装任何插件。开发者也无需关注多媒体额的数字信号处理(编解码、去噪滤波)过程,以浏览器为应用入口,一定意义上实现了应用的跨平台。同时在Google的努力下,WebRTC技术已经成为2014年10月正式发布的HTML5标准之一。       Google收购多家音视频引擎公司On2、GIPS(Global IP Sound)后,将其优秀的核心音视频引擎iSAC、iLBC、VP8等的代码通过WebRTC对外公开,同时也公布了多媒体传输模块、建立P2P通信的ICE框架(STUN+TURN),轻易实现NAT/防火墙穿越。这些模块的源码对于多媒体编解码、网络转发传输都有很好的学习价值。 Q&A摘录: (燕红磊)问:传统实时视频跟WebRTC的性能比较如何? 答:WebRTC只是做出了DEMO,并没有进行跟传统实时视频进行性能评估。 (陶世博)问:你调研WebRTC是想要做什么? 答:我研究WebCRT主要是为了实现通过浏览器进行视频会议和小组讨论之类的应用场景。虽然市场上有微信、QQ之类的视频语音通信软件,但这类软件功能比较繁杂,不够专一,并且都是基于客户端的,不如浏览器来的方便,所以调研了WebRTC。       黄康贤同学介绍的内容是在手游领域很火的开源2d游戏引擎cocos2d。使用cocos2d家族开发的游戏据说占据收入排行榜的80%以上。Cocos2d那么流行的主要原因有几点:1.Cocos2d把握住时机,在手游开发热潮爆发之前推出;2.Cocos2d是开源免费的;3.Cocos2d简单易用,并有很多配套的工具以提高游戏开发的效率。目前来说,cocos2d还是手游领域最热门的引擎,但是随着苹果推出自己的游戏方面的框架、以及3d手游的迅速发展,Cocos2d的前景充满了未知。 (燕红磊)问:Cocos2d实现了跨平台,是只用OpenGL,不用DirectX 吗? 答:一些Cocos2d版本OpenGL和DirectX这两种方式都实现了。       今天刚好是冬至,雷老师询问大家有没有吃饺子,同学们表示有吃饺子还有吃汤圆的。过了冬至,节气到来,冬季将进入最冷的时段,寒冷天气使机体御寒能力下降,虽然在南国,雷老师提醒大家仍然要注意保暖。 附: 获奖名单: 优胜奖:钟尚儒 鼓励奖:黄康贤 好问题奖: 燕红磊*2、陶世博 活动录像存放地址: ftp://www.icnlab.cn/BigData/2014-2015year scientific research salon/eight 2020141222/...
Read More

2014-2015学年科研沙龙(七)

科研沙龙活动记录(七) 时间:2014.11.24 地点:A118会议室 主讲人:张炜阳 翁魏涛 主持人:袁梦 参与人员:13级、14级同学 活动内容:       张炜阳同学介绍的内容是近期很火的开源项目Docker。Docker的核心是基于Linux Container的轻量级虚拟化技术。不同于传统的KVM、Xen等Hypervisor的虚拟化技术,Docker不需要在Host OS上再创建Guest OS,而是直接通过层次化的镜像,利用dockerfile就可以在容器中运行应用及其依赖。Docker通过image、container、registry三大组件分别实现了应用的build、run、ship。相信Docker会推动Container as a Service(CaaS)这一云计算新模式的进步,从而改变传统的应用开发模式。     Q&A摘录: (燕红磊)问题:Docker 能代替Hypervisor 吗?Docker能实现动态迁移吗? 答:Docker不能完全代替Hypervisor , 但是它实现了其部分功能,在某种程度上说比Hypervisor 更加强大,Docker可以实现容器迁移,这样就可以大大地分担了服务器的负担,实现容器共享。 (陶世博)问:docker是一个linux上的组件还是一个应用?docker中的命令是怎么执行的?你是怎么知道docker的? 答:docker是linux上的一个组件,在运行命令时,docker首先启动一个系统镜像,命令是在这个镜像中执行的,就像本地执行一样。我在做web开发时发现论坛中这个东西很火就学习了一下。 (唐浩)问:Docker与传统的VM有哪些不同? 答:传统的VM中每个app都需要调用自己的Guest OS中的API,而Docker中,每个app通过Dockers Engine调用Host OS中的API,效率更高。        翁蔚涛同学结合自身参加两次国际学术会议的经历,给大家介绍了参加国际学术会议的整个流程。主要包括参加会议之前的准备、会议的整个流程和参会的收获和意义。希望能够激发实验室同学们的科研热情和兴趣。     (杨林青)问:如果中了B类会议,需要在国外开,我们可以出国开会吗? 答:这个因情况而定吧,但是国内开的会议一般都是可以去的。 (刘涌斌)问:对于中稿的会议,由于没办法去现场参加,会议主办方有权撤销所中的论文,怎么办? 答:自己不能参加,可以叫别人代替参加,把自己的所要演讲的内容或Poster发个代替者。 (陶世博)问:apweb是哪类会议?为什么这么豪华? 答:apweb是一个C类会议,虽然是C类,但是文章质量还不错,apweb2014在长沙举行,去了好多学术界大牛,像韩家炜、方滨兴等,其他学术界的高校等科研机构也很多,所以就会高大上一点。       附: 获奖名单: 优胜奖:张炜阳 鼓励奖:翁魏涛 好问题奖: 燕红磊、唐浩、刘涌斌、陶世博(*2)、杨林青 活动录像存放地址: ftp://www.icnlab.cn/BigData/2014-2015year scientific research salon/six20141124/...
Read More

2014-2015学年科研沙龙(六)

时间:2014.10.27   18:30 地点:A118会议室 主讲人:唐浩  袁杰 主持人:袁梦 参与人员:雷凯老师和13级、14级同学 活动内容:       唐浩同学介绍的内容是NDNoT,named data networking of things。主要在NDN网络下实现 IoT(物联网系统),包括NDN网络与物联网相关的特性,IoT设备本身的特点,IoT系统架构上的问题,以及NDN所能提供的解决方案。从设备层面上看,将物联网系统运行在NDN下,可以大幅减小设备本身的负载,增加网络传输的效率。从系统架构上看,在NDN上实现IoT系统,可以在保证系统安全性的情况下,降低整个系统配置的复杂度。 Q&A摘录: (张轶航)问:路由方面NDN和现有网络有什么区别,最大的区别是什么? 答: TCP/IP的路由表需要预先配置,而NDN路由器的路由表可以通过洪泛法向所有接口转发Interest请求,然后根据Data返回的接口配置路由表。TCP/IP主要是实现两台远程主机之间的点对点通信,以主机为中心,数据总是在用户和内容源之间进行传输,即便中间节点有数据,这样就造成了数据的冗余传输并且效率比较低。NDN中,用户不需要从内容源请求数据,而是可以从拥有该内容的附近节点直接获取数据。消除了网络地址的概念,用户在获取内容的时候只关心内容本身。这样,有效降低了数据的冗余传输,避免了网络冲突和拥塞。同时,又因为消除了网络地址的概念,彻底解决了IP不足的问题。 (巩力睿)问:在ndn里怎么样才恩能够保证安全性,包括公钥私钥是怎么传输的,怎么分发,还有ndn的名字传输是否是明文的? 答:NDNIoT的访问控制是基于用户身份的,用户的密钥表明其身份。数据由对称密钥加密,对称密钥在管理员和用户之间共享,对称密钥经过用户的公钥加密,由管理员发给用户。用户本身的公钥私钥获取一般同当前TCP/IP网络下密钥获取的方案一样。 (刘辰巍)问:对于NDN网络物联网的这个应用中,对于in-network cache 的调度机制是怎样的,有效时间有多长? 答:调用机制有很多种,看具体的情况,基本上使用的是LRU的机制进行调度,有效时间也看该Cache的命中率,同时与大小也有关系。        袁杰同学主要介绍了专利申请的有关知识 ,包括专利的分类、专利的申请程序、PCT专利的概念、专利的审批过程以及专利申请文需要准备的文件。详细介绍了专利申请文件中的说明书的作用、撰写要求以及一些不合法的撰写实例。最后给出了部分免费的专利检索网站。 Q&A摘录: (唐浩)问:专利局中由谁来审批专利? 答:专利局内部有数目庞大的技术人员,检索数据库,对专利进行审查,涉及到专利冲突时会找到先前专利持有人或该公司的相关部门进行探讨。 (燕红磊)问:如何使用别人申请的专利? 答:如果该专利失效,则可以直接使用;如果该专利有效,若以科研为目的,可以直接使用,若以生产经营为目的,需要跟申请人协商,否则视为侵权。 (杨林青)问:如果一个技术可以用到不同的领域,那么这个技术是否可以在单独领域申请专利? 答:这是不成立的,因为对于专利最重要的是权利认证书,认证书只涉及实现的技术,而非领域,所以不可以。   附: 获奖名单: 优胜奖:袁杰 鼓励奖:唐浩 好问题奖: 张轶航、巩力睿、刘辰巍、唐浩、燕红磊、杨林青 活动录像存放地址: ftp://www.icnlab.cn/BigData/2014-2015year scientific research salon/six 20141027/        ...
Read More

新老生交流会成功举办

       为了欢迎实验室14级的小伙伴们,使他们尽快熟悉并融入实验室,对实验室生活、南燕生活有更加全面的了解和认识,实验室9月18日19:00在A118会议室成功举办了新老生交流会,参加此次会议的有雷凯老师、12级的4位师兄、13级和14级全体同学。         交流会上,雷凯老师首先为14级的同学介绍了实验室的基本情况,主要讲了实验室对大家科研、发论文的期望和要求,对平日的出勤以及同上届同学多多交流做了提及。接着12级的黄康贤、陈涛、虞龙煜、王嘉炜、13级的全体同学对自己之前以及现在的研究内容向师弟师妹们做了简单介绍,每个人介绍完毕之后,师弟师妹如有问题都做了相应的解答。虽然之前实验室中秋聚餐,可是一次的自我介绍,还是认不准新面孔,所以14级的师弟师妹又一一作了自我介绍,大家介绍完毕之后,进行最后一个——提问环节。          师弟师妹大多对实验室的科研方向、专利、论文以及研一的课程要求比较好奇,问题也大多是在这些方面,12、13级的同学都耐心做了解答,期间大家都很幽默,整个交流会洋溢着欢乐的气氛。          通过这次交流会的举办,希望能使实验室的同学尽快熟悉,增加同学之间的交流,促进同学之间的友谊,更好的科研,更好的生活! ...
Read More

2014-2015学年科研沙龙(五)

时间:2014年06月05日 地点:A118会议室 主讲人:沙文鹏,张宇骁 主持人:于倩 参与人员:雷凯老师、黄连恩老师、实验室全体同学 活动内容: 2014年06月05日,星期四晚19点,互联网实验室2014-2015学年第五次科研沙龙如期在会议室A118举行。参与本次科研沙龙的有雷凯老师、黄连恩老师以及实验室全体同学。本次科研沙龙由12级于倩主持,11级沙文鹏及13级张宇骁进行讲解。 11级沙文鹏同学的讲演主题为论文中的英语写作,主要关注点为论文写作中英语语法、句式、内容及表达方式等方面。首先,他针对论文结构中每部分应该注意的知识点以及会犯的错误进行总结,进而对每个总结的部分进行举例论证,通过具体实例告诉同学们应该怎样去改进和避免。他在讲演中更是强调论文摘要的重要性,论文应该写什么内容,重点放在哪里以及怎么样的句式和表达更合适。 Q&A摘录: (唐浩)问:是否存在论文写作的模板,我们可以将论文内容迅速嵌套进去? 答: 不像托福GRE写作的模板有很多,据我所知专门适用于论文写作的还没有,需要自己平时总结。 (李树一)问:分号在英文写作中重要吗?有必要专门掌握一下分号的用法吗?答:分号是一种停顿时间介于逗号与冒号之间的符号。文章采用许多分号能使其风格显得严肃、正式。还是有必要掌握一下的,否则相关的小错误出现的多了就很麻烦。 (王家祥)问:论文写作中不可避免的会遗留一些错误,审稿人对这些错误的容忍程度有多大? 答: 什么时候会影响论文内容的阐述?答:中国人写英语论文错误不可避免,到肯定要尽量少犯错误 张宇骁同学主要讲了一种对于k-means计算的改进算法,算法利用信息检索领域中的倒排索引和wand技术,有效地减少了原k-means算法中非常耗费时间的相似度计算过程,同时,由于wand算法是用来找相似度最大的N个文档,算法为了避免选取的点太少而使得中心点的收敛过慢,在计算中保留了所有参与过wand栈的数据点,来一起计算中心点,相当于一种比较完善的取样。最终,算法得到了比传统k-means快70到100倍的速度提升。尤其是在大文档计算的时候,很明显。 Q&A摘录: (吴迪)问:有没有考虑通过分布式并行平台来提高K-Means算法的速度? 答: 考虑过,不过目前的数据量单机还是能够处理的,所以不太需要。 (王如慧)问:传统的已不适用的算法,是如何进行相似度计算的? 答:就是整个文本中的词一个一个匹配,举例:若文本一和二都含有两个单词“美元、汇率”,先比较美元,发现两个都有,则有50%相似,再匹配汇率又一样,则有100相似……。其实,就是用cos计算的方式,计算两个空间向量的距离。 (唐浩)问: 为什么一个算法可以提速10~100倍? 答: 因为之前的算法存在冗余计算的问题,这种算法提供了精简,所以能够大幅提高运算速度 附: 获奖名单: 优胜奖:沙文鹏、张宇骁 好问题奖: 吴迪、李树一、唐浩、王家祥、王如慧 PPT、活动录像存放地址: ftp://www.icnlab.cn/...
Read More

2014届硕士研究生毕业论文答辩会议顺利举行

      5月21日上午8:30,信息工程学院2011级计算机应用技术专业互联网信息工程研发中心硕士研究生毕业论文答辩会议在A栋118会议室顺利举行。答辩会议由哈尔滨工业大学的秦阳教授主持,答辩委员会成员、答辩秘书、答辩学生导师、答辩学生以及该实验室部分13级学生参加了此次答辩会议。       此次答辩委员会,由秦阳(主席)、李挥、李晓明、李险锋、雷凯五位老师组成。答辩秘书为程如中老师。本次答辩学生分别是:邹凡云、陈培、樊其锋、黄立富、李宏杰、李立华、彭程、秦大洲、沙文鹏、王思博、张帆、张凯、张志明共13名同学。 (答辩会开始)       答辩会议分为三个流程。首先,学生对学位论文进行PPT展示汇报;其次,是评委对学位论文进行评价,并围绕论文对答辩学生提出相关问题;最后,由委员会成员投票决定各学位论文是否合格通过。       答辩会上,学生对自己的学位论文进行了精彩的展示汇报,每一位学生将要在十五分钟内完成对论文的全面介绍,以使评委对论文有一个系统的了解。接着,各评委根据学生的展示汇报以及所提交的论文,进行评价,就论文提出相关问题由学生解答。还有,评委对各论文提出了很多独特的见解,对学生论文的完善提出宝贵的修改意见。总的来说,答辩委员会成员本着对师生、对学院负责任的态度,在肯定这次学生论文答辩的情况下,也指出了学生论文的一些不足,如论文中标点符号出错,论文体系不严谨等。 (提问环节)       经答辩委员会投票一致决定,答辩13篇论文均顺利通过答辩。其中,陈培、樊其锋、彭程、张凯、张帆五位同学的论文被评为优秀硕士毕业论文。最后,主持人秦阳老师宣布答辩会议结束。 (答辩所有人员合照)...
Read More

2014-2015学年科研沙龙(四)

科研沙龙活动记录(四) 时间:2014年05月15日 地点:A118会议室 主讲人:张志明、袁杰 指导老师:黄连恩 主持人:于倩 活动内容:       2014年05月15日晚19点,2014-2015学年第四次科研沙龙在A118召开。本次科研沙龙的主讲人为11级张志明和13级袁杰,两人汇报的主题分别是“IBM 沃森深度问答技术简介”和“公钥密码系统与基于身份密码体制的应用”。       11级张志明同学在介绍Watson Deep QA 问答技术简介的时候,分别从问题分析,搜索和候选答案生成,假说和证据评分,答案融合和排序以及Watson Deep QA问答技术的总结级方面进行介绍,Deep QA通过可扩展的自然语言处理,机器学习,推理算法集产生许多假设答案,并给他们评分。这些算法通过非结构化的和结构化的信息来收集和评估证据,最终确定最好的置信度的答案。在问题分析方面,张志明同学又从基础概念以及深度问题分析两方面进行了详尽的阐述。在讲解搜索和候选答案生成时,主要介绍了搜索的策略,并在讲解结束后与同学进行了讨论。 Q&A摘录: (张宇骁)问:系统里面的机器学习是针对每一类问题都设计一个逻辑回归模型吗? 答:是的 (吴迪)问:问答系统回答一个问题需要运行这么多算法,如何保证效率? 答:IBM采用了它的大型主机,里面还有些并行计算,来提高计算速度 (欧阳陶旭)问: Watson的智能应该如何改进,才能避免在人看来是很明显的错误? 答:Watson的智能主要靠统计数据而不是推理,所以难以避免这类错误。       在袁杰同学“公钥密码系统与基于身份密码体制的应用”的介绍中,他从对称密钥密码体制出发,首先介绍了对称密码的不足在于密钥管理和分配困难,在此基础上引入了公钥密码系统。介绍了公钥密码系统下的加密方法与签名机制,并指出了公钥密码体制的主要瓶颈在于公钥证书的管理和存储,进而介绍了一种基于身份密码体制的公钥密码体制,说明了身份密码的工作原理与流程,并以椭圆曲线上的双线性对为例介绍了一种基于身份密码的签名算法,并给出了基于身份密码的研究现状。同时这与13级同学所上的密码学课程相辅相成,同学们展开了热烈的讨论。 Q&A摘录: (张宇骁)问:如果一个用户用同一个公钥制作多次密钥,那么这机制岂不是没用了? 答:如果一个用户用同一个公钥制作多次密钥,那么这机制岂不是没用了? (吴迪)问:验证体系中的第三方服务器如果一旦崩溃,认证体系就会单点失效了,这个问题是如何应对的? 答:这个属于安全范畴的问题了,密码学主要研究的是这种认证机制 (候超俊)问:用户和第三方服务器之间有认证过程吗? 答:用户在向第三方服务器申请自己的私钥前,会向公众公布自己的公开信息,这样就可以在随后的过程中,自己的身份信息就会被公众认证。 附: 获奖名单: 优胜奖:袁杰 鼓励奖 张志明 好问题奖: 张宇骁、吴迪、候超俊、欧阳陶旭 PPT、活动录像存放地址: ftp://www.icnlab.cn/...
Read More

2014-2015学年科研沙龙(三)

时间:2014年04月28日 地点:A118会议室 主讲人:11级全体同学 主持人:于倩 活动内容: 2014年04月28日晚19点,互联网研发实验室全体同学在A118召开了2014-2015学年学习工作经验交流会。在会上由高年级的同学为低年级的同学分享三年的学习过所得以及在过去一段时间内找工作的经验。这是实验室一直以来所保持的传统,通过这样一个轻松愉快的交流环境将宝贵的信息及经验在实验室的师弟师妹中传承。 交流会上11级的同学根据自己个人的情况轮流做了介绍。大家分别从找工作前的复习、简历制作、投递简历的方法与途径、笔试应注意的细节以及最后在面试环节中可能遇到的问题等一一做了讲解。总体来讲11级的同学在工作方面分为两类,一类是互联网行业,这其中有11级张凯、张帆、张志明、柳胜兵以及彭程同学。彭程、张志明和柳胜兵同学都从简历准备和面试技巧上为大家提出了几点建议,同时更为师弟师妹推荐了几本介绍全面的书籍,而柳胜兵同学更是指出大家应该有针对性的修改自己简历,要有所受众。张凯和张帆同学则更侧重技术问题,比如大家应该怎样在平时去练好基础功以及在诸如阿里、网易、Google等公司在面试中会有怎样的环节。 而在非互联网行业中,11级的同学则从行业选择、就业时间、就业形式、面试技巧等方面进行了讲解。比如11级的王思博同学从自己所投递简历的经验中根据行业类别总结出目前业界普遍评价比较高的一些企业分享给大家,11级的李立华、秦大洲除了分享自己的投递经验外还为大家分享了自己对于招聘会和网申投递的看法。在众多毕业生盲目地选择进入北上广就业的时候,11级的邹凡云则选择了回家乡,首先她为大家分享了在选择城市时应该考虑的因素,这也正是11级陈培同学所着重强调的点。之后邹凡云又针对公务员考试中的技巧和答题策略做了简短的介绍。而11级的沙文鹏同学更是做了全面而细致的讲演,从行业分析、专业准备到心里准备都做了详尽的说明。 在所有11级同学完成分享后,就来到了提问环节,12级和13级的同学将自己疑惑的问题向各位师兄师姐咨询,比如13级的袁梦同学所提出的有关银行就业选择问题,13级马一宁同学提出的投递简历问题等。通过此次经验交流会,12级及13级每一位同学都学有所得,通过讲解与聆听促进了实验室同学之间的交流与了解,更体现了互联网实验室帮、传、带的优良传统。 ...
Read More

2014-2015学年科研沙龙活动记录(二)

时间:2014年04月1日 地点:A118会议室 主讲人:吴迪,王嘉炜 主持人:于倩 参与人员:雷凯老师、黄连恩老师、实验室全体同学 微博更新:@北大互联网中心CIRE 活动内容: 本次科研沙龙的主讲人分别是12级王嘉炜和13级吴迪同学。他们针对自己平日里学习所遇到的问题,以及论文的研读心得有针对性的做了汇报。同时实验室全体同学在听取完二者的报告后也都做了深入的讨论。   13级吴迪同学简单介绍了垃圾回收机制,首先对内存泄露现象进行分析,给出垃圾回收机制的必要性。之后分别对标记引用、标记清除、标记复制和标记压缩四种垃圾回收的算法进行说明,并给出他们的优缺点,在此基础上,针对JVM的堆结构,介绍了JVM中使用的垃圾回收算法。最后,给出了几种针对垃圾回收的程序性能调优方案。 Q&A摘录: (王嘉炜)问:能不能在编程语言中实现把大对象放在指定的位置? 答:暂时不清楚,但是可以通过使用JVM参数实现优化 (江旻)问:采用复制方式的垃圾回收机制如何有效解决耗时问题 答:内存地址采用间接指向,只需要更改基地址就好 (张宇骁)问: jvm的垃圾回收最终能解决物理上的内存碎片吗? 答:这个可能会有一定的解决机制。要看jvm具体和操作系统怎么交互 12级王嘉炜同学主要讲解了集群智能算法的概要,然后针对具体的蚁群优化算法,从真实蚂蚁的行为开始,抽象出一系列特性,形成蚁群优化思想的基本思路。然后针对具体的TSP问题进行了算法实现。详细讲解了生物素的挥发和更新过程,最后总结了蚁群优化算法的优缺点。 Q&A摘录: (吴迪)问:据蚁群算法的描述,每只蚂蚁的计算都是独立进行的,那么这个算法是否适合在分布式平台上运行,提高效率? 答:蚁群算法比较适合在分布式的环境下进行,例如路由选路问题,各个路由器都是分布式的,因此该算法在类似的分布式环境下应用比较广泛。 (王家祥)问:较大规模的网络中,所有蚂蚁选择同样路径会不会造成网络拥挤? 答:事实上是会的,但是通过更新生物素可以找到新的路径。 (张宇骁)问:蚁群算法目前能达到什么水平? 答:在美国地图这类问题上,目前是最好的。 附: 获奖名单: 优胜奖:吴迪 鼓励奖 王嘉炜 好问题奖: 张宇骁、吴迪、王嘉炜、王家祥、江旻 PPT、活动录像存放地址: ftp://www.icnlab.cn/ 2014-2015学年科研沙龙/第二次 20140401...
Read More

2014-2015学年科研沙龙活动记录(一)

2014年03月11日,星期二晚19点30分,互联网实验室2014-2015学年第一次科研沙龙如期在会议室A118举行。参与本次科研沙龙的有雷凯老师、黄连恩老师以及实验室全体同学。本次科研沙龙由12级于倩主持,11级张志明及王思博同学分别针对自己的研究方向做了详细的讲解。                                                                                       通过11级张志明同学的讲解,我们了解到主题是关联规则,用于从用户的购买行为中挖掘频繁项集,向未购买的用户推荐关联商品。它是数据挖掘中的一个简单而有效的算法。在淘宝,亚马逊等购物网站广泛应用。接着presentation中,张志明同学以具体的应用场景作为背景进行进步的介绍。最后在问答环节中,大家分别从概念到实现中自己不明白的地方进行提问。 Q&A摘录: (王亚洲)问: 频繁项挖掘出的结果,用在推荐系统中,需不需要考虑那些项集比较少的项。 答: 在实际的应用中使用的结果可能是最后几层,而不只是挖掘出的最后一层。 (王如慧)问:支持度是不是在每一次迭代中都不一样?每一次迭代的阈值,如何设定?阈值和支持度是相关的,若设定过小爱哦,那复杂度就相当大了? 答: 支持度由于下一层组合的,出现的次数可能会比单个商品出现的次数少,所以支持度可以不一样。阈值的设定是随便设的,可以说是经验值,要根据实际的环境。在实际应用时,需要做大量的实验,来衡量。 (张帆)问: 这个算法对于那种大数据是不是效果不太好?而且会有挖掘出来的关系为负向的关系 答: 的确在大数据下效果不是很好。 王思博同学主要讲解通用实体配图系统,该系统是在百度实习时接手的项目。首先介绍了实体是什么,接着介绍了实体配图的总体流程:首先对每个类别的实体进行配图,然后输入图片的全量库,包括simid,tag信息,图片周边文本等图片属性,根据term重要性,与实体进行匹配,然后根据图片特征的分类,和图片的simhash值进行相似性合并,并对图片质量在做一遍筛选,最后输出实体与图片的关联,并对结果进行评测。最后王思博对该系统的各个模块的详细过程又进行了讲解。 Q&A摘录: (吴迪)问:对于那些事件而言,是否可以搜索。比如马来航空这个 答: 大多数这种是对于一个实际存在的物体,对于事件的话不一定。 (王亚洲)问:实体对应图片的过程,能不能倒过来,即:它与百度识图的关系。 答:只要是图片经过一定方式处理,实际上实体和图片的对应过程就相当于对文本的处理和对文本的匹配。是可以倒过来进行的。 (欧阳陶旭)问: 现有的实体库配图过程能否采集使用者的信息进行反馈调整? 答: 当下的流程只能通过人工进行调整。 附: 获奖名单: 优胜奖:王思博 鼓励奖 张志明 好问题奖: 吴迪、欧阳陶旭、王如慧、王亚洲、张帆 PPT、活动录像存放地址: ftp://www.icnlab.cn/ 2014-2015学年科研沙龙/第一次 20140311...
Read More