2014-2015学年科研沙龙(四)

科研沙龙活动记录(四) 时间:2014年05月15日 地点:A118会议室 主讲人:张志明、袁杰 指导老师:黄连恩 主持人:于倩 活动内容:       2014年05月15日晚19点,2014-2015学年第四次科研沙龙在A118召开。本次科研沙龙的主讲人为11级张志明和13级袁杰,两人汇报的主题分别是“IBM 沃森深度问答技术简介”和“公钥密码系统与基于身份密码体制的应用”。       11级张志明同学在介绍Watson Deep QA 问答技术简介的时候,分别从问题分析,搜索和候选答案生成,假说和证据评分,答案融合和排序以及Watson Deep QA问答技术的总结级方面进行介绍,Deep QA通过可扩展的自然语言处理,机器学习,推理算法集产生许多假设答案,并给他们评分。这些算法通过非结构化的和结构化的信息来收集和评估证据,最终确定最好的置信度的答案。在问题分析方面,张志明同学又从基础概念以及深度问题分析两方面进行了详尽的阐述。在讲解搜索和候选答案生成时,主要介绍了搜索的策略,并在讲解结束后与同学进行了讨论。 Q&A摘录: (张宇骁)问:系统里面的机器学习是针对每一类问题都设计一个逻辑回归模型吗? 答:是的 (吴迪)问:问答系统回答一个问题需要运行这么多算法,如何保证效率? 答:IBM采用了它的大型主机,里面还有些并行计算,来提高计算速度 (欧阳陶旭)问: Watson的智能应该如何改进,才能避免在人看来是很明显的错误? 答:Watson的智能主要靠统计数据而不是推理,所以难以避免这类错误。       在袁杰同学“公钥密码系统与基于身份密码体制的应用”的介绍中,他从对称密钥密码体制出发,首先介绍了对称密码的不足在于密钥管理和分配困难,在此基础上引入了公钥密码系统。介绍了公钥密码系统下的加密方法与签名机制,并指出了公钥密码体制的主要瓶颈在于公钥证书的管理和存储,进而介绍了一种基于身份密码体制的公钥密码体制,说明了身份密码的工作原理与流程,并以椭圆曲线上的双线性对为例介绍了一种基于身份密码的签名算法,并给出了基于身份密码的研究现状。同时这与13级同学所上的密码学课程相辅相成,同学们展开了热烈的讨论。 Q&A摘录: (张宇骁)问:如果一个用户用同一个公钥制作多次密钥,那么这机制岂不是没用了? 答:如果一个用户用同一个公钥制作多次密钥,那么这机制岂不是没用了? (吴迪)问:验证体系中的第三方服务器如果一旦崩溃,认证体系就会单点失效了,这个问题是如何应对的? 答:这个属于安全范畴的问题了,密码学主要研究的是这种认证机制 (候超俊)问:用户和第三方服务器之间有认证过程吗? 答:用户在向第三方服务器申请自己的私钥前,会向公众公布自己的公开信息,这样就可以在随后的过程中,自己的身份信息就会被公众认证。 附: 获奖名单: 优胜奖:袁杰 鼓励奖 张志明 好问题奖: 张宇骁、吴迪、候超俊、欧阳陶旭 PPT、活动录像存放地址: ftp://219.223.192.222/...
Read More

2014-2015学年科研沙龙(三)

时间:2014年04月28日 地点:A118会议室 主讲人:11级全体同学 主持人:于倩 活动内容: 2014年04月28日晚19点,互联网研发实验室全体同学在A118召开了2014-2015学年学习工作经验交流会。在会上由高年级的同学为低年级的同学分享三年的学习过所得以及在过去一段时间内找工作的经验。这是实验室一直以来所保持的传统,通过这样一个轻松愉快的交流环境将宝贵的信息及经验在实验室的师弟师妹中传承。 交流会上11级的同学根据自己个人的情况轮流做了介绍。大家分别从找工作前的复习、简历制作、投递简历的方法与途径、笔试应注意的细节以及最后在面试环节中可能遇到的问题等一一做了讲解。总体来讲11级的同学在工作方面分为两类,一类是互联网行业,这其中有11级张凯、张帆、张志明、柳胜兵以及彭程同学。彭程、张志明和柳胜兵同学都从简历准备和面试技巧上为大家提出了几点建议,同时更为师弟师妹推荐了几本介绍全面的书籍,而柳胜兵同学更是指出大家应该有针对性的修改自己简历,要有所受众。张凯和张帆同学则更侧重技术问题,比如大家应该怎样在平时去练好基础功以及在诸如阿里、网易、Google等公司在面试中会有怎样的环节。 而在非互联网行业中,11级的同学则从行业选择、就业时间、就业形式、面试技巧等方面进行了讲解。比如11级的王思博同学从自己所投递简历的经验中根据行业类别总结出目前业界普遍评价比较高的一些企业分享给大家,11级的李立华、秦大洲除了分享自己的投递经验外还为大家分享了自己对于招聘会和网申投递的看法。在众多毕业生盲目地选择进入北上广就业的时候,11级的邹凡云则选择了回家乡,首先她为大家分享了在选择城市时应该考虑的因素,这也正是11级陈培同学所着重强调的点。之后邹凡云又针对公务员考试中的技巧和答题策略做了简短的介绍。而11级的沙文鹏同学更是做了全面而细致的讲演,从行业分析、专业准备到心里准备都做了详尽的说明。 在所有11级同学完成分享后,就来到了提问环节,12级和13级的同学将自己疑惑的问题向各位师兄师姐咨询,比如13级的袁梦同学所提出的有关银行就业选择问题,13级马一宁同学提出的投递简历问题等。通过此次经验交流会,12级及13级每一位同学都学有所得,通过讲解与聆听促进了实验室同学之间的交流与了解,更体现了互联网实验室帮、传、带的优良传统。 ...
Read More

2014-2015学年科研沙龙活动记录(二)

时间:2014年04月1日 地点:A118会议室 主讲人:吴迪,王嘉炜 主持人:于倩 参与人员:雷凯老师、黄连恩老师、实验室全体同学 微博更新:@北大互联网中心CIRE 活动内容: 本次科研沙龙的主讲人分别是12级王嘉炜和13级吴迪同学。他们针对自己平日里学习所遇到的问题,以及论文的研读心得有针对性的做了汇报。同时实验室全体同学在听取完二者的报告后也都做了深入的讨论。   13级吴迪同学简单介绍了垃圾回收机制,首先对内存泄露现象进行分析,给出垃圾回收机制的必要性。之后分别对标记引用、标记清除、标记复制和标记压缩四种垃圾回收的算法进行说明,并给出他们的优缺点,在此基础上,针对JVM的堆结构,介绍了JVM中使用的垃圾回收算法。最后,给出了几种针对垃圾回收的程序性能调优方案。 Q&A摘录: (王嘉炜)问:能不能在编程语言中实现把大对象放在指定的位置? 答:暂时不清楚,但是可以通过使用JVM参数实现优化 (江旻)问:采用复制方式的垃圾回收机制如何有效解决耗时问题 答:内存地址采用间接指向,只需要更改基地址就好 (张宇骁)问: jvm的垃圾回收最终能解决物理上的内存碎片吗? 答:这个可能会有一定的解决机制。要看jvm具体和操作系统怎么交互 12级王嘉炜同学主要讲解了集群智能算法的概要,然后针对具体的蚁群优化算法,从真实蚂蚁的行为开始,抽象出一系列特性,形成蚁群优化思想的基本思路。然后针对具体的TSP问题进行了算法实现。详细讲解了生物素的挥发和更新过程,最后总结了蚁群优化算法的优缺点。 Q&A摘录: (吴迪)问:据蚁群算法的描述,每只蚂蚁的计算都是独立进行的,那么这个算法是否适合在分布式平台上运行,提高效率? 答:蚁群算法比较适合在分布式的环境下进行,例如路由选路问题,各个路由器都是分布式的,因此该算法在类似的分布式环境下应用比较广泛。 (王家祥)问:较大规模的网络中,所有蚂蚁选择同样路径会不会造成网络拥挤? 答:事实上是会的,但是通过更新生物素可以找到新的路径。 (张宇骁)问:蚁群算法目前能达到什么水平? 答:在美国地图这类问题上,目前是最好的。 附: 获奖名单: 优胜奖:吴迪 鼓励奖 王嘉炜 好问题奖: 张宇骁、吴迪、王嘉炜、王家祥、江旻 PPT、活动录像存放地址: ftp://219.223.192.222/ 2014-2015学年科研沙龙/第二次 20140401...
Read More

2014-2015学年科研沙龙活动记录(一)

2014年03月11日,星期二晚19点30分,互联网实验室2014-2015学年第一次科研沙龙如期在会议室A118举行。参与本次科研沙龙的有雷凯老师、黄连恩老师以及实验室全体同学。本次科研沙龙由12级于倩主持,11级张志明及王思博同学分别针对自己的研究方向做了详细的讲解。                                                                                       通过11级张志明同学的讲解,我们了解到主题是关联规则,用于从用户的购买行为中挖掘频繁项集,向未购买的用户推荐关联商品。它是数据挖掘中的一个简单而有效的算法。在淘宝,亚马逊等购物网站广泛应用。接着presentation中,张志明同学以具体的应用场景作为背景进行进步的介绍。最后在问答环节中,大家分别从概念到实现中自己不明白的地方进行提问。 Q&A摘录: (王亚洲)问: 频繁项挖掘出的结果,用在推荐系统中,需不需要考虑那些项集比较少的项。 答: 在实际的应用中使用的结果可能是最后几层,而不只是挖掘出的最后一层。 (王如慧)问:支持度是不是在每一次迭代中都不一样?每一次迭代的阈值,如何设定?阈值和支持度是相关的,若设定过小爱哦,那复杂度就相当大了? 答: 支持度由于下一层组合的,出现的次数可能会比单个商品出现的次数少,所以支持度可以不一样。阈值的设定是随便设的,可以说是经验值,要根据实际的环境。在实际应用时,需要做大量的实验,来衡量。 (张帆)问: 这个算法对于那种大数据是不是效果不太好?而且会有挖掘出来的关系为负向的关系 答: 的确在大数据下效果不是很好。 王思博同学主要讲解通用实体配图系统,该系统是在百度实习时接手的项目。首先介绍了实体是什么,接着介绍了实体配图的总体流程:首先对每个类别的实体进行配图,然后输入图片的全量库,包括simid,tag信息,图片周边文本等图片属性,根据term重要性,与实体进行匹配,然后根据图片特征的分类,和图片的simhash值进行相似性合并,并对图片质量在做一遍筛选,最后输出实体与图片的关联,并对结果进行评测。最后王思博对该系统的各个模块的详细过程又进行了讲解。 Q&A摘录: (吴迪)问:对于那些事件而言,是否可以搜索。比如马来航空这个 答: 大多数这种是对于一个实际存在的物体,对于事件的话不一定。 (王亚洲)问:实体对应图片的过程,能不能倒过来,即:它与百度识图的关系。 答:只要是图片经过一定方式处理,实际上实体和图片的对应过程就相当于对文本的处理和对文本的匹配。是可以倒过来进行的。 (欧阳陶旭)问: 现有的实体库配图过程能否采集使用者的信息进行反馈调整? 答: 当下的流程只能通过人工进行调整。 附: 获奖名单: 优胜奖:王思博 鼓励奖 张志明 好问题奖: 吴迪、欧阳陶旭、王如慧、王亚洲、张帆 PPT、活动录像存放地址: ftp://219.223.192.222/ 2014-2015学年科研沙龙/第一次 20140311...
Read More

2013-2014学年科研沙龙活动记录(四)

(2013年12月12日,晚7点)互联网实验室2013-2014学年第四次科研沙龙活动于A118会议室如期举行。此次科研沙龙由12级于倩同学主持,出席人员包括,雷凯老师,黄连恩老师以及实验室全体同学。 本次科研沙龙的两位主讲人分别是11级的柳胜兵和张凯同学。在上学期的科研沙龙活动中,两位分别针对自己的研究领域做了讲解与报告。而通过这段时间的积累,他们又利用此次科研沙龙为大家分享各自的心得。其中,柳胜兵分享的主题为:“搜索中的query理解”,而张凯则为大家讲解和演示了Git的使用以及平时小组在开发过程中应该注意的细节。 柳胜兵同学讲解的内容包括:为了解决用户输入错误的查询纠错,为了提高召回而做的查询重写与扩展,为了解决query和document之间语言语义鸿沟实现的多重匹配模型等等。主要强调了query log挖掘在搜索中的重要性。参考的文献包括 Online spelling correction for query completion、Spelling Correction for Search Engine Queries Click through-Based Translation Models for Web Search、Automatically mining question reformulation patterns from search log data、Query Reformulation Using Anchor Text。讲解结束后,在座的同学都进行了深入的思考与讨论。同时黄连恩老师也针对柳胜兵同学在讲述过程中的不足进行了指导,希望其在每次presentation过程中放慢语速,这样更容易让听众知道讲演者所要传递的信息。 Q&A摘录: (张宇骁)问:关于查询意图的猜测,如果我手动打上 “北京大学 官网”,百度会不会理解我的意思?百度做了实体搜索吗? 答:这方面正在做。实体搜索这方面google做得很好,但百度也有做,一些基本的类比眼下是可以实现的 (于倩)问:查询意图是针对个人的行为还是针对query内容的延伸? 答:在针对query的基础上,进行个体化的分析。 (张志明)问:在意向推断过程中,query太短怎么处理? 答: 对于比较短的query会根据用户的历史搜索行为来识别或者是通过一些规则来判定 张凯同学继上一次wiki 分享后,此次主要从Git 的发展,Git 的工作原理,Git的好处及Git 的使用这几个方面做了介绍。最后通过实验室的Git 平台现场进行操作和模拟,帮助大家将抽象概念转为实际应用。在讲演过程中,雷老师也对Git 与SVN的区别和联系与张凯进行了讨论,并鼓励大家在团队开发过程中多进行组内交流,从现在开始注重团队合作能力的培养。通过此次讲解,同学们从概念上大致明白了Git的使用,但张凯建议大家此次沙龙结束后每个人实地应用一下实验室Git 的平台,遇到任何问题可以随时找他进行交流。13级的同学在Q&A环节中表现积极,最后寻云波、袁杰、李树一、吴迪获得了好问题奖。 Q&A摘录: (吴迪)问:Git上如果两个人修改了同一个文件里面的内容,都提交了,会怎么样? 答:Git系统会先检查两次修改是否冲突,如果不冲突,就把把两种修改都提交,否则会给用户提示信息,让用户采取措施 (寻云波)问:google code和Github的区别: 答:Google code使用的是svn仓库,然后很容易被墙,Github不被墙。现在大多数的项目代码托管都托管Github上。 (袁杰)问:除了用git clone命令,还有没有其他方法从服务器上得到git仓库里的源码?怎么把github上的源码文件迁移到实验室的服务器上? 答:可以通过打包下载的方式获得源码,一般的服务器,比如github和实验室的git服务器都实现了打包下载的功能. 可以先通过git clone的方式从github上获得源码文件,再将文件从本地push到实验室的服务器上。 (李树一)问:Github 与Git 的关系,应用Github 有什么好处? 答:Github 相当于一个中心,用户可以将自己通过Git管理的代码放到Github 上,一方面可以资源共享,另一方面也在一定程度上加强了相同爱好者之间的交流。 更多精彩内容微博持续更新中 @北大互联网中心CIRE 附: 获奖名单: 优胜奖:张凯、柳胜兵 好问题奖:张志明、袁杰、吴迪、张宇骁、李树一、寻云波 PPT、活动录像存放地址: ftp://219.223.192.222/ 2013-2014学年科研沙龙/第四次 20131212...
Read More

2013-2014学年科研沙龙活动记录(三)

更多精彩内容微博持续更新中 @北大互联网中心CIRE 科研沙龙活动记录(三) 时间:2013年11月21日 地点:A118会议室 主讲人:虞龙煜、张民杰 主持人:于倩 参与人员:雷凯老师、实验室全体同学 活动内容: 第一位主讲人为12级的虞龙煜同学。主讲人通过介绍流媒体的内容和分类,传达了基本的流媒体概念,归纳了不同的流媒体协议,加深了同学们对流媒体的了解,扩大了流媒体的影响,为流媒体日后的发展打下了坚实的基础. 流媒体对于大多数的同学比较陌生,只是在平日里视频点播的时候较为关注视频的播放速度问题,所以很多同学提出了针对流媒体协议和视频播放速度关系的问题。最后“好问题奖”确定为13级的吴迪、张宇骁以及梁碧玮。 Q&A摘录: (吴迪)问:使用PPS这类的客户端看视频直播很占网络带宽,而使用网页观看则不占带宽,这是为什么? 答:客户端本身使用的协议和网页视频的不同,而且占带宽可能是客户端使用其他的一些技术,例如P2P (梁碧玮)问:在看视频的时候也会提示手机端观看,那么他是同时提供两个协议的服务吗? 答:手机端的视频点播系统他也可以做成浏览器播放的模式,所以在两种不同的方式并不会影响协议的不同。 (张宇骁)问:实时流媒体和顺序流媒体在贷款一定的情况下,哪个好?实时的能本地存储吗? 答:若带宽能达到一个阈值时,实时是没影响的。实时的有的协议是支持本地存储的。 第二位主讲人是12级的张民杰同学,他讲演的题目为其一直在研究的一个有关云端语言的项目。主要在发展一套openstack的管理软件并取得一定的用户数目,并在此软件上加入“Titan”云端语言。紧接着对其开发过程中可能用到的技术和相关概念做了解释。张民杰同学为香港学生,他细心的怕大家听不很明白他的普通话,所以特地邀请实验室12级黄康贤同学做翻译。同学们对张民杰想法缘由非常感兴趣,特别是针对用“Titan”这个云端语言进行虚拟环境配置。同时雷凯老师认为张民杰同学“Titan”项目的想法和项目所完成的功能很新颖也比较有挑战性的。同时也鼓励大家互相之间多交流这种思考方式。最终获得好“问题奖”的同学:12级的王嘉炜、13级的吴迪和翁蔚涛。 Q&A摘录: (翁蔚涛)问:你这个titan语言是完全自己写的?还是根据某种语言修改的? 答:会参考一下成熟的语言,同时加上自己的编辑,因为我比较喜欢用Java,所以会参考一下java的。 (王嘉炜)问:你做这个事情的目的和缘由是什么? 答:就是在平时工作和学习当中会发现一些问题,并且想通过一种方法进行解决。再给予自己熟知的知识,所以就想到用一种语言来解决。 (吴迪)问:你这个平台上如何对不同类型的虚拟机统一管理的? 答:这款应用时基于Open Stack平台的,它对各种虚拟机都做了兼容,提供统一的操作API。 此次科研沙龙最后,11级的张凯同学也在两位主讲人结束介绍后进行了实验室wiki, 代码管理仓库,实验室服务器使用情况的介绍。通过wiki及git的管理,有利于以后实验室资源的传承起。具体的地址为:http://wiki.netlab/科研沙龙20131121 按照科研沙龙流程,在座的每一位观众都对两位主讲人的报告从内容、演讲、回答等方面进行了投票。最终张民杰得12票,虞龙煜9票,张民杰获得了优胜奖,虞龙煜获得了鼓励奖。 附: 获奖名单: 优胜奖:张民杰 鼓励奖:虞龙煜 好问题奖:吴迪(2个)、张宇骁、梁碧玮;翁蔚涛、王嘉炜 PPT、活动录像存放地址: ftp://219.223.192.222/ 2013-2014学年科研沙龙  ...
Read More

2013-2014学年科研沙龙活动记录(二)

更多精彩内容微博持续更新中 @北大互联网中心CIRE 时间:2013年11月04日 地点:A118会议室 主讲人:寻云波、王慧钰 主持人:于倩 参与人员:雷凯老师、黄连恩老师、实验室全体同学 活动内容: 第一位主讲人为13级的寻云波同学。 主要讲解了ACM/ICPC和Coding,参考了《ACRush回忆录》和自身的ACM/ICPC以及做题的经验,对ACM/ICPC进行介绍以及相关的比赛和题库介绍推荐,分享相关的经验。虽然实验室同学在ACM竞赛上的历史参与度不高,但是通过这次的讲解同学们可以了解到一些经典赛事、竞赛过程的一些技巧以及较好的参考资料。同时雷凯老师也鼓励大家多多参与ACM等高水平竞赛,提高自己在算法理解度以及问题深入度的思考,也为以后找工作做好准备。“好问题奖”确定为13级的王家祥、张宇骁以及12级的陈艺勇。 Q&A摘录: (陈艺勇)问:对于没有参加过ACM的同学,有什么对应ACM讲解的书籍或者资料? 答:清华大学刘汝佳老师的《算法艺术与信息学竞赛》,又叫黑书,可以参考,有对应的各种常用算法及例子,不过实际动手参加在线比赛,交流学习的方式会更好。 (王家祥)问:ACM竞赛中的特殊测试样例参赛者应该怎样去选取,有没有专门的选取特殊样例的网站? 答:主要是清楚的理解问题,找到临界数据,平时多练习,类似的网站还没有,一般题库里的测试样例都会包括比较特殊的一些样例 (张宇骁)问:关于acm算法比赛,有什么好的网站可以看参赛者对题目的见解吗? 答:许多算法比赛后面有交流论坛,GCJ还有官方解析 第二位主讲人是12级的王慧钰。主题是情感分析。综述了现阶段中文微博情感分析的主流方法:无监督算法和基于SVM/NB分类器的机器学习方法,总结汇报了针对主题相关和主题无关两类任务的实验结果。目前在针对中文的情感分析工作仍然处于研究阶段,相比于英文的效果并不是很好,所以雷凯老师在点评时提出应找到一个比较具体细化的方向进而针对主题性的情感分析挖掘。获得好问题奖的同学:欧阳陶旭、马一宁和王如慧。 Q&A摘录: (欧阳陶旭)问:统计显示,对中文的情感分析准确率不高,请问这项方法有什么实际作用? 答:在一些特定文本领域,如商品评价系统,可以较为准确的提取分析内容并达到很好的效果。 (马一宁)问:对于微博的有监督的情感分析技术一般要经过分词、特征提取然后训练,那现在的中文分词工具针对微博效果怎么样?另外,现在针对微博有没有比较好的情感词典? 答:一般要经过分词、特征提取然后训练,那现在的中文分词工具针对微博效果怎么样?另外,现在针对微博有没有比较好的情感词典? (王如慧)问:在特征值提取那块,两种特征都提取了链接,这个链接在情感方面有什么作用? 答:这个特征加上去之后,会构成识别率降低;但是在主客观分析上还是有作用的 。 按照科研沙龙流程,在座的每一位观众都对两位主讲人的报告从内容、演讲、回答等方面进行了投票。最终寻云波获得12票,王慧钰11票,寻云波获得了优胜奖,王慧钰获得鼓励奖 附: 获奖名单: 优胜奖:寻云波 鼓励奖:王慧钰 好问题奖:王家祥、张宇骁、陈艺勇;马一宁、王如慧、欧阳陶旭 PPT、活动录像存放地址: ftp://219.223.192.222/ 2013-2014学年科研沙龙/第二次 20131104...
Read More

2013-2014学年科研沙龙活动记录(一)

微博持续更新中  @北大互联网中心CIRE 时间:2013年10月10日 地点:A118会议室 主讲人:陈艺勇、严春伟 主持人:于倩 参与人员:实验室全体同学。 活动内容: 首先由主持人介绍2013-2014学年科研沙龙线上与线下活动计划,以及相应的主讲人和听众互动的奖励机制。 第一位主讲人是陈艺勇。主题是“paxos及Chubby”,主要参考论文为:Paxos Made Simple。Paxos以及Chubby:The Chubby lock service for loosely-coupled distributed systems。主讲人从背景、基础知识以及应用分别进行了介绍,通过讲解,大家了解到Paxos是一个基于消息传递,在分布式环境下保证数据一致性的模型,其通过在进行数据更改之前先询问数据是否已经被更改这样的形式,保证不会两个进程都修改相同的数据。之后主讲人给出了paxos的一个应用Chubby及其相应概念。在问答环节,大家纷纷针对自己不懂得地方进行了热烈讨论与提问,尤其13级的同学们都在积极互动,其中王如慧、吴迪和欧阳陶旭分别获得了“好问题奖”。 Q&A 摘要提取: (王如慧)问:例子中的延迟请求,在已经选出master之后,为什么还可以被同意?进程发出请求,为什么只发给了两个数据块,这两个是有意义的吗?还是随机的的? 答:这个不是同意,是接收到了信号。是为了节约时间,因此在请求时,只发送给大部分的数据副本即可。 (欧阳陶旭)问:Paxos方法的亮点与优势是什么? 答:通过转发的方式,面向全新的分布式系统。 (吴迪)问:几个进程同时去申请操作数据,一个进程成功获得数据的控制权了,其它进程的请求怎么处理? 答:一个进程获得数据的控制权,那么在一定时间内数据变归该进程所有,其它进程的请求便会拒绝,如果想要操作数据,只能等一定时间后重新申请控制权 第二位主讲人是严春伟。主题是“深度学习简介”。参考文献主要有standford 深度学习教程以及deeplearning.net 网站上相应的内容,清晰的讲述了从浅层机器学习到神经网络到深度学习的发展过程和各自优缺点。讲演过程中,逻辑清晰,表达流畅。同学们听的非常认真。在问答环节,大家积极的提问。12级的陈艺勇以及13级的马一宁、吴迪、张宇骁、候超俊分别针对机器学习、抽取过程和无监督学习与严春伟进行讨论,气氛十分活跃。 最终“好问题奖”确定为13级的马一宁、候超俊以及张宇骁。 Q&A 摘要提取: (马一宁)问:对于deep learning来说,就是逐层进行抽象,那每层抽象的feature是如何选择的?另外是属于无监督的机器学习么? 答:属于无监督的机器学习,feature是根据经验来选择的,每层抽象出来形成“字典”供下一层继续学习。 (候超俊)问:像素是以求和的形式进行窗口取值的,这样反应的数据会不会失真?可不可以以求平均数的形式? 答:这样取值会失真,deep learning的算法就是以牺牲可以接受的数据精度为代价,进行的模型提取,只要取值的数据反应图层的数据就行,所以直接求平均数也是可以的。 (张宇骁)问:deeplearning每一层的重构的具体意义是什么,怎么重构? 答:重构的目的是为了进一步减少信息量,即通过对上一层传来的数据学习得来的抽象出来的元素集合组成的字典中的元素的组合来试图再现上一层获取的数据,用来确定本层所获取的字典或对上层数据的抽象是几乎正确的,而本层的数据量相对于上层则是大大减少了的,是对上一层的归纳抽象,这样逐层减少信息量,最后留下事物的本身特质,比如是人还是猫。具体的方法还待研究。 最后是所有听众对两位主讲人根据整个报告的逻辑、内容充实性、表述能力等进行投票。投票方式为:事先发给每人两张牌,花色为一红一黑,红色和黑色分别代表两个主讲人。每人交上红色或者黑色牌,来支持自己更认可的主讲人。最终投票结果是陈艺勇12票,严春伟11票。陈艺勇赢得优胜奖,严春伟赢得鼓励奖。 附: 获奖名单: 优胜奖:陈艺勇 鼓励奖:严春伟 好问题奖:王如慧、吴迪、欧阳陶旭; 马一宁、候超俊、张宇骁。 PPT、活动录像存放地址: ftp://219.223.192.222/Bigdata/2013-2014学年科研沙龙/20131010...
Read More

北京大学互联网信息工程研发中心(深圳)2013-2014年度第一学期科研沙龙活动章程

实验室新浪微博 北大互联网中心CIRE http://weibo.com/u/3782641191 定期更新科研沙龙动态,分享互联网的事儿,实验室的事儿,身边的事儿。 欢迎下载: 北京大学互联网信息工程研发中心(深圳)2013-2014学年科研沙龙活动章程 北京大学互联网信息工程研发中心(深圳)2013-2014学年科研沙龙活动时间记录        ...
Read More

科研沙龙活动记录(十)

时间:2013年6月3日 地点:A118会议室 主讲人:廖文静、严春伟 主持人:邹凡云 参与人员:雷凯老师、黄连恩老师、实验室同学 活动内容: 第一位主讲人是12级廖文静。主题是“Naive Learning in Social Network and the Wisdom of Crowds”。复杂社会网络在什么条件下才能形成一个一致的意见,也就是群体智慧得到体现?只有当网络中没有极度不平衡的节点,也就是没有很权威、影响力很大的节点,也没有以自我为中心对外部其他节点信赖很低的节点的时候才可以。最终“好问题奖”确定为陈涛、夏睿、王思博。 Q&A摘录: (陈涛)问:论文中的第二种网络是不符合论文假设和定义的么,定义中参数r是否是人为给定的? 答:不符合论文对网络的定义,r是给定的某个大于0的值。 (夏睿)问:引言部分的计算模型? 答:这个比较复杂,但是课程的参考书上有。 问2:最后的两个评价标准的关系? 答:不是完全相斥的关系,但是作者也没有给出等价的一个推导。 问3:收敛的递推模型是怎么样的? 答:其实有很多递推模型可以选取,作者选择了一个比较好展示递推过程的模型。 (王思博)问:μ是客观存在的?还是假设的? 答:假设出的平均值,当做是客观存在的。 第二位主讲人是12级严春伟。主要讲了从kddcup2012看微博推荐,利用additive forest和svd组合模型建模。最终“好问题奖”确定为张凯、张腊梅、仇长贺。 Q&A摘录: (张凯)问:交大的算法在做参数学习的时候是采用的cross-validation吗? 答:应该是,但是交大没有说明。他们只公布了源码,而且非常难以阅读。 (张腊梅)问:各种参数如何融合到一起? 答:根据两个公式对矩阵数值根据加入的特征进行调整。 (仇长贺)问:SVD和累加森林是通过横向还是纵向的方法组合到一起的?对于每个item都要计算类似于决策树的这个方法? 答:通过横向线性的方法组合到一起,对于每个Item都要计算一遍。 最后是所有听众对两位主讲人根据整个报告的逻辑、内容充实性、表述能力等进行投票。:最终投票结果是廖文静11票,严春伟10票。廖文静赢得优胜奖,严春伟赢得鼓励奖。   附: 获奖名单: 优胜奖:廖文静 鼓励奖:严春伟 好问题奖:陈涛、夏睿、王思博; 张凯、张腊梅、仇长贺。 PPT、活动录像存放地址: ftp://219.223.192.222/BigData...
Read More