2014-2015学年科研沙龙（五） – 北京大学深圳研究生院《深圳市内容中心网络与区块链重点实验室(ICNLab)》

时间：2014年06月05日
地点：A118会议室
主讲人：沙文鹏，张宇骁
主持人：于倩
参与人员：雷凯老师、黄连恩老师、实验室全体同学
活动内容：
2014年06月05日，星期四晚19点，互联网实验室2014-2015学年第五次科研沙龙如期在会议室A118举行。参与本次科研沙龙的有雷凯老师、黄连恩老师以及实验室全体同学。本次科研沙龙由12级于倩主持，11级沙文鹏及13级张宇骁进行讲解。

11级沙文鹏同学的讲演主题为论文中的英语写作，主要关注点为论文写作中英语语法、句式、内容及表达方式等方面。首先，他针对论文结构中每部分应该注意的知识点以及会犯的错误进行总结，进而对每个总结的部分进行举例论证，通过具体实例告诉同学们应该怎样去改进和避免。他在讲演中更是强调论文摘要的重要性，论文应该写什么内容，重点放在哪里以及怎么样的句式和表达更合适。
Q&A摘录：
（唐浩）问：是否存在论文写作的模板，我们可以将论文内容迅速嵌套进去？
答：不像托福GRE写作的模板有很多，据我所知专门适用于论文写作的还没有，需要自己平时总结。
（李树一）问：分号在英文写作中重要吗？有必要专门掌握一下分号的用法吗？答：分号是一种停顿时间介于逗号与冒号之间的符号。文章采用许多分号能使其风格显得严肃、正式。还是有必要掌握一下的，否则相关的小错误出现的多了就很麻烦。
（王家祥）问：论文写作中不可避免的会遗留一些错误，审稿人对这些错误的容忍程度有多大？
答：什么时候会影响论文内容的阐述？答:中国人写英语论文错误不可避免，到肯定要尽量少犯错误

张宇骁同学主要讲了一种对于k-means计算的改进算法，算法利用信息检索领域中的倒排索引和wand技术，有效地减少了原k-means算法中非常耗费时间的相似度计算过程，同时，由于wand算法是用来找相似度最大的N个文档，算法为了避免选取的点太少而使得中心点的收敛过慢，在计算中保留了所有参与过wand栈的数据点，来一起计算中心点，相当于一种比较完善的取样。最终，算法得到了比传统k-means快70到100倍的速度提升。尤其是在大文档计算的时候，很明显。

Q&A摘录：
（吴迪）问：有没有考虑通过分布式并行平台来提高K-Means算法的速度？
答：考虑过，不过目前的数据量单机还是能够处理的，所以不太需要。
（王如慧）问：传统的已不适用的算法，是如何进行相似度计算的？
答：就是整个文本中的词一个一个匹配，举例：若文本一和二都含有两个单词“美元、汇率”，先比较美元，发现两个都有，则有50%相似，再匹配汇率又一样，则有100相似……。其实，就是用cos计算的方式，计算两个空间向量的距离。
（唐浩）问：为什么一个算法可以提速10~100倍？
答：因为之前的算法存在冗余计算的问题，这种算法提供了精简，所以能够大幅提高运算速度

附：
获奖名单：
优胜奖：沙文鹏、张宇骁
好问题奖：吴迪、李树一、唐浩、王家祥、王如慧
PPT、活动录像存放地址：
ftp://www.icnlab.cn/