导航类查询词的收集方法

导航类查询词的收集方法

导航类的查询是指那些有明确寻址需求的查询,如“优酷网”或“优酷”等。目前很多互联网用户很可能只能记得百度等搜索引擎的网址,或把百度设置为首页,要进别的网站时,一般通过搜索来解决。在搜索引擎中,对于导航类的查询,如果返回的第一条搜索结果不是目标网站的话,对用户的搜索体验是巨大的伤害。比如搜索“中国银行”,如果返回的不是中国银行的网站,而是某钓鱼网站的话,那很……

实习生活

实习生活

今天qq上一个师弟向我咨询实习相关的问题。关于实习,其实也一直有很多话要说。我是今年5月份出来实习的,一直到现在,已经7个月了,4个月在百度联盟研发部,剩下的三个月在腾讯soso。这个过程中既有欢笑,也有茫然和痛苦。我在收获实习工资(虽然不是很多)的同时,得到了巨大的成长。我这个人最大的特点是喜欢钻研,我并不是个很聪明的人,也不太善于与人交流,但我喜欢钻研……

谷歌的gtest

谷歌的gtest

gtest是谷歌推出的一个开源的c/c++程序单元测试框架,为中国很多公司采用,据我所知百度和腾讯都在是gtest进行但测。 gtest的官方网站请访问http://code.google.com/p/googletest/。在我未工作之前,在学校的时候,写程序的时候从来不写单测,也不知道如何去写单测。我通常是通过一个小例子来验证一段程序的正确性。这种做法……

启发式提取一个网页的主体内容

启发式提取一个网页的主体内容

对于一个网页来说,一般都会有非常丰富的边框或导航条信息,但是用户往往比较专注于主题内容,边框内容可以说是没有太大价值的。尤其是对于手持设备来说,显示大量的边框信息将变得非常讨厌。在搜索引擎中,其实只要搜索引网页的主题内容,对于边框内容的索引意义不大。上面说了一下提取一个网页主体内容的作用,下面来讨论一下方法。如果真要准确地提取一个网页的主题将非常困难,因为……

实验数据集整理

实验数据集整理

个人目录下:Web Crawled by myself # 自己爬取的数据集 cn 5 depth # 用nutch 0.7.2爬取的数据集,限制在cn域中,包括链接和文本 cn-2010-01-01 # 用nutch 0.7.2爬取的数据集,限制在cn域中,包括链接和文本 dlut.edu.cn20……

新浪微博Spammers

新浪微博Spammers

1924921020177484525020264085151729768693190005263419247331001924936554 ……

开题报告要求

开题报告要求

文献综述问题是如何提出的?在什么时间有什么问题?其他人如何解决这些问题的。最关键的文献有哪些?大现在为止,发展到了什么状态?是没什么可做的呢,还是存在一些可做的空间。发现问题提出一些问题,抓住问题的本质。问题可以是:开放的问题,别人提出的问题;自己发现的问题。为什么别人没有想到?初步的解决方案。实验方案:如何证明你提出的解决……

社区书签中URL链接的利用

社区书签中URL链接的利用

目前社区书签系统(Social Bookmarking System)中抵抗作弊的文章,很有有人想到利用用户与用户之间的链接,没有人想到利用书签与书签之间的链接(可以用爬虫去爬取他们之间的关系)。因此,如果能有效地利用这两方面的链接信息,并结合之前有很多文章提到的用户与书签之间的链接,应该能取得不错的效果。我想了一下,利用这些链接的方法,大概有两种。一种是……

小想法

小想法

信任传播和非信任传播想结合:这次只用一个分数,正的表示可信,负的表示作弊。信任传播在正向图上,只有正分数可以在正向图上传播。非信任在反向图上传播,只有负值可以在反向图上传播。……

WebGraph++编译

WebGraph++编译

WebGraph是一个很好的用来存储和表示Web图的工具,目前提供Java版、C++版以及其他一些版本对Java的接口。以前,我一直在用Java 版本的,但最近用Java压缩一个大型的Web图(60多G)的时候出现未知错误。因此,就想用C++版本来试一试。之前也用过C++版本的 WebGraph,但一直没有build成功。这次,经过努力,最后终于build成……