实验数据集整理

研究僧 rainforest 9年前 (2011-04-07) 1931次浏览 4个评论
个人目录下:
Web
    Crawled by myself # 自己爬取的数据集
        cn 5 depth # 用nutch 0.7.2爬取的数据集,限制在cn域中,包括链接和文本
        cn-2010-01-01 # 用nutch 0.7.2爬取的数据集,限制在cn域中,包括链接和文本
        dlut.edu.cn2010-01-01 # 用nutch 0.7.2爬取的数据集,限制在dlut.edu.cn域中
        linkexchange 2010-09 # 从一些link exchange directory开始,向外爬取,可以利用这个找出大量的link exchange站点(注意:爬取时修改了nutch,或略了robot.txt的作用,因为这些link exchange站点为了保护自身而用robot.txt禁止搜索引擎的索引)
    ECML PKDD 2010 Discovery Challenge Data Set # 这个数据集是去年EPKDD挑战的数据集,这个数据集是用了做网页质量与网页分类的(高于Web Spam),但我们也可以用作Web Spam的数据集
    LAW datasets # 一堆Web数据,没有Spam相关的标记,都比较老了,做社区的可以用一用
    web09-bst # 这是09年发布的一个大型的Web数据集,有人已经了做了Spam的标记,可以用作Web Spam数据集
    WebbSpamCorpus # 这个数据集是把垃圾邮件中的一些链接经过一定的筛选当成Web Spam的,可以用这个数据来进行标记
    WEBSPAM-LIP6-2006 # 是一个比较老的,专门用来做Web Spam研究的数据集
    WEBSPAM-UK2006 # 是一个比较老的,专门用来做Web Spam研究的数据集
    WEBSPAM-UK2007 # 这也是一个专门用来做Web Spam研究的数据集,但是这个数据集中标记的Spam页面的数量有点少,可能不太符合现实的情况,建议不要单独只用这个数据集来做实验,可以多用几个数据集
Social
    bibsonomy dumps # 这个是从bibsonomy数据库中dump出来的数据集,所有的数据都有标记,是做social spam研究的一个很好的数据集,这个数据集是我跟对方签了协议得来的,请不要传播出去,并且只能用于实验目的
    Dataset for Statistics and Social Network of YouTube Videos # 这个数据集是一篇论文中提到的,是用来研究Youtube的
    delicious # 这些数据都是从delicous上爬取下来的,是用来研究social spam的数据集,其中前三个是我自己爬取的,最后一个别人爬取的
    Twitter # 这个目录下面是两个twitter数据集
    Wiki # 这个下面是两个Wikipedia数据集,另外Wikipedia数据集官方网站也有提供的
SPlog # 一个Spam blogs数据集,已经很老了
News # 一个新闻数据集,主要是从一些新闻网站上爬取下来的
Email # 邮件数据集
Other
    AOL Query Clickthrough # 少有的几份公开发行的用户点击信息之一

小组目录下:
Twitter #包括tweets和twitter graph,是两个数据集合起来的

乐趣公园 , 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:实验数据集整理
喜欢 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
(4)个小伙伴在吐槽
  1. @黄山山
    我这有一个twitter的数据集,新浪的你自己爬吧
    小桥流水2011-04-11 11:47 回复
  2. 大师,有没有微博的数据集啊?
    黄山山2011-04-11 07:32 回复
  3. 大师 您是女生? 崇拜中。。。。
    andy2011-05-03 12:38 回复
  4. @andy
    我是男生
    小桥流水2011-06-19 13:30 回复