本帖最后由 2445406817 于 2016-10-5 12:57 编辑

一、爬虫首页与规则管理中显示的失败线索为什么不一样?


如上图所示,在规则管理中失败线索明明只有2条,而在爬虫管理中有20条?!规则管理中,可以显示抓取失败的线索,然后激活它重新爬取。而这多的18条是怎么来的?如何激活它们?
二、还是上图中,共有33870条线索,现在就剩下大概4000条未采集了吧,也就是已经抓取成功了3万条左右。可是查看结果文件夹,只有1万个左右的文件。少的这2万条数据,到哪里了?
是不是上限是1万条?除了重新采集,我该怎么解决才能把剩下的两万条弄下来?急急急!
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2016-10-5 14:06

沙发
Fuller 管理员 发表于 2016-10-5 13:44:39 | 只看该作者
我加载了你的规则看了,规则看起来没有问题,也设置了关键内容,成功抓取的一定会有结果文件。会不会你在另一台计算机上也在爬这个主题?到那台计算机上去查查。

关于线索数对不上的问题,我找技术人员协助检查一下
举报 使用道具
板凳
2445406817 中级会员 发表于 2016-10-5 13:52:37 | 只看该作者
Fuller 发表于 2016-10-5 13:44
我加载了你的规则看了,规则看起来没有问题,也设置了关键内容,成功抓取的一定会有结果文件。会不会你在另 ...

第一个问题中的失败线索,我现在也不清楚是什么原因。
第二个问题,我看了下结果文件。整整一万个XML文件,也就是1W条数据。这个是不是上限1万条?剩下两万条不知道去哪里了。我在爬虫群中也没有勾选数据入库。重新采集要一天一夜,实在是没这时间啦。大神主要看看第二个问题,万分感谢万分感谢。
举报 使用道具
地板
Fuller 管理员 发表于 2016-10-5 13:57:50 | 只看该作者
从后台查了一下数据库,上面两图的统计数字都有些偏差,因为他们的统计标准不一样。最准确的是在DS打数机上做统计,其实还有170多条超时的
举报 使用道具
5#
Fuller 管理员 发表于 2016-10-5 14:02:49 | 只看该作者
2445406817 发表于 2016-10-5 13:52
第一个问题中的失败线索,我现在也不清楚是什么原因。
第二个问题,我看了下结果文件。整整一万个XML文件 ...

缺省条件下,一个文件夹只放1万个结果文件,多的放在子目录m下了,肯定是这个原因,你的子目录目前可能有多层m了,去里面找吧
举报 使用道具
6#
2445406817 中级会员 发表于 2016-10-5 14:04:21 | 只看该作者
Fuller 发表于 2016-10-5 13:57
从后台查了一下数据库,上面两图的统计数字都有些偏差,因为他们的统计标准不一样。最准确的是在DS打数机上 ...

现在这个规则还在采集数据,大概还有两千条。刚刚统计抓取失败的有200条,我还没有激活。
大神,关键是现在采集到的数据,下载不到本地呀,只有一万条!剩下两万条,我该如何弄下来?
举报 使用道具
7#
Fuller 管理员 发表于 2016-10-5 14:05:00 | 只看该作者
2445406817 发表于 2016-10-5 14:04
现在这个规则还在采集数据,大概还有两千条。刚刚统计抓取失败的有200条,我还没有激活。
大神,关键是现 ...

到子目录 m 中去找其它结果文件
举报 使用道具
8#
2445406817 中级会员 发表于 2016-10-5 14:06:07 | 只看该作者
Fuller 发表于 2016-10-5 14:02
缺省条件下,一个文件夹只放1万个结果文件,多的放在子目录m下了,肯定是这个原因,你的子目录目前可能有 ...

明白了明白了!感谢感谢!太感谢了!这里能发红包吗?必须要感谢您!
举报 使用道具
9#
Fuller 管理员 发表于 2016-10-5 14:06:36 | 只看该作者
2445406817 发表于 2016-10-5 14:06
明白了明白了!感谢感谢!太感谢了!这里能发红包吗?必须要感谢您!

不客气
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-29 01:24