层级抓取时,为什么我抓取的线索数比网页实际内容条数还多
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2017-1-6 14:16

沙发
Fuller 管理员 发表于 2016-12-29 20:54:23 | 只看该作者
主题名是什么?我估计是你的整理箱抓取到的内容比你预想的多
举报 使用道具
板凳
ym 版主 发表于 2016-12-30 09:33:48 | 只看该作者
点击整理箱的测试,检查一下输出内容
举报 使用道具
地板
懵懵的girl 初级会员 发表于 2016-12-30 14:44:21 | 只看该作者
Fuller 发表于 2016-12-29 20:54
主题名是什么?我估计是你的整理箱抓取到的内容比你预想的多

抓取得信息是我需要的,但是我看网页上的总信息条数比我用DS打数机抓取的条数少
举报 使用道具
5#
Fuller 管理员 发表于 2016-12-30 20:37:36 | 只看该作者
懵懵的girl 发表于 2016-12-30 14:44
抓取得信息是我需要的,但是我看网页上的总信息条数比我用DS打数机抓取的条数少
...

只能根据你的主题名做诊断了。

比如,在京东商品列表网页上,左边和下面都有“商品精选”广告位,如果规则做的不好,你本来只想采集中间的商品列表,但是会把左边和下边的商品都采集下来
举报 使用道具
6#
懵懵的girl 初级会员 发表于 2017-1-6 11:08:48 | 只看该作者
本帖最后由 懵懵的girl 于 2017-1-6 11:13 编辑
Fuller 发表于 2016-12-30 20:37
只能根据你的主题名做诊断了。

比如,在京东商品列表网页上,左边和下面都有“商品精选”广告位,如果规 ...

请问这是总共400页,4000条信息吗?为什么我抓取的时候远远超过了400页啊
我点击尾页,弹出错误,看左上角的窗口,是指有500页吗?

举报 使用道具
7#
Fuller 管理员 发表于 2017-1-6 11:19:32 | 只看该作者
懵懵的girl 发表于 2017-1-6 11:08
请问这是总共400页,4000条信息吗?为什么我抓取的时候远远超过了400页啊
我点击尾页,弹出错误,看左上角 ...

这个意思是有 1400 页,不是400页,但是京东是否允许你翻到这么多,那要看他的策略。淘宝只准看100页。所以,遇到这种情况,一般要把类别细分,一个大类别分拆成小类别,让每个类别的数量不要超过100页
举报 使用道具
8#
懵懵的girl 初级会员 发表于 2017-1-6 11:28:25 | 只看该作者
Fuller 发表于 2017-1-6 11:19
这个意思是有 1400 页,不是400页,但是京东是否允许你翻到这么多,那要看他的策略。淘宝只准看100页。所 ...

类别细分是要做规则吗?我抽取的是这个页面,有没有办法看到能翻阅多少页啊?

举报 使用道具
9#
ym 版主 发表于 2017-1-6 11:35:25 | 只看该作者
不能,能翻多少页是由四川政府采购网的服务器决定的
举报 使用道具
10#
懵懵的girl 初级会员 发表于 2017-1-6 12:40:15 | 只看该作者
ym 发表于 2017-1-6 11:35
不能,能翻多少页是由四川政府采购网的服务器决定的

好的,还有一个问题想问一下,采购公告的原网页有298页,每页25条信息

我进行关键词搜索后,出现了1400页,每页10条

为什么总数变多了啊?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-28 02:23