通过 连续 操作使页面跳转至第n页了,接下来打算进行 翻页数据采集(还有一个下级数据挖掘)。
但每次都是跳转至第n页,而且只采集第n页的数据
不翻页是怎么回事?(我在数据采集那设置了翻页)


已成功:
连续操作(连续点击下一页至第n页)                              任务名:成果转移之可供转化成果数据爬取下跳页

出现的问题:
数据采集(跳转至第n页后数据采集)                              任务名:成果转移之可供转化成果数据爬取下跳页后续
——————————————————现在的问题是不翻页,只在第n页采集数据


数据采集(跳转至第n页后接着下挖网页数据采集)          任务名:成果转移之可供转化成果数据爬取下跳页后续下挖内容




举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2019-7-26 16:49

Fuller 管理员 发表于 2019-7-26 15:39:35 | 显示全部楼层
不需要三级规则,只需要两级:

1,第一级:就是现有第一级和第二级合并,完成三个目标:
目标1:采集列表内容
目标2:为第二级采集网址,生成下级线索
目标3:定义记号线索,负责翻页

2,第二级:使用第一级产生的线索采集详细内容

网址20190726153755.png

你的规则有个问题,只有抓取到网址才能生成下级线索,网址是A节点中的href属性,要在DOM树上有鼠标右键的 内容映射 菜单,映射给那个抓取内容
举报 使用道具
657344626 初级会员 发表于 2019-7-26 16:11:03 | 显示全部楼层
Fuller 发表于 2019-7-26 15:39
不需要三级规则,只需要两级:

1,第一级:就是现有第一级和第二级合并,完成三个目标:

你好,想问一下我想跳过前380页,第一级和第二级也能合并吗?定义规则和连续操作,哪个先执行?
还有,我的第一级规则和第二级规则没有问题嘛?为什么现在会导致第二级规则不进行翻页运行啊

举报 使用道具
wangyong 版主 发表于 2019-7-26 16:16:56 | 显示全部楼层
657344626 发表于 2019-7-26 16:11
你好,想问一下我想跳过前380页,第一级和第二级也能合并吗?定义规则和连续操作,哪个先执行?
还有,我 ...

TIM截图20190726161411.png
要跳过前面380页,可以用选择动作来实现,在高级设置里江起点设置为381,就是从第381页开始
xpath
  1. //*[@id='jpagenum']
复制代码

举报 使用道具
657344626 初级会员 发表于 2019-7-26 16:25:12 | 显示全部楼层
wangyong 发表于 2019-7-26 16:16
要跳过前面380页,可以用选择动作来实现,在高级设置里江起点设置为381,就是从第381页开始
xpath

谢谢!这样的话第二级任务是不是就不需要设置翻页了?


举报 使用道具
wangyong 版主 发表于 2019-7-26 16:28:09 | 显示全部楼层
657344626 发表于 2019-7-26 16:25
谢谢!这样的话第二级任务是不是就不需要设置翻页了?

不用设置了

举报 使用道具
657344626 初级会员 发表于 2019-7-26 16:32:28 | 显示全部楼层

你好,我发现第三级任务采不到数据,请问,是不是因为前两级采集地太快了?

举报 使用道具
657344626 初级会员 发表于 2019-7-26 16:49:34 | 显示全部楼层

多谢多谢!我看错地方了。。。没什么问题了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 02:55