主题名:IT互联网行业薪酬
打数机翻页到某一页就翻不下去了,一直在那一页重复,设置重复停止的话就中断了,而且每次中断的位置页数都不一样,请问这是什么原因


举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2018-5-3 14:36

沙发
yangwenge 金牌会员 发表于 2018-4-28 09:46:23 | 只看该作者
采集的网站无法访问,可以在浏览器中手工翻页看看,看是否也会翻不了页。
举报 使用道具
板凳
数据集 高级会员 发表于 2018-4-28 09:48:40 | 只看该作者
规则的样本网址需要翻墙还是公司内部网站?这边打不开,观察翻到哪一页会一直重复,再分析那一页的网页结构与其他页是否不一样,再可以重新加载规则,跳转到重复翻页的那一页,再分析规则是否适应页面
举报 使用道具
地板
hulili 初级会员 发表于 2018-4-28 10:04:11 | 只看该作者
浏览器内可以翻页,没发现中断页有什么不一样
举报 使用道具
5#
hulili 初级会员 发表于 2018-4-28 10:12:30 | 只看该作者
数据集 发表于 2018-4-28 09:48
规则的样本网址需要翻墙还是公司内部网站?这边打不开,观察翻到哪一页会一直重复,再分析那一页的网页结构 ...

每次重复中断的位置不一样,上一次在第9页,下一次重新开始爬又在23页,再下次又在第4页
举报 使用道具
6#
数据集 高级会员 发表于 2018-4-28 10:12:45 | 只看该作者
本帖最后由 数据集 于 2018-4-28 10:18 编辑

给抓取内容做上定位标志映射,精确采集范围

有些网页之间的结构存在细微的不同,直接看是发现不了的,要把发生重复采集的那一页加载到规则去 ,后续分析看规则是否报错

中断的页数不一样,是不是网速问题,如果网页加速速度慢,超时时长一到网页还没加载出来就会采集结束,如果是这样,在打数机的配置中把超时时长调大,同时把滚屏打开,在滚屏参数中设置滚屏次数不为0即可


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
7#
hulili 初级会员 发表于 2018-4-28 10:37:16 | 只看该作者
之前抓取内容错乱,同一行的字段总是抓到第一个字段,没有独立的class或ID值,所以选用了绝对定位,超时时长页设置了5000秒,滚屏次数也是2次,但每次都是因为网页重复中断。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
8#
umsung 高级会员 发表于 2018-4-28 11:22:08 | 只看该作者
hulili 发表于 2018-4-28 10:37
之前抓取内容错乱,同一行的字段总是抓到第一个字段,没有独立的class或ID值,所以选用了绝对定位,超时时 ...

相对线索翻页试试
举报 使用道具
9#
hulili 初级会员 发表于 2018-4-28 12:23:21 | 只看该作者
umsung 发表于 2018-4-28 11:22
用相对线索翻页试试

试了,还是不行
举报 使用道具
10#
umsung 高级会员 发表于 2018-4-28 15:21:44 | 只看该作者
最好不要用绝对定位,绝对定位会降低规则的适应性

每一页都有独立网址吗?如果每一页都有独立网址,知道总页数就可以批量构造出全部页码的网址,然后直接添加到规则里,同时要删掉规则里的翻页设置,就可以单页采集,不用担心采漏某一页或者是重复翻页。《构造网址》的方式
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 为什么用微软的excel无法打开xls文件?powe
  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法

热门用户

GMT+8, 2025-7-21 22:57