第一步进入网页哪有问题呢,为什么采集失败呢
第二步回退这一步有错吗,是不是应该先进行第一步再进行第二步呢



举报 使用道具
| 回复

共 19 个关于本帖的回复 最后回复于 2023-10-17 08:56

沙发
Fuller 管理员 发表于 2023-10-13 10:19:33 | 只看该作者
我加载规则就要求登录,你要在采集前先在爬虫浏览器中登录好。

根据你的截图看,规则定义的挺好。如果第一级规则运行失败了,那可以规则的适应性不够,可以试着给抓取内容做上定位标志映射以提高适应性。只有第一级采集成功了才能进入第二级
举报 使用道具
板凳
2186667399 初级会员 发表于 2023-10-13 10:23:19 | 只看该作者
本帖最后由 2186667399 于 2023-10-13 10:37 编辑
Fuller 发表于 2023-10-13 10:19
我加载规则就要求登录,你要在采集前先在爬虫浏览器中登录好。

根据你的截图看,规则定义的挺好。如果第一 ...

我感觉我是按您的定义规则来的,也定义上了,但是只要加上翻页设置就不行

举报 使用道具
地板
Fuller 管理员 发表于 2023-10-13 11:15:44 | 只看该作者
在翻页那里和连续动作点击那里,都不要勾选模拟点击,也不要勾高级设置那些选项。这个网页上的表格是能滚动的,有些内容滚动以后才能显示,如果没有显示出来,模拟点击就失效了。不勾模拟点击有可能可以。但是我现在实验不了,因为这个网站在我的电脑上不显示内容了。

估计设置了反爬,这类数据库会有很严的反爬
举报 使用道具
5#
Fuller 管理员 发表于 2023-10-13 11:31:16 | 只看该作者


我发现点击这里可以回退回第一级,那么第二级就不要用回退了,用点击动作代替回退。我这里显示内容不正常,没法测试,可以遇到反爬了
举报 使用道具
6#
2186667399 初级会员 发表于 2023-10-13 11:39:26 | 只看该作者
Fuller 发表于 2023-10-13 11:15
在翻页那里和连续动作点击那里,都不要勾选模拟点击,也不要勾高级设置那些选项。这个网页上的表格是能滚动 ...

我按您说的做,确实可以进入网页了,但是为什么进入第一个网页后就一直白屏,包括第二级回退那也一样,也把第一个内容重复采集,您看看是我哪做错了

举报 使用道具
7#
Fuller 管理员 发表于 2023-10-13 11:53:22 | 只看该作者
这个网页很多陷阱要避开,注意下面几点:
1. 第一级的整理箱要做上定位标志映射


2. 第一级的翻页,要用整个表对应的div做翻页区,因为网页上还有一个隐藏的表也有翻页区,弄不好就去点那个隐藏的了,就达不到目的。另外,不能勾模拟点击


3. 第一级点击动作,不能勾模拟点击


4. 第二级用点击动作实现回退,要注意这样写xpath,才能点击到第二个位置


5. 翻页以后,网页结构就变了,必须在同一个第一级任务名下定义第二个规则,用来采集第二页
举报 使用道具
8#
Fuller 管理员 发表于 2023-10-13 11:53:57 | 只看该作者
2186667399 发表于 2023-10-13 11:39
我按您说的做,确实可以进入网页了,但是为什么进入第一个网页后就一直白屏,包括第二级回退那也一样,也 ...

白屏的原因是反爬,这个没办法
举报 使用道具
9#
2186667399 初级会员 发表于 2023-10-13 11:58:45 | 只看该作者
本帖最后由 2186667399 于 2023-10-14 20:03 编辑
Fuller 发表于 2023-10-13 11:53
这个网页很多陷阱要避开,注意下面几点:
1. 第一级的整理箱要做上定位标志映射


按您的做法,xpath和主页是一样的,返回主页了直接,不会返回列表啊,用回退的话会出现我和您说的白屏。是我操作有问题吗,之前在群里问的时候说用回退动作我也设置了,也按上边您的操作做了,但是我按您的做会直接返回主页不是返回列表,因为两个class一样,您看我如何操作才能达到您们技术员给我的采集截图,麻烦您了。

这是我在群里问的时候您们技术人员给出的结果,所以我想问我的问题出在哪了
举报 使用道具
10#
2186667399 初级会员 发表于 2023-10-14 20:05:18 | 只看该作者
Fuller 发表于 2023-10-13 11:53
白屏的原因是反爬,这个没办法

我按您说的设置了,因为您让点击的位置标签名一样所以直接返回最外面一层了,我又设置了一个让他进入列表执行,可就不往下进行了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-28 12:38