11#
Givent 中级会员 发表于 2017-1-4 16:42:17 | 只看该作者
xandy 发表于 2017-1-4 14:36
这个网页做了什么动作之后会出现验证码?
你是自动打码的话可以参看这个教程:《连续打码:破解各种验证 ...

我就是参考这个教程做的,然后你们技术人员,让我在同一个主题下建立一个规则2.
举报 使用道具
12#
xandy 论坛元老 发表于 2017-1-4 17:16:04 | 只看该作者
Givent 发表于 2017-1-4 16:42
我就是参考这个教程做的,然后你们技术人员,让我在同一个主题下建立一个规则2.
...

登录之后,点击列表页面的车票号10次以上就会出现弹验证码,这个时候要用到自动打码的功能。
快到网1抓取链接给快到网2,以此产生快到网2的线索,快到网2执行采集的时候根据线索打开链接进行采集,可能就会出现验证码了,所以你要在快到网2新建一个规则(不同规则编号)来做打码动作。
教程参看我前面发的。
举报 使用道具
13#
Givent 中级会员 发表于 2017-1-5 10:54:49 | 只看该作者
xandy 发表于 2017-1-4 17:16
登录之后,点击列表页面的车票号10次以上就会出现弹验证码,这个时候要用到自动打码的功能。
快到网1抓取 ...

已经做好打码规则,还是爬不了,请问怎么办,有人更贴么?
举报 使用道具
14#
AnswerDSL 版主 发表于 2017-1-5 10:59:12 | 只看该作者
Givent 发表于 2017-1-5 10:54
已经做好打码规则,还是爬不了,请问怎么办,有人更贴么?

在采集过程中,是哪一个步骤卡住了呢?采集失败的原因是什么

举报 使用道具
15#
Givent 中级会员 发表于 2017-1-5 14:32:31 | 只看该作者
AnswerDSL 发表于 2017-1-5 10:59
在采集过程中,是哪一个步骤卡住了呢?采集失败的原因是什么

刚点击爬就失败了,规则不匹配,完全不知道怎么回事
举报 使用道具
16#
AnswerDSL 版主 发表于 2017-1-5 14:41:54 | 只看该作者
Givent 发表于 2017-1-5 14:32
刚点击爬就失败了,规则不匹配,完全不知道怎么回事

查看一下失败的线索号,然后在谋数台上加载看看是哪里不匹配或者规则适用性不高的。

举报 使用道具
17#
Givent 中级会员 发表于 2017-1-5 15:00:43 | 只看该作者
AnswerDSL 发表于 2017-1-5 14:41
查看一下失败的线索号,然后在谋数台上加载看看是哪里不匹配或者规则适用性不高的。

...

说是规则不匹配,关键问题是,刚搜就跳出验证码,可是技术人员让我把打码动作加到规则2,。我已经懵逼了。您帮我测试下规则,具体看下吧
举报 使用道具
18#
xiaojunahu 论坛元老 发表于 2017-1-5 15:54:48 | 只看该作者
应该要做样例复制和翻页
举报 使用道具
19#
Givent 中级会员 发表于 2017-1-5 16:57:32 | 只看该作者
xiaojunahu 发表于 2017-1-5 15:54
应该要做样例复制和翻页

做过了啊
举报 使用道具
20#
xandy 论坛元老 发表于 2017-1-6 18:18:42 | 只看该作者
本帖最后由 xandy 于 2017-1-6 18:40 编辑

你的“快到网2”没做好。
快到网2,该主题下有两个规则。
规则编号1,针对详情页面做采集规则,样本网址如:
  1. http://www.56top.cn/openDriverDetailed.jspx?id=000AE823C981A169116A2635409817DD
复制代码
你的样本网址是下面这个,这是一个错误的页面,会导致运行二级规则的时候抓不到数据,把样本网址修改下
  1. http://www.56top.cn/openDriverDetailed.jspx
复制代码

规则编号2,针对弹出验证码的页面做打码的动作,打码能不能定位到,这个你自己检查下,还有就是这个规则采集内容要有东西,建立一个字段设为关键词,只要页面中始终有的一个内容就可以了。

PS:你的“快到网1”翻页线索要勾“连贯抓取”,不然会翻页失败。

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-12 17:39