本帖最后由 Givent 于 2020-5-11 16:17 编辑

我的主题名
举报 使用道具
| 回复

共 20 个关于本帖的回复 最后回复于 2017-1-6 18:19

沙发
shenzhenwan10 金牌会员 发表于 2017-1-2 13:21:19 | 只看该作者
我看到快到网1有2个规则编号
你采集的路线是怎么样的, 可以说明一下或者简单画个图,不然不知道你是想做什么
举报 使用道具
板凳
Givent 中级会员 发表于 2017-1-2 14:41:19 | 只看该作者
shenzhenwan10 发表于 2017-1-2 13:21
我看到快到网1有2个规则编号
你采集的路线是怎么样的, 可以说明一下或者简单画个图,不然不知道你是想做什 ...

先选择一个城市,然后构建一个网址进入二级网页(这时设置一个规则2就是打码用的),把二级网页的详细信息都采集了
举报 使用道具
地板
shenzhenwan10 金牌会员 发表于 2017-1-2 15:40:19 | 只看该作者
你的第一级规则, 点击测试, 详细信息的字段内容是:http://www.56top.cn/openDriverDetailed.jspx?id=
这个结果是否是你想要的,如果不是,你需要调整xpath
举报 使用道具
5#
shenzhenwan10 金牌会员 发表于 2017-1-2 15:43:07 | 只看该作者
本帖最后由 shenzhenwan10 于 2017-1-2 16:00 编辑

另外, 你的规则只是抓取单条信息
如果你想抓取多条, 可以使用样例复制
举报 使用道具
6#
xandy 论坛元老 发表于 2017-1-4 11:24:21 | 只看该作者
Givent 发表于 2017-1-2 14:41
先选择一个城市,然后构建一个网址进入二级网页(这时设置一个规则2就是打码用的),把二级网页的详细信 ...

你没有弄清“一个规则适用同种网页结构”这句话的含义,通俗来说一个主题就代表了一个规则,而该主题下可以设置多个规则编号,为了是让不同编号的规则适用页面稍有差异的页面的采集,本质上这些页面的结构还是一样的。你的快车网1规则有两个规则编号,规则_1和规则_2,这两个编号的规则对应的样本页面的结构完全不一样,这是不对的,要分成两个主题去定义规则。



我建议你先规划下你的爬虫路线,规划好了只好再设定规则。
比方说,首先你要采集这个页面
  1. http://www.56top.cn/queryMoreReturnDriverInfo.jspx
复制代码
这个规则,做样例复制和翻页抓搜索列表,同时生成下级线索
下一个规则,抓具体的详情页面
  1. http://www.56top.cn/openDriverDetailed.jspx?id=A231ED22E78D4575CE506861E607A874
复制代码
设定规则采集想要的内容。
记住了,这两个页面结构是不一样的,所以通过不同的主题来做规则,不能用一个主题下的不同规则来做。
举报 使用道具
7#
xandy 论坛元老 发表于 2017-1-4 11:26:25 | 只看该作者
举报 使用道具
8#
xandy 论坛元老 发表于 2017-1-4 11:28:16 | 只看该作者
什么情况下要给同一个主题建立不同的抓取规则,可以参看这个应用场景:《怎样采集同一个网站的不同网页结构信息
举报 使用道具
9#
Givent 中级会员 发表于 2017-1-4 12:09:54 | 只看该作者
xandy 发表于 2017-1-4 11:24
你没有弄清“一个规则适用同种网页结构”这句话的含义,通俗来说一个主题就代表了一个规则,而该主题下可 ...

那请问下怎么加上一个打码的动作呢?在哪个主题下加呢?
举报 使用道具
10#
xandy 论坛元老 发表于 2017-1-4 14:36:47 | 只看该作者
Givent 发表于 2017-1-4 12:09
那请问下怎么加上一个打码的动作呢?在哪个主题下加呢?

这个网页做了什么动作之后会出现验证码?
你是自动打码的话可以参看这个教程:《连续打码:破解各种验证码连续采数据——以工商信息网为例
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-28 08:54