最近在抓闲鱼的数据。
第一级就是采集下级链接列表和翻页
可是打数机采集完成之后,统计线索为0.
如果直接运行第二级规则,
直接跳转到验证码页面了。
这个怎么处理啊?
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2016-8-18 20:58

沙发
Fuller 管理员 发表于 2016-8-12 23:23:14 | 只看该作者
如果想做两级抓取,首先要看抓到的下一级的网址是不是真实网址,如果是javascript代码,或者单独一个#,那样做两级抓取没有意义。必须要当时就做点击抓取,也就是做连续动作规则
举报 使用道具
板凳
redwindy 中级会员 发表于 2016-8-13 12:14:28 | 只看该作者
Fuller 发表于 2016-8-12 23:23
如果想做两级抓取,首先要看抓到的下一级的网址是不是真实网址,如果是javascript代码,或者单独一个#,那 ...

那么如何分辨是不是JavaScript代码呢?没做过这一块……
举报 使用道具
地板
redwindy 中级会员 发表于 2016-8-13 12:17:03 | 只看该作者
Fuller 发表于 2016-8-12 23:23
如果想做两级抓取,首先要看抓到的下一级的网址是不是真实网址,如果是javascript代码,或者单独一个#,那 ...


得到的都是这种形式的地址,应该算是正常地址吧?
但是一旦使用的话,浏览器地址栏就变成好长好长的地址。
举报 使用道具
5#
Fuller 管理员 发表于 2016-8-13 15:26:03 | 只看该作者
redwindy 发表于 2016-8-13 12:14
那么如何分辨是不是JavaScript代码呢?没做过这一块……

不用看有没有javascript代码,因为这些代码分散在各处,只需看href中有没有网址就行
举报 使用道具
6#
Fuller 管理员 发表于 2016-8-13 15:27:27 | 只看该作者
redwindy 发表于 2016-8-13 12:17
得到的都是这种形式的地址,应该算是正常地址吧?
但是一旦使用的话,浏览器地址栏就变成好长好长的地址 ...

这是正常的网址,先不用关心地址栏会不会是好长好长,而是重点看网页能否显示出来。

地址栏变长有很多原因,比如,自动跳转
举报 使用道具
7#
redwindy 中级会员 发表于 2016-8-18 20:58:23 | 只看该作者
Fuller 发表于 2016-8-13 15:27
这是正常的网址,先不用关心地址栏会不会是好长好长,而是重点看网页能否显示出来。

地址栏变长有很多原 ...

好的,我试试看先。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-13 02:51