地址:https://www.maikeji.cn/technologies/5b496ef6263ee34090f7f0d5
规则名:迈科技详情测试
使用吧xpath获取到了图片URL,但是图片下载不下来,已勾选下载图片了,请问如何处理,谢谢!
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2018-7-18 12:50

沙发
Fuller 管理员 发表于 2018-7-18 11:19:49 | 只看该作者
我测试了你的规则。用集搜客网络爬虫下载图片,采用的是所见即所得的方式,这个图只有看到了,他才能下载下来。

我看到你的规则中图片网址是用自定义xpath拼出来的,此时,图片并没有出现在网页上,所以,下载不到。

如果你想用拼出来的网址,你可以做一个两级抓取,第一级就是现在的规则,第二级就是图片网址对应的网页。你构造出来的网址都是有效的,我试过,当运行第二级的时候,图片会被显示出来,这个时候就能抓图了
举报 使用道具
板凳
johson 初级会员 发表于 2018-7-18 11:20:12 | 只看该作者
麻烦请指教一下
举报 使用道具
地板
johson 初级会员 发表于 2018-7-18 11:21:57 | 只看该作者
有案例学习吗?
举报 使用道具
5#
Fuller 管理员 发表于 2018-7-18 11:23:16 | 只看该作者
johson 发表于 2018-7-18 11:20
麻烦请指教一下


第二级的页面是这样的,页面上就是一个大图,在这一级上勾上下载图片

第一级针对 url 这个抓取内容不要勾下载图片,而是勾上“下级线索”,第一级抓到的网址是给第二级生成线索的。定义两级抓取的方法参看这个教程:https://www.gooseeker.com/doc/article-343-1.html
举报 使用道具
6#
Fuller 管理员 发表于 2018-7-18 11:24:24 | 只看该作者
其实就是一个普通的层级采集,你都把第一级做好了,还需要做第二级,第二级专门下载图片。

有时候为了下载附件,也是这样做的,第一级只管抓网址,抓下来的网址交给第二级,第二级下图,下附件都可以
举报 使用道具
7#
johson 初级会员 发表于 2018-7-18 11:32:18 | 只看该作者
是这样设置下个线索吗?但是还下不到,谢谢!

QQ截图20180718113135.png (125.5 KB, 下载次数: 857)

QQ截图20180718113135.png

QQ截图20180718113011.png (111.37 KB, 下载次数: 859)

QQ截图20180718113011.png
举报 使用道具
8#
johson 初级会员 发表于 2018-7-18 11:45:56 | 只看该作者
你好,我已经建好二级,还是不能下载到
举报 使用道具
9#
johson 初级会员 发表于 2018-7-18 11:46:49 | 只看该作者
单独二级下载是可以下载到,一级不行,麻烦帮我看一下一级出错再哪里,谢谢!
举报 使用道具
10#
johson 初级会员 发表于 2018-7-18 12:25:42 | 只看该作者
用集搜第二级的没有运行到,是什么问题,麻烦帮我查一下
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 03:20