任务名:冲压裁切技术采集网址:知嘟嘟-IPRDB专利查询网__全球专利搜索引擎_中国专利检索平台-知嘟嘟旗下专利信息检索查询网站

image.jpg
没有@href,随后进行动作设置
image.jpg
结果:采集无法进行或采集不完整。
如何进行正确的采集操作过程。

image.jpg
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2022-8-31 17:01

马涌河畔 金牌会员 发表于 2022-8-30 10:14:37 | 显示全部楼层
我手工点击第一条记录的“PDF下载”,提示文件损坏了
QQ截图20220830101302.png
举报 使用道具
15976212013 初级会员 发表于 2022-8-30 10:17:21 | 显示全部楼层
马涌河畔 发表于 2022-8-30 10:14
我手工点击第一条记录的“PDF下载”,提示文件损坏了

我尝试了一下,也是错误的,但是如果用谷歌登录网址又是可以下载的。
举报 使用道具
Fuller 管理员 发表于 2022-8-30 18:04:24 | 显示全部楼层
我测试了你的规则,虽然这个网站上的pdf用手工点击查看的时候看不到内容,但是,用爬虫自动点击下载是没有问题的。

你的点击动作没有问题,能下载下来。只是你用了绝对定位,那个xpath只能定位到一个。应该用偏好class生成xpath,就能定位到20个,其中10个pdf,10个word。如果你只想要pdf,可以这样写xpath

//*[@class='ui basic keynote horizontal label' and contains(text(), 'PDF')]
举报 使用道具
15976212013 初级会员 发表于 2022-8-31 15:34:01 | 显示全部楼层
Fuller 发表于 2022-8-30 18:04
我测试了你的规则,虽然这个网站上的pdf用手工点击查看的时候看不到内容,但是,用爬虫自动点击下载是没有 ...

已解决,感谢,我导出来的偏好class不包含and contains(text(), 'PDF'),这个是需要自己添加的吗?
举报 使用道具
gz51837844 管理员 发表于 2022-8-31 16:02:39 | 显示全部楼层
15976212013 发表于 2022-8-31 15:34
已解决,感谢,我导出来的偏好class不包含and contains(text(), 'PDF'),这个是需要自己添加的吗? ...

是的,可以根据实际情况和需要自定义xpath
举报 使用道具
15976212013 初级会员 发表于 2022-8-31 17:01:44 | 显示全部楼层
当想要进行自动输入多个关键词搜索,层级设置时链接出现错误。第一级检索无输入搜索,也没有对第二级进行链接,该如何解决? image.png image.png image.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 17:39