第二级匹配失败

gjmsilly

做一个医院医生的信息采集，第二级医生信息的网页结构一样的采集还是匹配失败，是为什么呀？

Fuller · 发表于 2019-4-2 16:54:27

可以按照这个教程加载分析失败线索：https://www.gooseeker.com/doc/thread-13085-1-1.html

Fuller · 发表于 2019-4-2 16:58:09

我加载了你的规则，这种从网页正文提取内容是比较容易失败的，我估计有些网页没有按照样本页面这种模板，你加载分析一下失败线索吧，观察一下其他网页的模板是怎样的

gjmsilly · 发表于 2019-4-2 19:39:00

Fuller 发表于 2019-4-2 16:58
我加载了你的规则，这种从网页正文提取内容是比较容易失败的，我估计有些网页没有按照样本页面这种模板，你 ...

我目前用一个整理箱把二级网页爬下来手动传线索，二级网页根据结构的差别定了两个规则。还是有一些不能爬下来。

Fuller · 发表于 2019-4-2 19:53:41

gjmsilly 发表于 2019-4-2 19:39
我目前用一个整理箱把二级网页爬下来手动传线索，二级网页根据结构的差别定了两个规则。还是有一些不能爬 ...

你用我的方法可以加载分析一下，你会发现两个规则可能不够。

抓取人名可以抓标题上的人名，估计那里的是模板定好的。但是，还剩下职称那个内容，估计很多网页都放的位置不一样

共 4 个关于本帖的回复最后回复于 2019-4-2 19:53

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页