本帖最后由 FedRex 于 2017-10-26 11:57 编辑

求解,为什么前面的用这种xpath可以定位,后面例如小区介绍的却定不了位

B~)H9R$[IK(67BO(UV5BX6H.png (42.3 KB, 下载次数: 739)

基本属性定位

基本属性定位

VN3NGJSKTO44659)@UMB9CR.png (43.13 KB, 下载次数: 850)

小区介绍的定位

小区介绍的定位

2US32Y[4LC1[1KBD~D)[I)0.png (29.5 KB, 下载次数: 704)

主题名和网址

主题名和网址
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2017-10-26 16:43

沙发
bowieD 金牌会员 发表于 2017-10-26 11:42:58 | 只看该作者
本帖最后由 bowieD 于 2017-10-26 11:47 编辑

可以把主题名和网址贴出来看看,这个xptah是所有li节点下text()节点中包含“小区介绍”的text()节点
举报 使用道具
板凳
FedRex 初级会员 发表于 2017-10-26 12:02:11 | 只看该作者
本帖最后由 FedRex 于 2017-10-26 12:03 编辑
bowieD 发表于 2017-10-26 11:42
可以把主题名和网址贴出来看看,这个xptah是所有li节点下text()节点中包含“小区介绍”的text()节点 ...

图三是主题名和规则,我主要问题是如果没做xpath定位,抓数据的时候网页里的小区内容里的结构会变化,想利用文本精确定位,就不会出现该抓小区介绍的,却抓到了配套设施的内容,但是不知道例如小区介绍的xpath该怎么写才能定位成功
举报 使用道具
地板
bowieD 金牌会员 发表于 2017-10-26 14:23:27 | 只看该作者
本帖最后由 bowieD 于 2017-10-26 14:26 编辑
FedRex 发表于 2017-10-26 12:02
图三是主题名和规则,我主要问题是如果没做xpath定位,抓数据的时候网页里的小区内容里的结构会变化,想利 ...

后面的信息都不是li节点,全部都是div节点,所以你那么些肯定是定位不到的,试试这个//*[@id='house_feature']/div/div[contains(./div/text(),'小区介绍')]/div[last()]/text()

或者这个//*[@class='baseattribute clear'][contains(./div/text(),'小区介绍')]/div[last()]/text()
应该都可以


举报 使用道具
5#
FedRex 初级会员 发表于 2017-10-26 15:50:47 | 只看该作者
bowieD 发表于 2017-10-26 14:23
后面的信息都不是li节点,全部都是div节点,所以你那么些肯定是定位不到的,试试这个//*[@id='house_featu ...

谢谢,我用的是类似于这个xpath://div[contains(./div/text(),'小区介绍')]/div[last()]/text(),可以吗

举报 使用道具
6#
数据集 高级会员 发表于 2017-10-26 15:59:27 | 只看该作者
FedRex 发表于 2017-10-26 15:50
谢谢,我用的是类似于这个xpath://div[contains(./div/text(),'小区介绍')]/div[last()]/text(),可以吗 ...

能定位到就可以,xpath前面最好不要用“//“,用.//或//*
举报 使用道具
7#
FedRex 初级会员 发表于 2017-10-26 16:43:53 | 只看该作者
数据集 发表于 2017-10-26 15:59
能定位到就可以,xpath前面最好不要用“//“,用.//或//*

嗯嗯,谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 09:05