求助:在汽车之家做层级采集。第二级有些需要翻页有些不需要翻页。
          在需要翻页的二级网站中就无法翻过去,浏览器出现404故障,接着就是超时。
          主题名是:汽车之家口碑数据库JW1.1第一层和汽车之家口碑数据库JW1.1第二层

第二层规则如下:

        <?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" >
<xsl:template match="/">
<第一级>
<xsl:apply-templates select="//*[@class='subnav' and count(.//*[@class='subnav-title-name']/a)>0 and count(./following-sibling::div[position()=4]//*[@class='mouth-cont js-koubeidataitembox']/div[position()>=4])>0]" mode="第一级"/>
</第一级>
</xsl:template>




<xsl:template match="*//*[@class='choose-con']" mode="第2.1级">
<item>
<用户名>
<xsl:value-of select="*//*[@class='name-text']/p/a[position()=1]"/>
<xsl:value-of select="*[@class='name-text']/p/a[position()=1]"/>
<xsl:if test="@class='name-text'">
<xsl:value-of select="p/a[position()=1]"/>
</xsl:if>
</用户名>
<详细车型>
<xsl:value-of select="*//*[@class='main-text']"/>
<xsl:value-of select="*[@class='main-text']"/>
</详细车型>
<油耗>
<xsl:value-of select="following-sibling::div[position()=1]/dl[position()=6]/dd/p[position()=1]"/>
</油耗>
</item>
</xsl:template>
<xsl:template match="*[@class='choose-con']" mode="第2.1级">
<item>
<用户名>
<xsl:value-of select="*//*[@class='name-text']/p/a[position()=1]"/>
<xsl:value-of select="*[@class='name-text']/p/a[position()=1]"/>
<xsl:if test="@class='name-text'">
<xsl:value-of select="p/a[position()=1]"/>
</xsl:if>
</用户名>
<详细车型>
<xsl:value-of select="*//*[@class='main-text']"/>
<xsl:value-of select="*[@class='main-text']"/>
</详细车型>
<油耗>
<xsl:value-of select="following-sibling::div[position()=1]/dl[position()=6]/dd/p[position()=1]"/>
</油耗>
</item>
</xsl:template>


<xsl:template match="*//*[@class='mouth-remak']" mode="第2.2级">
<item>
<口碑浏览量>
<xsl:value-of select="*//*[@class='orange']"/>
<xsl:value-of select="*[@class='orange']"/>
</口碑浏览量>
<口碑支持人数>
<xsl:value-of select="*//*[@class='supportNumber']"/>
<xsl:value-of select="*[@class='supportNumber']"/>
</口碑支持人数>
<口碑评论数>
<xsl:value-of select="*//*[@class='font-arial CommentNumber']"/>
<xsl:value-of select="*[@class='font-arial CommentNumber']"/>
</口碑评论数>
<日期>
<xsl:value-of select="preceding-sibling::div[position()=1]/div[position()=1]/div/b/a"/>
</日期>
</item>
</xsl:template>
<xsl:template match="*[@class='mouth-remak']" mode="第2.2级">
<item>
<口碑浏览量>
<xsl:value-of select="*//*[@class='orange']"/>
<xsl:value-of select="*[@class='orange']"/>
</口碑浏览量>
<口碑支持人数>
<xsl:value-of select="*//*[@class='supportNumber']"/>
<xsl:value-of select="*[@class='supportNumber']"/>
</口碑支持人数>
<口碑评论数>
<xsl:value-of select="*//*[@class='font-arial CommentNumber']"/>
<xsl:value-of select="*[@class='font-arial CommentNumber']"/>
</口碑评论数>
<日期>
<xsl:value-of select="preceding-sibling::div[position()=1]/div[position()=1]/div/b/a"/>
</日期>
</item>
</xsl:template>

<xsl:template name="第二级">
<item>
<第2.1级>
<xsl:apply-templates select="*//*[@class='choose-con']" mode="第2.1级"/>
<xsl:apply-templates select="*[@class='choose-con']" mode="第2.1级"/>
</第2.1级>
<第2.2级>
<xsl:apply-templates select="*//*[@class='mouth-remak']" mode="第2.2级"/>
<xsl:apply-templates select="*[@class='mouth-remak']" mode="第2.2级"/>
</第2.2级>
</item>
</xsl:template>

<xsl:template match="//*[@class='subnav' and count(.//*[@class='subnav-title-name']/a)>0 and count(./following-sibling::div[position()=4]//*[@class='mouth-cont js-koubeidataitembox']/div[position()>=4])>0]" mode="第一级">
<item>
<厂商-车型>
<xsl:value-of select="*//*[@class='subnav-title-name']/a"/>
<xsl:value-of select="*[@class='subnav-title-name']/a"/>
<xsl:if test="@class='subnav-title-name'">
<xsl:value-of select="a"/>
</xsl:if>
</厂商-车型>
<指导价>
<xsl:value-of select="following-sibling::div[position()=1]/div/div/div/div[position()=1]/dl/dt/div[position()=1]/span"/>
</指导价>
<二手价>
<xsl:value-of select="following-sibling::div[position()=1]/div/div/div/div[position()=1]/dl/dt/div[position()=2]/span"/>
</二手价>
<第二级>
<xsl:for-each select="following-sibling::div[position()=4]//*[@class='mouth-cont js-koubeidataitembox']/div[position()>=4]">
<xsl:call-template name="第二级"/>
</xsl:for-each>
</第二级>
</item>
</xsl:template>
</xsl:stylesheet>
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2018-3-22 12:28

沙发
yangwenge 金牌会员 发表于 2018-3-22 09:35:45 | 只看该作者
本帖最后由 yangwenge 于 2018-3-22 09:43 编辑

一级规则采集到的网址是:https://k.autohome.com.cn/2388/?#dataList
看你的二级规则好像用的是点击某个口碑的查看全部后的网址,所以是匹配不上的。
举报 使用道具
板凳
swdcjw 初级会员 发表于 2018-3-22 09:47:33 | 只看该作者
yangwenge 发表于 2018-3-22 09:35
一级规则采集到的网址是:https://k.autohome.com.cn/2388/?#dataList
看你的二级规则好像用的是点击某个口 ...

谢谢~我不需要采口碑的文字,只需要下面的浏览量,所以应该不用把全部内容打开就可以采到的
举报 使用道具
地板
wangyong 版主 发表于 2018-3-22 09:52:12 | 只看该作者
https://k.autohome.com.cn/4394/index_7.html#dataList
用这条网址测试,可以正常翻页到,你是用哪条网址翻页失败了?
举报 使用道具
5#
yangwenge 金牌会员 发表于 2018-3-22 09:52:37 | 只看该作者
本帖最后由 yangwenge 于 2018-3-22 09:55 编辑
swdcjw 发表于 2018-3-22 09:47
谢谢~我不需要采口碑的文字,只需要下面的浏览量,所以应该不用把全部内容打开就可以采到的
...

我前面的回复有点错误,规则这边测试是没什么问题,能正常翻页;
二级规则的样本页面有问题,加载不出来,重新换了个页面就可以了。
更换ip,清理下cookies。
另外二级规则中的用户名要取消关键内容,因为有部分是没有发表口碑的,是采集不到的用户名的,这种页面就会导致匹配失败。

举报 使用道具
6#
swdcjw 初级会员 发表于 2018-3-22 09:55:54 | 只看该作者
yangwenge 发表于 2018-3-22 09:52
我前面的回复有点错误,规则这边测试是没什么问题,能正常翻页;
二级规则的样本页面有问题,加载不出来, ...

昨天晚上一直不行,今天早上突然好了 我也很莫名 谢谢回复!
举报 使用道具
7#
swdcjw 初级会员 发表于 2018-3-22 09:58:04 | 只看该作者
wangyong 发表于 2018-3-22 09:52
https://k.autohome.com.cn/4394/index_7.html#dataList
用这条网址测试,可以正常翻页到,你是用哪条网址 ...

昨天晚上不行,今天早上突然又好了。。 不知道是什么原因。。
谢谢回复!
另外:又遇到一个问题,请问我想加载第二级规则的时候显示网址过长被截断,规则加载不出来怎么解决呢?
举报 使用道具
8#
wangyong 版主 发表于 2018-3-22 10:03:09 | 只看该作者
第二级规则样本页面的网址似乎是个错误网址,上面发的也是第二级网址很标准,但是样本页面的网址很长,有很多参数
你直接把上面的网址都拿到软件中加载,然后选择文件中的分析页面就可以加载规则了。
举报 使用道具
9#
swdcjw 初级会员 发表于 2018-3-22 12:28:24 | 只看该作者
wangyong 发表于 2018-3-22 10:03
第二级规则样本页面的网址似乎是个错误网址,上面发的也是第二级网址很标准,但是样本页面的网址很长,有很 ...

好的,谢谢帮助~
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 20:47