使用GooSeeker浏览器的谋数台做了http://www.cnenergy.org/yw/zc/ 的抓取规则和爬虫路线:

数据规则:
<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" >
<xsl:template match="/">
<A2011>
<xsl:apply-templates select="//*[@class='main4_left_m1' and count(.//*[@class='biaoleft']/a/text())>0 and count(.//*[@class='b1 mykw'])>0 and count(.//*[@class='main4_left_m1_t']/a)>0 and count(.//*[@class='main4_left_m1_r']/p)>0 and count(./following-sibling::div[position()=1]/div[position()=3]/div[position()=2]/span[position()=2]/text())>0]" mode="A2011"/>
</A2011>
</xsl:template>


<xsl:template match="//*[@class='main4_left_m1' and count(.//*[@class='biaoleft']/a/text())>0 and count(.//*[@class='b1 mykw'])>0 and count(.//*[@class='main4_left_m1_t']/a)>0 and count(.//*[@class='main4_left_m1_r']/p)>0 and count(./following-sibling::div[position()=1]/div[position()=3]/div[position()=2]/span[position()=2]/text())>0]" mode="A2011">
<item>
<类别>
<xsl:value-of select="*//*[@class='biaoleft']/a/text()"/>
<xsl:value-of select="*[@class='biaoleft']/a/text()"/>
<xsl:if test="@class='biaoleft'">
<xsl:value-of select="a/text()"/>
</xsl:if>
</类别>
<链接>
<xsl:value-of select="*//*[@class='main4_left_m1_t']/a/@href"/>
<xsl:value-of select="*[@class='main4_left_m1_t']/a/@href"/>
<xsl:if test="@class='main4_left_m1_t'">
<xsl:value-of select="a/@href"/>
</xsl:if>
</链接>
<标签>
<xsl:value-of select="*//*[@class='b1 mykw']"/>
<xsl:value-of select="*[@class='b1 mykw']"/>
</标签>
<标题>
<xsl:value-of select="*//*[@class='main4_left_m1_t']/a"/>
<xsl:value-of select="*[@class='main4_left_m1_t']/a"/>
<xsl:if test="@class='main4_left_m1_t'">
<xsl:value-of select="a"/>
</xsl:if>
</标题>
<主要内容>
<xsl:value-of select="*//*[@class='main4_left_m1_r']/p"/>
<xsl:value-of select="*[@class='main4_left_m1_r']/p"/>
<xsl:if test="@class='main4_left_m1_r'">
<xsl:value-of select="p"/>
</xsl:if>
</主要内容>
<日期>
<xsl:value-of select="following-sibling::div[position()=1]/div[position()=3]/div[position()=2]/span[position()=2]/text()"/>
</日期>
</item>
</xsl:template>
</xsl:stylesheet>

线索规则:
<?xml version="1.0" encoding="UTF-8"?>
<spider-clue-extraction>
<theme>能源政策007</theme>
<scope>
<from>HTML</from>
<path-type>a</path-type>
<path>
//*[@class='main4_b1 main4_b1_3']//a[.//text()="加载更多"]

</path>
<clue-type>inthread</clue-type>
<target-theme>
<name>能源政策007</name>
<prefix-position>hostname+pathname</prefix-position>
</target-theme>
</scope>
undefined
</spider-clue-extraction>


在DS 打数机爬数据时,浏览器会按照设定的‘加载更多’页面增长,但抓取下面的数据和第一个都一样,没有变化。

请各位大牛指导!

谢谢!
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2016-10-13 09:10

沙发
Fuller 管理员 发表于 2016-10-12 16:57:32 | 只看该作者
正常情况下,结果文件的大小是增长的,虽然前面的内容一样,但是后面会追加新内容,你看看有没有新内容?

另外,你打开DS打数机的滚屏功能没有?
举报 使用道具
板凳
GooSeeker10000 新手上路 发表于 2016-10-12 21:50:02 | 只看该作者
本帖最后由 GooSeeker10000 于 2016-10-12 21:51 编辑

文件大小也没有增长

DS 打数机里面的内容是有在滚动的
滚屏参数:

滚屏次数 = 10000
滚屏速度 = 2
举报 使用道具
地板
Fuller 管理员 发表于 2016-10-12 22:27:43 | 只看该作者
GooSeeker10000 发表于 2016-10-12 21:50
文件大小也没有增长

DS 打数机里面的内容是有在滚动的

滚屏次数10000次,至少需要5000秒,要一个多小时。为什么要这么多次数?一般2-10次就够了。

如果是瀑布流网页的话,可以用连续动作中的滚屏功能
举报 使用道具
5#
GooSeeker10000 新手上路 发表于 2016-10-12 22:40:47 | 只看该作者
也试过2-10, 从抓取的结果没有什么变化
举报 使用道具
6#
Fuller 管理员 发表于 2016-10-12 22:52:53 | 只看该作者
主题名是什么?
举报 使用道具
7#
GooSeeker10000 新手上路 发表于 2016-10-13 09:10:22 | 只看该作者
能源政策007,

谢谢!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-11 02:28