应该从哪里还是排错啊分页的那个地方只有一个IMG然后A标签里面都是JS代码
举报 使用道具
| 回复

共 25 个关于本帖的回复 最后回复于 2016-9-18 12:02

沙发
koni_zhang 新手上路 发表于 2016-9-13 12:03:25 | 只看该作者
我的主题名是imports_1
举报 使用道具
板凳
Fuller 管理员 发表于 2016-9-13 12:07:42 | 只看该作者
koni_zhang 发表于 2016-9-13 12:03
我的主题名是imports_1

把样本页面帖出来吧,你的这个规则加载的时候,样本页面是一个错误页,无法做分析
举报 使用道具
地板
Fuller 管理员 发表于 2016-9-13 12:10:22 | 只看该作者
翻页抓取集锦在这里:http://www.gooseeker.com/doc/thread-698-1-1.html
举报 使用道具
5#
koni_zhang 新手上路 发表于 2016-9-13 21:17:28 | 只看该作者
        <table border="0" cellpadding="1" cellspacing="2" width="100%">
          <!--- pr list ends above this line---->
          <tr>
            <td height="22" valign="bottom">
              <div align="left"><a href="#">
                <img height=18 src="/trade/cmm/images/butt_top.gif" width=58 border=0></a>
              </div>
            </td>
            <td height="22"> </td>
            <td height="22">
              <div align=right> <span class="txt-body">
               
                        <img height=18 src="/trade/cmm/images/butt_back.gif" width=18 align=textTop border=0>
               
                                Page 1 of 24
                 <a href="javascript:doViewNextRecords('NEXT');">
                        <img height=18 src="/trade/cmm/images/butt_forward.gif" width=18 align=textTop border=0>
                </a>
                        <br>&nbsp;&nbsp;&nbsp;&nbsp;To Page</span>
                <input type="text" name="pageNum" size="3" maxlength="5"><a href="javascript:doViewNextRecords('NEXT_SPECIFY');">
                        <img height=18 src="/trade/cmm/images/butt_forward.gif" width=18 align=textTop border=0></a>
              </div>
            </td>
          </tr>
          </tbody>
        </table>
        <div align="left">
          <table width="100%" border="0" cellspacing="5" cellpadding="1">
            <tr>
              <td colspan="5" height="3">
                <hr size="1">
              </td>
            </tr>
          </table>
举报 使用道具
6#
koni_zhang 新手上路 发表于 2016-9-13 21:21:00 | 只看该作者
样本页面太大了有80k 这里只能贴100000个字符,而且要登录所以我只是贴了导航的那一部分代码,希望能够有用,可能因为是以前Java Servlet写的而且页面很不规范,我要怎么才能看到错误在哪里啊, 你是想说因为页面有错误 所以阻止了爬虫的模拟点击行为? 如果不能这样还有其他的可替代的方案吗,比如模拟点击一类的.
举报 使用道具
7#
Fuller 管理员 发表于 2016-9-13 21:24:09 | 只看该作者

可以参照这个帖子:http://www.gooseeker.com/doc/thread-534-1-1.html
用img的src作为翻页记号做记号映射,其实和用text()作为记号一样,只是要在工作台上设置一下,不要勾选“文本记号”
举报 使用道具
8#
koni_zhang 新手上路 发表于 2016-9-13 21:27:58 | 只看该作者
而且这个导航上一页和下一页 在页面的头部和尾部各有一个。 <img height=18 src="/trade/cmm/images/butt_forward.gif" width=18 align=textTop border=0></a> 我是用的这一行的src做的规则.
举报 使用道具
9#
Fuller 管理员 发表于 2016-9-13 21:30:57 | 只看该作者
koni_zhang 发表于 2016-9-13 21:21
样本页面太大了有80k 这里只能贴100000个字符,而且要登录所以我只是贴了导航的那一部分代码,希望能够有用 ...

抓网页的时候,是不管网站用什么做的,爬虫看到的只是html和javascript。

GooSeeker网络爬虫的浏览器内核是个功能完整的浏览器,不怕网页上有错误,只要火狐浏览器能看的,GooSeeker浏览器也能看。你在火狐浏览器上能看这个网页吗?

你不用把网页贴出来,你把网址贴出来就行
举报 使用道具
10#
Fuller 管理员 发表于 2016-9-13 21:32:09 | 只看该作者
koni_zhang 发表于 2016-9-13 21:27
而且这个导航上一页和下一页 在页面的头部和尾部各有一个。  我是用的这一行的src做的规则.  ...

做规则的时候用哪个都行,但是下载加载规则的时候会自动选择前一个(如果两个一样的话)
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-19 13:01