我想抓取这条微博的评论下方的所有评论,请问怎么抓取?http://weibo.com/2803301701/FmOs ... t#_rnd1508407866821

1.是不是设置通用的Xpath,那请问怎么设置啊?
2.如果实在不能设置统一的Xpath,就把每一个都设置一个点击动作,但是为什么点击动作只执行了第一个,这个怎么解决。

我看好多帖子里也有人有同样的问题,有人给出了详细的解答并且最终确实得到了解决,希望看到帖子的人也能帮我一下,我是自己真的弄不出来才会一次又一次的问。
谢谢
举报 使用道具
| 回复

共 22 个关于本帖的回复 最后回复于 2017-10-26 17:51

沙发
Fuller 管理员 发表于 2017-10-25 21:49:39 | 只看该作者


你只想采集“共36条回复”还是也要采集其他的回复?

如果也要采集其他的,你的定位xpath显然不行,只能定位到一个位置。你这个xpath里面全部用position()函数写的定死的位置,这样不行
举报 使用道具
板凳
Fuller 管理员 发表于 2017-10-25 21:52:22 | 只看该作者
这个xpath可以
  1. //*[@class='WB_text']/a[position()=2 and contains(text(), '共') and  contains(text(), '条回复')]
复制代码


举报 使用道具
地板
Fuller 管理员 发表于 2017-10-25 21:54:54 | 只看该作者

这还有点麻烦呢,是不是要点击更多?
举报 使用道具
5#
Fuller 管理员 发表于 2017-10-25 22:05:12 | 只看该作者
这个网页结构有点复杂,明天上班我问问同事是否有做过的
举报 使用道具
6#
Fuller 管理员 发表于 2017-10-25 22:30:54 | 只看该作者
可能要规划好几个主题:
1,主题A:上面定义连续动作,点击“共xx条回复”,目标主题是B
2,主题B:抓取回复的回复,同时点击“更多xx条回复”,目标主题还是B,这个过程相当于翻页

现在最麻烦的是主题A上的动作的XPath,刚才我写的那个Xpath能点,但是会跳着点。

比如,网页上的“共XX条回复”一共有5个点击位置
  1. 1  2  3  4  5
复制代码
用那个xpath,点击了1以后,1的“共xx条回复”不显示了。那么点击位置剩下
  1.    2  3  4  5
复制代码
DS打数机第二次点击的时候,本来想点击第二个位置,此时第二个位置是“3”,那么就把“2”跳过去了。我现在还不知道有什么办法解决这个问题,明天我问问同事
举报 使用道具
7#
chengyiling 初级会员 发表于 2017-10-25 22:44:08 | 只看该作者
Fuller 发表于 2017-10-25 21:49
你只想采集“共36条回复”还是也要采集其他的回复?

如果也要采集其他的,你的定位xpath显然不行,只能 ...

我要采集全部的回复,谢谢您
举报 使用道具
8#
chengyiling 初级会员 发表于 2017-10-25 22:46:05 | 只看该作者
Fuller 发表于 2017-10-25 21:54
这还有点麻烦呢,是不是要点击更多?

对的,要点击更多,这样才能把评论全部抓取下来
举报 使用道具
9#
chengyiling 初级会员 发表于 2017-10-25 22:47:10 | 只看该作者
Fuller 发表于 2017-10-25 22:30
可能要规划好几个主题:
1,主题A:上面定义连续动作,点击“共xx条回复”,目标主题是B
2,主题B:抓取回 ...

十分感谢您,真是麻烦您了,谢谢
举报 使用道具
10#
Fuller 管理员 发表于 2017-10-26 09:28:30 | 只看该作者
我觉得应该这样规划主题
1,主题A:上面定义连续动作,点击“共xx条回复”,目标主题是B。在高级设置那里,重复次数填10,因为最多有10条评论,跨度填20,只要是超过10的数字。因为采用了重复次数,已经把所有“共xx条回复”点击完了,所以,希望一步跨过去。
2,主题B:抓取回复的回复,同时点击“更多xx条回复”,目标主题还是B,这个过程相当于翻页,所以放在爬虫路线那里定义翻页规则,可以用记号线索,已“更多”这个词为记号
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 10:58