https://twitter.com/search?q=%22Green%20Book%22%20(%23Oscars)%20lang%3Aen%20until%3A2019-02-27%20since%3A2019-02-24&src=typed_query

在twitter搜索后,会用加粗的字体标记搜索关键字。但是在网页结构里,文本会被加粗部分分割:
示例1:这段文字被加粗的“GREEN BOOK”分割成三段
微信截图短原文.png
这是对应的网页结构,后面两个#text的内容是空的
微信截图短结构.png

这是示例2,他的内容被分成了6个部分
微信截图原文.png

这是对应的网页结构,有6各个#text,其中一个为空
微信截图_20190929114953.png

对于这样的结构(相同的div下 #text的数量并不固定,空白#text的出现没有规律),如何通过案例映射采集全部评论内容?



举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2019-9-29 14:27

Fuller 管理员 发表于 2019-9-29 12:23:19 | 显示全部楼层
div下的多个text就不要用样例复制挨个采集了,而是把div作为一个整体,做内容映射给一个抓取内容,把整个文字内容采集下来
举报 使用道具
carloszone 中级会员 发表于 2019-9-29 13:40:00 | 显示全部楼层
Fuller 发表于 2019-9-29 12:23
div下的多个text就不要用样例复制挨个采集了,而是把div作为一个整体,做内容映射给一个抓取内容,把整个文 ...

不太明白。

一个div是一个账号转发或者发布的评论,我要采集多个账号的内容,所以应该还需要样例复制吧。

把div做整体的话,如果采集div结构相同的内容呢
举报 使用道具
carloszone 中级会员 发表于 2019-9-29 14:27:03 | 显示全部楼层
Fuller 发表于 2019-9-29 12:23
div下的多个text就不要用样例复制挨个采集了,而是把div作为一个整体,做内容映射给一个抓取内容,把整个文 ...

搞定了   谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 04:21