我有很多网站 每个网站的结构不同 现在想通过关键字采集出来网站所有的A标签里面的内容 有什么有好的办法吗

举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2018-3-21 14:33

Fuller 管理员 发表于 2018-3-20 18:53:09 | 显示全部楼层
你的意思是:在一个网页上,用关键字去匹配每个超链接的文本,如果含有关键字,就要这个超链接的网址。是这个意思吗?
举报 使用道具
Fuller 管理员 发表于 2018-3-20 18:53:19 | 显示全部楼层
有没有具体的网页的例子?
举报 使用道具
docker_bhl 新手上路 发表于 2018-3-21 08:54:08 | 显示全部楼层
如有含这些关键字 就要这个超链接,而且网站很多,最终的结果都是要最后的链接,不想建好多规则完了事后再一个一个去下载这样工作量太大了 有没有好的办法。基本都是列表页 但是页面的结构都不一样
举报 使用道具
Fuller 管理员 发表于 2018-3-21 11:35:43 | 显示全部楼层
docker_bhl 发表于 2018-3-21 08:54
如有含这些关键字 就要这个超链接,而且网站很多,最终的结果都是要最后的链接,不想建好多规则完了事后再 ...

可以建立一个通用规则,用网页的body节点做内容映射,就能把整个网页文本采集下来。

但是,一定要一页页下载以后再去匹配有没有关键词,下载工作省不了
举报 使用道具
docker_bhl 新手上路 发表于 2018-3-21 13:11:41 | 显示全部楼层
就是说匹配关键字是在excel里面去操作是么。。
举报 使用道具
docker_bhl 新手上路 发表于 2018-3-21 13:17:24 | 显示全部楼层
那通用规则分页怎么办 可以通用么
举报 使用道具
maomao 论坛元老 发表于 2018-3-21 14:33:17 | 显示全部楼层
docker_bhl 发表于 2018-3-21 13:17
那通用规则分页怎么办 可以通用么

做内容映射时,使用html.body节点,所有网页都有这个节点,所以是最通用的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 20:17