是这样的 我想采取若干网页上的政策文本内容 但是每一个网页(即对应每一个政策)的字符数过大 如果直接采整个网页的话 会超过excel单元格的字符数限制(32000多字符) 多出来的部分就无法显示在excel表里 上次我问了工作人员 他给我出了个主意 就是不要把一整个政策文件算作一个字段 由于那个网页 每一行句子都是一个DIV节点 就可以把每个div节点算成一个字段 这样excel的每个单元格只显示一句话就没有这个问题了 我试了 效果还不错然后 又有一个问题就是  我在一个新的网站上收集数据  这个网页的构造好像和原来的那个有些区别 我用样例复制的方法  想把第一行句子作为样例1 第二行句子作为样例2  但是这个网页测试下来 就只有第一行句子被抓取了
规则名:二条例收集第二级
PS:偏好id和偏好class都尝试过了

举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2023-11-13 13:10

沙发
Fuller 管理员 发表于 2023-11-13 09:53:35 | 只看该作者
内容映射的时候,不要选择深层的html节点,选择更高层的,代表一整章的div做内容映射。如果这一大段超过excel的处理能力,到时候再细分。

用一整段做内容映射,就容易做规则。如下图:选择第一个红框的节点做内容映射,然后选择第一和第二个红框的节点分别做样例映射。定位偏好还是 偏好id


举报 使用道具
板凳
houndsan 初级会员 发表于 2023-11-13 11:17:10 | 只看该作者
Fuller 发表于 2023-11-13 09:53
内容映射的时候,不要选择深层的html节点,选择更高层的,代表一整章的div做内容映射。如果这一大段超过exc ...

但是您说的这个 上面的红框 他说 网页上没有相邻的模块
举报 使用道具
地板
houndsan 初级会员 发表于 2023-11-13 11:29:35 | 只看该作者
Fuller 发表于 2023-11-13 09:53
内容映射的时候,不要选择深层的html节点,选择更高层的,代表一整章的div做内容映射。如果这一大段超过exc ...

就像这样

error.png (159.34 KB, 下载次数: 299)

error.png
举报 使用道具
5#
Fuller 管理员 发表于 2023-11-13 13:10:42 | 只看该作者

dom树状结构收起来,光显示每一段那一级div。到底是不是找到了代表那一段的div,可以仔细看我的截图,上面有div的节点号,估计在你的电脑上也是一样的节点号
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-28 16:19