摘取泉港区政府工作报告中的数字遇到的问题

2019-7-2 10:02| 发布者: Fuller| 查看: 6104| 评论: 0

摘要: 集搜客摘录软件的用途之一:从各级政府发布的工作报告中摘取数字,用于建立经济分析模型。集搜客数据采集团队已经摘录加工了全国所有县市的政府工作报告、预决算报告、统计公报,将其中的数字摘录下来存成结构化的ex ...
      集搜客摘录软件的用途之一:从各级政府发布的工作报告中摘取数字,用于建立经济分析模型。集搜客数据采集团队已经摘录加工了全国所有县市的政府工作报告、预决算报告、统计公报,将其中的数字摘录下来存成结构化的excel表格。

集搜客摘录软件V1和V2版本只是集搜客数据采集团队内部使用的工具,从V3版本开始,陆续把一些重要功能开放出来。目前是V3.0.9版本,下载位置是:


      V3.0.9版本有一个缺陷:如果网页的html中含有看起来像html命名空间的标签时,摘录的内容要再次复现到网页上就失败了。比如,泉港区政府工作报告的网页中含有这样的看起来像命名空间的标签:

这个st1:chsdate标签包含了“2016”这个年份内容,要摘取下来就得解析这个标签,这个标签看起来像命名空间,但是又不是合法的命名空间,所以导致摘取失败。

在V3.0.13版重点解决了这个问题。


鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2024-3-29 04:47