你们那个方法挺好用的,能使用phomtanJS迅速定位到ajax生成的页面元素,其它基于http流的都不行
但是抓去玩的数据都是xml的,想变成通用的数据怎么处理呢?

举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2017-9-24 18:13

shengchengx 金牌会员 发表于 2017-8-22 16:20:33 | 显示全部楼层
《xml转换为excel 》可以看下这个教程,会有讲怎么讲xml文件转换成Excel、

举报 使用道具
zhujun6538 新手上路 发表于 2017-8-22 17:54:26 | 显示全部楼层
shengchengx 发表于 2017-8-22 16:20
《xml转换为excel 》可以看下这个教程,会有讲怎么讲xml文件转换成Excel、

只提示数据导入失败
举报 使用道具
Fuller 管理员 发表于 2017-8-22 18:13:28 | 显示全部楼层
zhujun6538 发表于 2017-8-22 17:54
只提示数据导入失败

现在还没有导入成功吗?要把结果文件压缩成zip格式的,不能是rar或者其他格式,而且只能包含纯文件,不要包含文件夹
举报 使用道具
zhujun6538 新手上路 发表于 2017-8-22 18:24:00 | 显示全部楼层
Fuller 发表于 2017-8-22 18:13
现在还没有导入成功吗?要把结果文件压缩成zip格式的,不能是rar或者其他格式,而且只能包含纯文件,不要 ...

可以了,要加入一串另外的xml,如下:
<extraction><clueid>411641559</clueid><fullpath><![CDATA[http://data.eastmoney.com/report/000001.html]]></fullpath><realpath><![CDATA[http://data.eastmoney.com/report/000001.html]]></realpath><theme>eastmoneytest</theme><middle>规则_1</middle><createdate>2017-8-22 18:3:17</createdate><pageno>0</pageno><actionno></actionno><actionvalue></actionvalue><prestamp>DSEngine-+--+-0</prestamp><currentstamp>DSEngine-+-ds_browser_top-+-157643667</currentstamp><baseURI><bucketBaseURI><bucketName>data</bucketName><uri><![CDATA[http://data.eastmoney.com/report/000001.html]]></uri></bucketBaseURI></baseURI>
举报 使用道具
Fuller 管理员 发表于 2017-8-22 21:08:13 | 显示全部楼层
zhujun6538 发表于 2017-8-22 18:24
可以了,要加入一串另外的xml,如下:
411641559eastmoneytest规则_12017-8-22 18:3:170DSEngine-+--+-0D ...

这串内容是自动生成的,为什么要另外加入?你修改过结果文件?
举报 使用道具
012006024431 初级会员 发表于 2017-9-24 18:13:26 | 显示全部楼层
python编写一个小程序可一次性把xml文件转成TXT或者cvs
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 21:48