我新发布了一个采集规则:
淘宝网_商品评论


详细信息:
       采集淘宝商品的累计评论信息,用于研究消费者的购买行为和产品优化。

      
这是一套四层级的规则,“淘宝网_搜索列表”是第一级规则,采集商品基本信息和第二级网址入口;“淘宝天猫_商品详情”是第二级规则,由采集淘宝详情和天猫详情的两个规则组成,采集商品详细信息以及通过模拟点击跳转到商品评论页面采集评论信息;“淘宝网_商品评论”和“天猫_商品评论”是第三级规则,采集商品评论列表信息以及通过模拟点击跳转到交易记录页面采集交易记录信息;“淘宝网_交易记录"和”天猫_交易记录"是第四级规则,用于采集商品的交易记录信息。

       这个规则不能单独使用,必须与“淘宝天猫_商品详情”规则一起使用才能采集到评论信息,与“淘宝网_搜索列表”、“淘宝天猫_商品详情”、“天猫_商品评论”等规则组合使用,能对某分类下的所有商品进行全方位的追踪分析。加上使用“淘宝网_成交记录”、“天猫_成交记录”这两个规则,就可以把商品的评论信息和交易记录都采集下来,从而获得最真实的商品销售情况。


希望大家喜欢!下载地址:
http://www.gooseeker.com/res/detail_89622.html
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2017-9-7 18:24

ysdx2013 初级会员 发表于 2015-12-23 16:25:34 | 显示全部楼层
厉害!
举报 使用道具
tk296084 新手上路 发表于 2016-1-10 17:13:37 | 显示全部楼层
好用,已测试,评价已下载下来了,不过是XML格式,还在研究如何转换成EXCEL。
举报 使用道具
Fuller 管理员 发表于 2016-1-10 17:56:26 | 显示全部楼层
tk296084 发表于 2016-1-10 17:13
好用,已测试,评价已下载下来了,不过是XML格式,还在研究如何转换成EXCEL。 ...

一种方式是下载XML合并成excel的工具:http://www.gooseeker.com/res/tooldetail_1000000003.html

另一种使用爬虫群的云存储功能,直接上载到云服务器,然后导出excel,参看:http://www.gooseeker.com/doc/article-197-1.html
举报 使用道具
123challenge 新手上路 发表于 2016-1-25 09:45:16 | 显示全部楼层
好东西
举报 使用道具
makeyoyo 初级会员 发表于 2016-4-21 14:01:38 | 显示全部楼层
每次都是抓取失败,抓取规则不合适或者超时时间设置太短
举报 使用道具
Fuller 管理员 发表于 2016-4-21 15:48:12 | 显示全部楼层
makeyoyo 发表于 2016-4-21 14:01
每次都是抓取失败,抓取规则不合适或者超时时间设置太短

评论抓取稍微有些复杂,要管理好DS打数机,具体问题可以加入qq群,在那里能得到及时的帮助: GooSeeker网页抓取工具 242144153
举报 使用道具
Fuller 管理员 发表于 2016-4-21 16:25:27 | 显示全部楼层
makeyoyo 发表于 2016-4-21 14:01
每次都是抓取失败,抓取规则不合适或者超时时间设置太短

经管理员检查,规则有些问题,网页改版了,我们重新修改了,请重新下载一次
举报 使用道具
sanmuluoluo 初级会员 发表于 2017-9-7 17:36:10 | 显示全部楼层
样本页面无效了呢,能重发一下吗?
举报 使用道具
umsung 高级会员 发表于 2017-9-7 18:24:13 | 显示全部楼层
sanmuluoluo 发表于 2017-9-7 17:36
样本页面无效了呢,能重发一下吗?

样本页面已经修改,现在可以继续使用了。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 20:34