11#
carmen 中级会员 发表于 2017-5-23 20:17:52 | 只看该作者
Fuller 发表于 2017-5-23 18:04
定位标志映射的教程是《定位标志精确采集范围》

可以了,感谢!
可以问一下需要区分Taobao跟Tmall,具体是怎样实现的吗

举报 使用道具
12#
Fuller 管理员 发表于 2017-5-23 20:37:44 | 只看该作者
carmen 发表于 2017-5-23 20:15
定位映射后可以了。感谢!!!
可以再麻烦一下吗?Taobao有下面这几种网页结构,是把左上角的logo设为关键内容 ...

是的,可以用这个方法做区分。创建一个抓取内容,抓取这个logo的图片网址,但是,可能需要自定义xpath。过程是:
1,先做普通的内容映射
2,点击测试按钮,可以看到生成的数据规则
3,找到logo的这个抓取内容,把他的xpath拷出来
4,改写成含有contains()函数的表达式,因为淘宝和天猫的logo的src不一样,用contains函数可以专门针对这个区别做判断

也许不用自定义xpath就行,只是用自定义xpath就会更有保障
举报 使用道具
13#
carmen 中级会员 发表于 2017-5-24 14:16:32 | 只看该作者
Fuller 发表于 2017-5-23 20:37
是的,可以用这个方法做区分。创建一个抓取内容,抓取这个logo的图片网址,但是,可能需要自定义xpath。 ...

好的,谢谢!
举报 使用道具
14#
carmen 中级会员 发表于 2017-5-25 17:46:58 | 只看该作者
Fuller 发表于 2017-5-23 20:37
是的,可以用这个方法做区分。创建一个抓取内容,抓取这个logo的图片网址,但是,可能需要自定义xpath。 ...

你好,如果天猫头抓到的数据中月销量+库存与检查时月销量+库存有细微的差别(只是一小部分),请问是设置的规则有问题吗?
举报 使用道具
15#
Fuller 管理员 发表于 2017-5-25 18:15:26 | 只看该作者
carmen 发表于 2017-5-25 17:46
你好,如果天猫头抓到的数据中月销量+库存与检查时月销量+库存有细微的差别(只是一小部分),请问是设置 ...

会不会是他的商品在不断销售,从而造成数据不断变化?
举报 使用道具
16#
carmen 中级会员 发表于 2017-5-25 18:57:33 | 只看该作者
Fuller 发表于 2017-5-25 18:15
会不会是他的商品在不断销售,从而造成数据不断变化?

如果销量增多,库存会相应减少,我查看的时候,是抓到的月销量+库存不等于查看时月销量+库存,所以不知道是否我的规则有问题。
举报 使用道具
17#
gz51837844 管理员 发表于 2017-5-25 18:59:49 | 只看该作者
carmen 发表于 2017-5-25 18:57
如果销量增多,库存会相应减少,我查看的时候,是抓到的月销量+库存不等于查看时月销量+库存,所以不知道 ...

你只抓一页, 拿结果文件和网页原数据去挨个比对

举报 使用道具
18#
carmen 中级会员 发表于 2017-5-25 20:31:44 | 只看该作者
gz51837844 发表于 2017-5-25 18:59
你只抓一页, 拿结果文件和网页原数据去挨个比对

是的,就是有对过,发现有一小部分有这种情况。
举报 使用道具
19#
Fuller 管理员 发表于 2017-5-25 22:11:09 | 只看该作者
carmen 发表于 2017-5-25 18:57
如果销量增多,库存会相应减少,我查看的时候,是抓到的月销量+库存不等于查看时月销量+库存,所以不知道 ...

不是规则问题,你不能用月销量+库存来算。

首先,月销量是30天的销量,比如,现在看来就是 4月25日 22:00 - 5月25日 21:59的销量,如果你再到23:00去看,就会减去4月25日22:00-23:00销售的数量再加上5月25日21:59-22:59销售的数量,你是不知道前后这两段时间谁销售多,谁销售少的。

另外,库存数量也可以调整
举报 使用道具
20#
carmen 中级会员 发表于 2017-5-27 15:08:30 | 只看该作者
Fuller 发表于 2017-5-25 22:11
不是规则问题,你不能用月销量+库存来算。

首先,月销量是30天的销量,比如,现在看来就是 4月25日 22: ...

好的,谢谢!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-19 13:31