php 淘宝、天猫店铺商品采集

php 淘宝、天猫店铺商品采集

------------------------             原创                 --------------------------------

2015 08 04
1)淘宝现在改成https://
2)连接地址改成  //item.taobao.com/....
3)商品列表
                            <script type="text/javascript">
                                if (window.TShop && window.TShop.ModUtil)
                                    TShop.ModUtil.initMod(document.getElementById("shop8490088327"), 1);
                            </script>

4
商品列表 js调用
 https://shop112980512.taobao.com/i/asynSearch.htm?_ksTS=1438683915079_191&callback=jsonp192&mid=w-8490088328-0&wid=8490088328&path=/search.htm&search=y&pageNo=1
 https://shop112980512.taobao.com/i/vdata.htm?_ksTS=1438683915142_216&callback=jsonp217

 能打开
 https://shop112980512.taobao.com/i/asynSearch.htm?_ksTS=1438683915079_19&callback=jsonp192&mid=w-8490088328-0&wid=8490088328&path=/search.htm&search=y&pageNo=1

 https://leilei0451.taobao.com/i/asynSearch.htm?_ksTS=1438683915079_19&callback=jsonp192&mid=w-8490088328-0&wid=8490088328&path=/search.htm&search=y&pageNo=1


  mid wid对应的是 widgetid。。这个参数不能错
 <div class="J_TModule" data-widgetid="8490088328"  id="shop8490088328"  data-componentid="4002"  data-spm='110.0.4002-8490088328'  microscope-data='4002-8490088328' data-title="宝贝列表"  ><!-- $categoryId $aabc 搜索列表${x-shop-url}请求:searchURL: ,无宝贝:searchURL: , bucketId:  bucketUser: -->
 <div class="skin-box tb-module tshop-pbsm tshop-pbsm-shop-srch-list">
   <input id="J_ShopAsynSearchURL" type="hidden" value="/i/asynSearch.htm?mid=w-8490088328-0&wid=8490088328&path=/search.htm&amp;search=y&amp;pageNo=1" />

http://www.htys123.com/


有网友提示说 只能访问到第一页的数据

http://3.com/taobaoapi/manage/fetch-taobao-goods/test_pc_list_ajax.php

我本地测试 好像可以啊

估计他没有加ua 和referer


--------------------                 原创                 ----------------------

  • http://www.v2ex.com/t/110556  

  hpxl · 2014-04-29 22:07:06 +08:00 · 4183 次点击
这是一个创建于 460 天前的主题,其中的信息可能已经有所发展或是发生改变。
能够规避淘宝防采集功能,通过代理快速采集店铺商品,商品信息以及图片默认存放在./data目录。

https://github.com/hpxl/fetch-taobao-goods
如果觉得有用,欢迎star
第 1 条附言  ·  2014-04-30 22:28:30 +08:00
1.修复当淘宝店铺没有店铺分类时,商品采集失败的问题。
2.脚本运行需要开启curl扩展

    11
andyhu    2014-05-03 10:43:43 +08:00
@ hanchengluo 试下node.js+request+cheerio吧,我其实工作中是用PHP的,但如果有需要抓取远程页面这种工作,用完这个组合以后再回去PHP会觉得非常痛苦

--------------------------

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值