通过requests库re库进行淘宝商品爬虫爬取（对中国大学mooc嵩天老师爬虫进行修改）

最新推荐文章于 2024-09-02 14:50:26 发布

原创

最新推荐文章于 2024-09-02 14:50:26 发布 · 3.9k 阅读

34 ·

CC 4.0 BY-SA版权

文章标签：

#python #正则表达式 #curl

中国大学mooc上的爬取淘宝页面商品已经因为淘宝的维护而无法爬取

比如，只出现个表头：
[外链图片转存失败,源站可能有防盗在这里插入!链机制,建描述]议将图片上https://传(implog.csdnimg.cn/20203Sdbz309195430123.png4)(https://img一直-blog.csdnimg.cn/20200309195430123.png)]
这是我按照嵩天老师代码学习，遇到的问题。

原代码如下：

import requests
import re
def getHTMLText(url):
   
   try:
        r= requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
   except:
        return ""

def parsePage(ilt,html):
    try:
        plt = re.findall(r'\"view_price\":\"[\d+\.]*\"',html)
        tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)
        for i in range(len(plt)):
            price = eval(plt[i].split(':')[1])
            title = eval(tlt[i].split(':')[1])
            ilt.append([price,title])
    except:
        print("F")

def printGoodsList(ilt):
    tplt = "{:4}\t{:8}\t{:16}"
    print(tplt.f

最低0.47元/天解锁文章

34 条评论

海口乱岩 2020.08.23
谢谢大佬

周伟文、 2020.07.27
现在好像不行了，楼主的还生效吗
- ccqclf回复qq_27900235 2021.02.15
  好像也是不行，请各位大神楼主层主赐教
- ccqclf回复qq_27900235 2021.02.15
  大佬是所有的都放进去吗我看尤其是那个cookie 内容特别多是直接cookie和user-agent做两个键值对复制到headers的字典就可以吗
- weixin_45642784回复weixin_45642784 2020.08.06
  [reply]weixin_45642784[/reply]可以了
- weixin_45642784回复qq_27900235 2020.08.06
  [reply]qq_27900235[/reply]还是不行
- qq_27900235回复周伟文、 2020.08.05
  [reply]Rywen[/reply]最近学习嵩老师的代码，发现淘宝拒绝访问并跳转到登录页面。尝试了多种方法，楼主的方法应该是失效了。找到一种暂时可行的方法，以谷歌浏览器为例，登录自己的账号，同样找到search，左键点击，在右侧的Headers中找到user-agent和cookie，复制下来。然后创建一个headers字典，把user-agent和cookie放进去，然后在r=requests.get()中加入参数：headers=headers即可。
- qq_27900235回复周伟文、 2020.08.05
  [reply]Rywen[/reply]8月5日学习嵩老师的代码，尝试了很多次，楼主的方法应该是失效了。找到一个暂时可行的，首先登录自己的账号，同样是找到search，不同的是左键点击search，在右侧的Hearders信息中找到user-agent和cookie（以chrome为例），复制下来。然后添加一个headers字典，把user-agent和cookie放进去。在r=requests.get()中添加参数headers=headers即可。

weixin_48403911 2020.06.23
network 里面选了all，但是里面没有search，只有一堆jpg...求楼主解答，感谢！
- 阿瞒oman回复weixin_48403911 2020.06.29
  [reply]weixin_48403911[/reply]是不是浏览器的问题？我用的是谷歌浏览器版本是81.0.4044.69，今天测试是可以找到search文件的

深海大菠萝里的派大星 2020.06.22
还是不行只有表头已经把headers复制过去了

今天你有方向了吗？ 2020.05.26
网页network里面没有search文件

yd_ 2020.04.23
我按照这样也不行，就把那些代码一段段复制到交互端那看是哪里有问题，结果python一直提示我最后def main那一段语法出错，但我检查了很多遍都不知道哪有问题了...
- 阿瞒oman回复yd_ 2020.06.29
  [reply]m0_46991604[/reply]这个问题我也曾遇到过，但是从IDEL复制后放在新建的IDEL或者pycharm文件中，就可以正常运行了

yd_ 2020.04.22
楼主我的电脑找不到search咋办...
- 阿瞒oman回复yd_ 2020.06.29
  [reply]m0_46991604[/reply]是不是浏览器的问题，我用的是谷歌浏览器版本是81.0.4044.69，今天测试是可以找到search文件的

weixin_46266661 2020.04.19
headers=headers 嵩天老师的代码： AttributeError: module 're' has no attribute 'compile' 希望其他同学可以看到谢谢楼主！！！

weixin_46266661 2020.04.19
楼主，我用headers=headers才可以感谢楼主用嵩天老师，错误是： AttributeError: module 're' has no attribute 'compile' 希望其他同学可以看到
- 阿瞒oman回复weixin_46266661 2020.06.29
  [reply]weixin_46266661[/reply]嗯嗯，那可能是因为你从search文件中表头信息中直接复制了headers=｛｝，因此后面赋值的时候需要写成headers=headers，而我复制的表头改成了header=｛｝，去掉了s，所以这一点也要看清楚。

悔悟参半 2020.04.14
能爬去1000条数据吗？？
- 阿瞒oman回复悔悟参半 2020.06.29
  [reply]weixin_46140123[/reply]可以的