分享一些关于Python爬虫的源码，需要的朋友可以自行领取_爬虫代码下载百度云(2)

最新推荐文章于 2024-05-14 17:02:51 发布

原创最新推荐文章于 2024-05-14 17:02:51 发布 · 491 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#python #学习 #面试

程序员专栏收录该内容

198 篇文章

订阅专栏

做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。

别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。

我先来介绍一下这些东西怎么用，文末抱走。

（1）Python所有方向的学习路线（新版）

这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

最近我才对这些路线做了一下新的更新，知识体系更全面了。

在这里插入图片描述

（2）Python学习视频

包含了Python入门、爬虫、数据分析和web开发的学习视频，总共100多个，虽然没有那么全面，但是对于入门来说是没问题的，学完这些之后，你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。

在这里插入图片描述

（3）100多个练手项目

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了，只是里面的项目比较多，水平也是参差不齐，大家可以挑自己能做的项目去练练。

在这里插入图片描述

（4）200多本电子书

这些年我也收藏了很多电子书，大概200多本，有时候带实体书不方便的话，我就会去打开电子书看看，书籍可不一定比视频教程差，尤其是权威的技术书籍。

基本上主流的和经典的都有，这里我就不放图了，版权问题，个人看看是没有问题的。

（5）Python知识点汇总

知识点汇总有点像学习路线，但与学习路线不同的点就在于，知识点汇总更为细致，里面包含了对具体知识点的简单说明，而我们的学习路线则更为抽象和简单，只是为了方便大家只是某个领域你应该学习哪些技术栈。

在这里插入图片描述

（6）其他资料

还有其他的一些东西，比如说我自己出的Python入门图文类教程，没有电脑的时候用手机也可以学习知识，学会了理论之后再去敲代码实践验证，还有Python中文版的库资料、MySQL和HTML标签大全等等，这些都是可以送给粉丝们的东西。

在这里插入图片描述

这些都不是什么非常值钱的东西，但对于没有资源或者资源不是很好的学习者来说确实很不错，你要是用得到的话都可以直接抱走，关注过我的人都知道，这些都是可以拿到的。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

class JD_crawl:
def init(self, username, password):
self.headers = {
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36’
’ (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36’,
‘Referer’: ‘https://www.jd.com/’,
}
self.login_url = “https://passport.jd.com/new/login.aspx”
self.post_url = “https://passport.jd.com/uc/loginService”
self.auth_url = “https://passport.jd.com/uc/showAuthCode”
self.session = requests.session()
self.username = username
self.password = password

def get_login_info(self):
    html = self.session.get(self.login_url, headers=self.headers).content
    soup = BeautifulSoup(html, 'lxml')

    uuid = soup.select('#uuid')[0].get('value')
    eid = soup.select('#eid')[0].get('value')
    fp = soup.select('input[name="fp"]')[0].get('value')  # session id
    _t = soup.select('input[name="_t"]')[0].get('value')  # token
    login_type = soup.select('input[name="loginType"]')[0].get('value')
    pub_key = soup.select('input[name="pubKey"]')[0].get('value')
    sa_token = soup.select('input[name="sa_token"]')[0].get('value')

    auth_page = self.session.post(self.auth_url,
                                  data={'loginName': self.username, 'nloginpwd': self.password}).text
    if 'true' in auth_page:
        auth_code_url = soup.select('#JD_Verification1')[0].get('src2')
        auth_code = str(self.get_auth_img(auth_code_url))
    else:
        auth_code = ''

    data = {
        'uuid': uuid,
        'eid': eid,
        'fp': fp,
        '_t': _t,
        'loginType': login_type,
        'loginname': self.username,
        'nloginpwd': self.password,
        'chkRememberMe': True,
        'pubKey': pub_key,
        'sa_token': sa_token,
        'authcode': auth_code
        }
    return data

def get_auth_img(self, url):
    auth_code_url = 'http:{}&yys={}'.format(url, str(int(time.time()*1000)))
    auth_img = self.session.get(auth_code_url, headers=self.headers)
    with open('authcode.jpg', 'wb') as f:
        f.write(auth_img.content)
    code_typein = input('请根据下载图片输入验证码：')
    return code_typein

def login(self):
    data = self.get_login_info()
    headers = {
                'Referer': self.post_url,
                'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36'
                              ' (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36',
                'X-Requested-With': 'XMLHttpRequest'
              }
    try:
        login_page = self.session.post(self.post_url, data=data, headers=headers)
        print(login_page.text)
    except Exception as e:
        print(e)

    # self.session.cookies.clear()

def shopping(self):
    login = self.session.post('https://cart.jd.com/cart.action', headers=self.headers)
    print(login.text)

if name == ‘main’:
un = input(‘请输入京东账号：’)
pwd = input(‘请输入京东密码：’)
jd = JD_crawl(un, pwd)
jd.login()
jd.shopping()


利用Python爬取喜马拉雅音频文件

import re
import requests
from lxml import etree
from onexima import Xima

def get_id():
“”“获取排行榜每一本书的信息”“”
main_url = “https://www.ximalaya.com/shangye/top/”
headers = {
“User-Agent”: “Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36”
}
r = requests.get(main_url, headers=headers)
# 获取到当前页面的xml数据
html = etree.HTML(r.content.decode())
# 得到每一本书的位置的信息
div_list = html.xpath(“//div[contains(@class,‘e-2997888007 rrc-album-item’)]”)
all_lsit = [] # 待会把每一本书的音频以字典形式放进列表当中
for div in div_list:
author = {} # 创建一个列表, 我们要获取书的id和书的名字, 并且一一对应
r = div.xpath(“./a/@href”)[0] # 获取到当前书的id所在信息, 数据为: /renwen/4859823/
print®
# 所以得通过正则把正确的id取出来, id是为了传入正确的id, 得到正确的json数据
author[‘id’] = re.search(r’/.?/(.)/', r).group(1)
author[‘book_name’] = div.xpath(“./a/div[3]/div[1]/span/text()”)[0]
# 向列表中传入每一个音频的信息
all_lsit.append(author)
print(all_lsit)
return all_lsit

调用函数得到所有每一本书的信息, 是一个列表类型

all_lsit = get_id()
for i in all_lsit:
# 遍历列表, 把每本书对应的id和对应的书名传到类里面去
x = Xima(i[‘id’], i[‘book_name’])
x.run()


利用Python爬取妹子图

import requests
from bs4 import BeautifulSoup
import os
import re

Hostreferer = {
‘User-Agent’:‘Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)’,
‘Referer’:‘http://www.mzitu.com’
}
Picreferer = {
‘User-Agent’:‘Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)’,
‘Referer’:‘http://i.meizitu.net’
}

def get_page_name(url):#获得图集最大页数和名称
html = get_html(url)
soup = BeautifulSoup(html, ‘lxml’)
span = soup.findAll(‘span’)
title = soup.find(‘h2’, class_=“main-title”)
return span[10].text, title.text

def get_html(url):#获得页面html代码
req = requests.get(url, headers=Hostreferer)
html = req.text
return html

def get_img_url(url, name):
html = get_html(url)
soup = BeautifulSoup(html, ‘lxml’)
img_url = soup.find(‘img’, alt= name)
return img_url[‘src’]

def save_img(img_url, count, name):
req = requests.get(img_url, headers=Picreferer)
new_name = rename(name)
with open(new_name+‘/’+str(count)+‘.jpg’, ‘wb’) as f:
f.write(req.content)

def rename(name):
rstr = r’[/\😗?<>|]’
new_name = re.sub(rstr, “”, name)
return new_name

def save_one_atlas(old_url):
page, name = get_page_name(old_url)
new_name = rename(name)
os.mkdir(new_name)

print("图集--" + name + "--开始保存")
for i in range(1, int(page)+1):
    url = old_url + "/" + str(i)
    img_url = get_img_url(url, name)
    # print(img_url)
    save_img(img_url, i, name)
    print('正在保存第' + str(i) + '张图片')
print("图集--" + name + "保存成功")

def get_atlas_list(url):
req = requests.get(url, headers=Hostreferer)
soup = BeautifulSoup(req.text, ‘lxml’)
atlas = soup.find_all(attrs={‘class’:‘lazy’})
atlas_list = []
for atla in atlas:
atlas_list.append(atla.parent[‘href’])
return atlas_list

def save_one_page(start_url):
atlas_url = get_atlas_list(start_url)
for url in atlas_url:
save_one_atlas(url)

if name == ‘main’:
start_url = “http://www.mzitu.com/”
for count in range(1, 3):
url = start_url + “page/” + str(count) +“/”
save_one_page(url)
print(“爬取完成”)


Python制作微信朋友圈九宫图

from PIL import Image
import sys
#先将 input image 填充为正方形
def fill_image(image):
width, height = image.size
#选取长和宽中较大值作为新图片的
new_image_length = width if width > height else height
#生成新图片[白底]
new_image = Image.new(image.mode, (new_image_length, new_image_length), color=‘white’) #注意这个函数！
#将之前的图粘贴在新图上，居中
if width > height:#原图宽大于高，则填充图片的竖直维度 #(x,y)二元组表示粘贴上图相对下图的起始位置,是个坐标点。
new_image.paste(image, (0, int((new_image_length - height) / 2)))
else:
new_image.paste(image, (int((new_image_length - width) / 2),0))
return new_image
def cut_image(image):
width, height = image.size
item_width = int(width / 3) #因为朋友圈一行放3张图。
box_list = []
# (left, upper, right, lower)
for i in range(0,3):
for j in range(0,3):
#print((iitem_width,jitem_width,(i+1)item_width,(j+1)item_width))
box = (jitem_width,iitem_width,(j+1)*item_width,(i+1)*item_width)
box_list.append(box)
image_list = [image.crop(box) for box in box_list]
return image_list
#保存
def save_images(image_list):
index = 1
for image in image_list:
image.save(str(index) + ‘.png’, ‘PNG’)
index += 1
if name == ‘main’:
file_path = “4.jpg”
image = Image.open(file_path)
#image.show()
image = fill_image(image)
image_list = cut_image(image)
save_images(image_list)


利用Python爬取LOL官网

-- coding:utf-8 --

import requests
import re
import json
#获取JS源代码获取英雄的ID
#拼接URL地址
#获取下载图片的地址
#下载图片

#驼峰命名法
#获取英雄图片
def getLOLImages():
header = {‘User-Agent’:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36’}
url_js = ‘http://lol.qq.com/biz/hero/champion.js’
#获取JS源代码 str bytrs字节
res_js = requests.get(url_js).content
#转码
html_js = res_js.decode()
#正则表达
req = ‘“keys”😦.*?),“data”’
list_js = re.findall(req,html_js)
#print(list_js[0])

# str → dict
dict_js = json.loads(list_js[0])
#print(dict_js)
#定义图片列表
pic_list = []
for key in dict_js:
    #print(key)
    for i in range(20):
        num = str(i)
        if len(num) == 1:
            hreo_num = "00"+num
        elif len(num) == 2:
            hreo_num = "0"+num
        numstr = key+hreo_num
        url = "http://ossweb-img.qq.com/images/lol/web201310/skin/big"+numstr+".jpg"
        #print(url)
        pic_list.append(url)

        list_filepath = []
        path = "E:\\文章\\LOL官网\LOLpic\\"
        #print(dict_js.values())
        for name in dict_js.values():
            for i in range(20):
                file_path = path + name + str(i) + '.jpg'
                list_filepath.append(file_path)
                #print(list_filepath)
n = 0               
for picurl in pic_list:
    res = requests.get(picurl)
    n+=1

    if res.status_code ==200:

        print("正在下载%s"%list_filepath[n])
        #time.sleep(1)
        with open(list_filepath[n],'wb') as f:
            f.write(res.content)

getLOLImages()

一、Python所有方向的学习路线

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。