Sound_of_ Silence-优快云博客

原创 Python challenge 挑战1-19关总结

刚学python（今年五月份左右）时候朋友推荐了pythonchallenge这个网站，当时就给自己立下个目标，看看不在网上搜索答案，靠自己想及与朋友讨论，看看能闯到第几关，现在是到了第19关，20关卡得也是很厉害，越到后面脑洞是越来越大了，老阿姨不服老真是不行。做一个阶段性的总结，暂时告一段落，年末肯定是没有时间搞了，将自己的作业做一个传送门放上来：Mission 1:https://bl...

2019-12-07 08:36:52 695

原创爬取JD格力空调的各种信息

又做了一回爬JD信息的爬虫，但是这次爬取的内容更多更全，其实写代码本身不难，主要费时间的就是找相关信息的url，详细代码如下：import requestsimport reimport timeimport jsonimport osimport tracebackfrom lxml import etreefrom collections import OrderedDict...

2019-11-26 09:35:53 680

原创 Python Challenge第19关挑战

由于工作紧张的原因很久没更新博客，实在对不住，说声抱歉大家了！！！之前立了个flag说要闯一下pythonchallenge看能到哪，后面几关真是越来越摸不着头脑了，好久才搞定了第20关，记录如下：首先是查看源代码，发现里面有超长的一段注释，且告诉了我们使用base64编码，是一个wav文件，因此，首先我们拿到注释，代码中的get_comment函数；接着将其写入wav文件，parse_dat...

2019-11-25 11:15:53 747 1

原创批量自动安装第三方库配置Python环境

经常到一个新机上配置python，一个一个pip 第三方库实在是不厌其烦，所以干脆写了一个代码自动安装，与大家共享：注意:有多线程版与单线程版，电脑配置如果非常差，还是用单线程的吧，把多线程代码注释掉。libs中写入自己想要安装的第三方库的名字即可import osimport threading# 安装单个第三方库def install(lib): try: ...

2019-11-06 16:14:11 557

原创 matplotlib 中关键字记录

2019年10月8日更新legend关键字：Legend(parent, handles, labels, loc=None, numpoints=None, markerscale=None, markerfirst=True, scatterpoints=None, scatteryoffsets=None, prop=None, fontsize=...

2019-10-08 16:24:46 268

原创存一下

import requestsimport reimport randomfrom faker import Fakerfrom lxml import etreedef get_text(url):try:headers = {‘User-Agent’: random.choice(ls)}response = requests.get(url, headers=headers...

2019-10-06 22:57:34 140

原创 Python爬取ps笔刷素材--大文件下载

python 爬取Photoshop素材代码，url还是加密防水了~~import requestsimport reimport osimport randomimport timefrom lxml import etreedef get_text(url): global headers headers = {'User-Agent': ...

2019-10-06 10:55:04 323 1

原创 Python 爬取无版权美图

这里还是为了温习，这里照例为了放水，涉及网址的地方，采取了url加密，一是scrapy，二是requests，首先是requests方法：import requestsimport reimport osimport base64from lxml import etreefrom urllib.parse import urljoindef get_text(url): ...

2019-10-04 22:13:35 275

原创 Python matplotlib 中填充颜色

Python matplotlib 中填充颜色matplotlib中填充颜色主要是两个函数，一个是fill，一个是fill_between，这里讲一下详细的关键字，这里关键字主要有facecolor填充色， where填充条件， alpha透明度，interpolate求交叉边界import matplotlib.pyplot as pltimport numpy as npx = n...

2019-10-03 14:59:57 14358

原创 python中matplotlib设置字体

python中设置字体常用有两种方式，一种是导入fontmanager，一种是直接写fontdict，个人喜欢第二种，比较方便，但对中文支持不好，如需中文，最好是第一种，废话不多说，详细代码如下，第一种代码详见第2/16/49行，第二种详见第18/41/42行， excel中我随意写了一些数据：from matplotlib import pyplot as pltimport matplot...

2019-10-02 20:58:52 2986

原创 Python Matplotlib 柱状图加数值

Python Matplotlib 柱状图加数值柱状图加数值也是一项常规操作，这里采用的函数是text，主要获取加入text的位置与数值即可，因此，详细代码如下：这里写了auto_label与auto_text，两个都可以用，本人更喜欢用auto_textimport matplotlibimport matplotlib.pyplot as pltimport numpy as n...

2019-10-02 20:26:35 28735 3

原创 matplotlib之堆积柱状图及百分比柱状图

matplotlib之堆积柱状图及百分比柱状图在博主日常的绘图过程，有一种图也是什么常见的绘图工作，就是堆积的柱状图，其实很简单，就注意几个参数即可。 Here we go!首先是引入数据库：import matplotlib.pyplot as pltimport numpy as npimport pandas as pd然后我创建了一个csv文件，这里随机填写了一些数据，详细如...

2019-10-01 13:42:51 27970 2

翻译 matplotlib 柱状图之渐变色设置

matplotlib 柱状图之渐变色设置matplotlib中，在用bar或者barh绘制柱状图时，发现加入cmap是不管用的，不支持这个关键字，而且网上找了许久，也没有发现有类似功能，因此，干脆自己写一个试试，说来就来！！渐变色的设置，其主要就是获取边界，然后向边界内部填充颜色就好啦，因此函数需要获取绘制的ax对象，获取边界，获取渐变色的cmap，以及cmap中的取值范围，以及一些其...

2019-09-30 12:37:02 10410 1

原创爬取某服务网，ajax异步加载，post 携带json字典

今天第一次遇到requests的Formdata是字典形式的，这个是在优快云论坛有个网友求助，我就也练了一下，其Formdata是这样的：{"token":"","pn":10,"rn":10,"sdt":"","edt":"","wd":"","inc_wd":"","exc_wd":"","fields":"title","cnum":"001","sort":"{\"webdate\"...

2019-09-26 22:38:41 348

原创网页的JS逆向分析之二 python+js

import base64import requests首先根据加密字符解密url“”"string = 'aHR0cHM6Ly9mZW5iaS5jb20vcGFnZS9ob21l'string = base64.b64decode(string)url = str(string, encoding='utf-8')打开此url，开始正式的逆向过程，目标是实现登录过程。首先输入...

2019-09-25 14:33:38 500

原创 Handout博客爬虫JS逆向

"""- base64 处理字符串- JS加密逆向"""import base64import requestsimport handoutimport timeimport jsonfrom hashlib import md5"""获取真实的url地址"""doc = handout.Handout('/handout')string = 'aHR0cDovL3d...

2019-09-24 20:57:10 210

原创 C4D画电池

简要步骤：C4D建模，包括电池与石墨烯的绘制；分子的绘制，原子的绘制；全局打光，调阴影；ps处理加动感模糊特效，笔刷闪电特效，应用了图层蒙版...

2019-09-22 13:23:38 731

原创 Python多手段爬取百度图片Request+scrapy分别爬取，百度图片地址解密

好长一段时间没怎么碰爬虫，我估计得熟悉一下，要不然上手就遇到问题，直接拿大厂图片来试试，翻车分分钟？目标是：1.常规手段，request2.框架 scrapy网页分析：这里我以风景图为关键词，输入后获得地址为‘https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&amp...

2019-09-18 09:46:53 1363 3

原创 Python爬取网页并存储为pdf

起因是最近准备学习TensorFlow，找了个网页教程，质量感觉挺好，但是页面广告巨多，不小心就能中雷，就想用爬虫爬下来，净化一下，一开始是拒绝的，因为爬虫下来的话，格式跟网页就不一定一样了，说不定会乱七八糟，直到后来发现了pdfkit这个工具，（需要安装whtmltopdf）。然后就一发不可收拾了：遇到的障碍就是图片一开始无法加载，索性一不做二不休在存储源码的时候直接改位置，让其按照我的心意存...

2019-09-15 13:48:12 4787 1

原创 Python多进程爬取豆瓣Top250数据

以前电脑死活跑不了多进程，重装了一下系统，居然啥都解决了，于是乎就跑了一下：#!/usr/bin/env python# -*- encoding: utf-8 -*-"""@File : jianshu.py.py@Time : 2019/9/1 20:42@Author : Sound_of_Silence"""import requestsimport tim...

2019-09-09 17:14:02 328

原创 Python scrapy爬取图片管道重温之爬取唯美壁纸

重温了一下爬取图片的管道，同时发现了-t crawl格式的新用法，特意记录下来，爬取网站是 enterdesk。说道新用法，主要是rules的用法，之前一直以为rule只能管理当前页，不能提取下级下下级的链接，还是 too young, sometimes naive, 嘿嘿。rules是可以支持下级页面的爬取的，但是建议将主页面放在最下，次级页面次之，最下级页面最上，也就是反过来排序，如下面...

2019-09-05 10:21:33 245

原创 Python 爬取pexels上无版权美图

工作需要找一些无版权图，因此就干脆写了个代码爬取，吃个饭的功夫，一切都搞定~~import requestsimport reimport osimport timeimport randomdef get_text(url): #请求函数 try: text = requests.get(url, headers=headers) text...

2019-09-03 19:56:38 1152 1

原创 Python 正则表达式完美匹配中文与中文标点符号

匹配中文标点符号： [\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b]匹配中文字符的正则表达式： [\u4e00-\u9fa5]import res = "\n\r\t@#$%^&*这样一本书大卖，有点意外，据说已经印了四五十万，排行榜仅次于《希拉里自传》。大概是大众抛弃了一位表演过火...

2019-09-01 20:28:57 15268 5

原创 Python challenge 第18关 can you tell the difference?

第18关，http://www.pythonchallenge.com/pc/return/balloons.html图上是除了亮度其他都一样的话，标题为can you tell the difference? 网页源代码中有‘it is more obvious that what you might think’ 连起来就是，你能说出这里的不同点吗？非常明显。那么自然就是亮度的区别，输入...

2019-08-26 21:57:14 493

原创 Python Scrapy批量爬取优快云博客内容

今天忽然想着爬一下之前写的所有博客的内容，也是巩固练习一下scrapy，目标定位，爬取标题，url与内容：采用 scrapy genspider -t crawl 命令创建爬虫，之后在爬虫文件中进行修改，主代码很简单：# -*- coding: utf-8 -*-import scrapyfrom scrapy.linkextractors import LinkExtractorfro...

2019-08-25 21:28:21 539

原创 Python challeng 第17关挑战 eat？

Python challeng 第17关挑战16到17关隔得时间有点长，一是有点顾不上，二是这关实在是有点变态，主要是想不到，串联了以前好多关的隐藏东西，可能是以后解题都得看看之前的信息了。地址是： http://www.pythonchallenge.com/pc/return/romance.html照例 ‘huge’ 'file’进入源代码没有任何有用信息，只有个图片，主图为饼，附...

2019-08-24 21:41:29 540 1

原创 Scrapy 爬取80s电影网高评分电影详细信息（Scrapy）

看到一个帖子说用scrapy爬取不了https://blog.youkuaiyun.com/qq_15065903/article/details/99778873，我就想试试看看：用了一下链接提取器：movie.py 里面的内容：# -*- coding: utf-8 -*-import scrapyimport reimport pprintfrom scrapy.linkextractor...

2019-08-24 19:01:31 4837

原创 python 中re/beautiful/lxml/css爬取效率对比。

主要是为了复习bs与学习css，发现一段时间不用，bs基本忘了差不多了，主要也是lxml相对好用太多了，且scrapy默认支持xpath与css也是原因之一。上代码：#!/usr/bin/env python# -*- encoding: utf-8 -*-"""@File : test.py.py@Time : 2019/8/24 13:41@Author : Soun...

2019-08-24 14:19:19 712 1

原创 Python request爬取华为P30手机京东评论

最近准备把多年的手机升级，瞅准了华为p30系列，于是就想瞅瞅评论看看，以下为源码：import requestsimport jsonimport reimport timecount = 0for i in range(30): count += 1 url = 'https://sclub.jd.com/comment/productPageComments.ac...

2019-08-21 20:37:55 600

原创 Scrapy 爬取京东所有图书信息

先记录代码吧，回头再写文字：# -*- coding: utf-8 -*-import scrapyimport jsonimport urllibimport pprintfrom copy import deepcopyclass JdSpider(scrapy.Spider): name = 'jd' allowed_domains = ['jd.com',...

2019-08-20 22:36:37 693

原创 Python之免费代理ip的抓取与使用

Python之免费代理ip的抓取与使用使用爬虫不可避免的就会遇到网站的各种封ip操作，因此就需要我们找寻代理，通过代理进行操作，屏蔽自己真实ip。本文直接从网站中抓取代理ip地址，进行测试，并将测试的结果直接输出到xls文件中，这里并没有构造翻页请求，因为这一页上的可用ip有1400个，怎么都够用了核心字段在于html = requests.get(url=url, headers=he...

2019-08-12 09:25:25 7543

原创 Python之matplotlib之柱状图、折线图综合利用之实战（1）

Python之matplotlib之柱状图、折线图综合利用之实战毕竟学习不是目的，学以致用才是目的，我们日常工作接触到的图都是这样的，图例中算是特别简单的一种了。我也是一边学习一边写blog，这样才能更好的follow 思路，here we go！其特点是（1）数据量与维度较多，（2）通常有N个子图（n>=2，最多见过 5*5 ，也就是max=25），所以学习任务就拆分为两部分：一...

2019-08-09 12:21:52 5184

原创 Python之matplotlib之饼状图学习笔记汇总

Python之matplotlib之饼状图学习笔记汇总饼状图学习笔记饼状图也是我们日常常用的一种图例方式，因此，十分有必要对其进行学习；首先，我们进行一些基本设定，代码如：from matplotlib import pyplot as pltfrom faker import Fakerimport randomplt.style.use('fivethirtyeight...

2019-08-07 12:51:51 781

转载 Python 别再造假数据了，来试试 Faker 这个库吧！[转载]

在做程序开发的时候，我们经常会用到一些测试数据，相信大多数同学是这么来造测试数据的：test1test01test02测试1测试2测试数据1这是一段测试文本这是一段很长很长很长的测试文本...中枪的请举手。不仅要自己手动敲这些测试数据，还敲的这么假。那有啥办法呢？难不成有什么东西能自动给我造点以假乱真的数据啊？你别说，还真有！在 Python 中有个神库，叫做 Faker，...

2019-08-07 12:00:39 792

原创 Python之matplotlib之柱状图学习笔记汇总

matplotlib柱状图学习笔记柱状图也是大家常用的一个绘图方式，使用频率十分的高，由于其形象直观，非常适合作为各种高大上的展示，而且matplotlib中柱状图功能也很成熟，随着画图顺序我一点点的记录：首先仍然是from matplotlib import pyplot as plt，导入matplotlib然后传入x，y的坐标；坐标可以直接在代码中给出，也可以读取文件，推荐用pand...

2019-08-06 18:55:19 1614

原创 Python之matplotlib之折线图学习笔记汇总

Python之matplotlib学习笔记为什么要学习matplotlib，这个就不细说了，主要是实用啊，而且本人的工作也能经常用得上，因此将学习过程中遇到的方方面面记录一下，方便大家，以后自己查也方便，争取能弄的比较全乎。不知不觉又立了个flag，呵呵首先是安装： pip install matplotlib 这没什么好说的，超级简单了然后就是使用了，常用的有折线图，柱状图...

2019-08-05 13:42:03 510

原创 Python Challenge 第16关，mission16 - Let me get this straight

写在前面：最近一直在研究爬虫，一直忘了这个东东了，所以很久没去玩这个，抓紧刷一刷，立的flag可不能轻易倒。网址：http://www.pythonchallenge.com/pc/return/mozart.html标题： Let me get this straight，相当于 Let me figure it out. 搞清楚什么呢？图片是一团雪花点，源码毫无内容，也就是有价值的就...

2019-08-03 08:36:00 344

原创 Python scrapy学习之爬取2k唯美壁纸详细过程笔记及讲解

Scrapy 学习爬取图片Scrapy 爬取图片时候绕了很多圈子，才明白了走了很大的弯路，幸亏绕出来了（大话可能说得有点早~），赶紧记录一下心得体会：创建爬虫时的参数选择：一是普通创建爬虫法： scrapy genspider xxx xx.com, 这种创建的爬虫是基本爬虫，作为新手锻炼理解页面结构很有必要，但是比较基础；二是规则爬虫（自己取的，大神别笑）： scrapy g...

2019-08-02 21:55:43 321

原创 Python Scrapy 第一爬，爬取某平台热线信息

首先是安装scrapy， windows下安装略坑，直接pip install scrapy会报错，因为scrapy基于twisted，需要我们手动安装twisted，见我的上一篇博客好了~~~开始建立爬虫工程：scrapy startproject yangguang2再进入爬虫：cd yangguang2生成爬虫：scrapy genspider ygspider url记下来是主程...

2019-08-01 14:41:53 231

原创【学习日记】安装scrapy时遇到的问题及解决方法

Win10系统，64位， Python 3.7首先直接在cmd中输pip install scrapy，强烈报错，几十上百行错误：一脸懵逼，安装失败，仔细看错误提示，有一行：error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”: https://visual...

2019-07-29 17:47:50 204

空空如也

空空如也