--夏天---优快云博客

原创 Python str字符串方法集锦

字符串方法集锦 1、字符串的定义字符串的定义方法说明 a=""或者a='' 定义空字符串：变量名='' 或者变量名="" 字符串要用一对单引号，或者一对双引号包裹起来。 a="hello world"或a='hello world' 定义一个变量a，变量a的数据类型是字符串，值为"hello world" 2、字符串的四则运算 a = "123" b="456" c=3 字符串的四则运算用法 ...

2021-03-29 20:55:33 216

原创 Python list方法集锦

数据类型：列表方法集锦 1、列表元素添加 ls1 = [1,2,3,4,5] 列表元素的添加方法用法含义结果 append() ls1.append(100) 向列表ls1末尾拼接元素100 ls1=[1,2,3,4,5,100] insert() ls1.insert(3,100) 在列表ls1索引为3的位置插入元素100, 原本索引为3的元素后移 ls1=[1,2,3,100,4,5] 2、列...

2021-03-29 18:59:58 430 2

原创 GIT学习

git 命令 1. 创建版本库 git init 初始化一个Git仓库 git add file 添加文件(可反复多次使用,添加多个文件) git commit -m 提交说明提交,一次可提交多个文件 2. 版本回退 git status 查看仓库当前状态, git diff 如果Git status 告诉你项目被修改过,通...

2019-06-11 16:12:04 201

原创 python-scrapy安装及twisted问题

第一步：执行pip install scrapy 在安装twisted的过程中报错，第二步: 安装twisted https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 找到合适的版本，下载终端执行 pip3.6 install 下载路径\Twisted-18.9.0-cp36-cp36m-win_amd64.whl...

2018-10-18 15:50:12 4241 1

转载 mysql安装配置

https://www.jb51.net/article/141578.htm 新版的mysql对用户密码做了加密, 第三方连接数据库的时候会报错,

2018-07-25 13:09:32 166

原创 scrapy--middlewares 优先级问题

在重写scrapy内部的middleware类函数时，需要将内部的对应的类函数在settings里设置为None目的是为了防止执行时和内部的类函数相互冲突

2018-07-09 22:01:05 1668

原创 scrapy 的 re_frist 方法

re_first 与 extract_first('')都是获取列表的第一项, 而re_first('(\d+)') 是利用正则获取列表第一项的数字

2018-07-09 22:00:44 2320

原创 urljoin 给缺少域名的网址添加域名

导入from urllib.parse import urljoinurljoin('要添加的域名', url)例如:

2018-07-09 22:00:32 501

原创 PIL 图片处理实例------(云打码登录)

from PIL import Image from selenium import webdriver from selenium.webdriver.support.wait import WebDriverWait # PIL 属于Pillow模块下的一个模块, 主要是用来处理图片 # 使用selenium进行验证码图片的截图 # 在页面上通过xpath/cssselect 定位到验证码图片...

2018-06-23 10:24:47 409

原创 selenium----爬虫框架应用

Selenium [1] 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE（7, 8, 9, 10, 11），Mozilla Firefox，Safari，Google Chrome，Opera等。这个工具的主要功能包括：测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能—...

2018-06-21 19:13:31 542

转载火狐浏览器驱动geckodriver的地址

https://github.com/mozilla/geckodriver/releases最新版火狐浏览器驱动geckodriver的地址。

2018-06-20 09:51:39 3438

原创 Python---cssselector选择器

# cssselector：和xpath是使用比较多的两种数据提取方式。# scrapy爬虫框架：支持xpath/css# pyspider爬虫框架：支持PyQuery，也是通过css样式选择器实现的# pip install cssselectorimport cssselectfrom lxml.html import etreehtml = """ <div id='conten...

2018-06-15 08:59:21 5502

原创 Python ---pyspider

pyspider: 爬虫框架，基于PyQuery实现的。优势：1. 基于多线程异步的任务调度方式；可以实现爬虫的高并发爬取，注意使用代理;2. 它提供了一个WebUI的爬虫任务管理界面，可以实现爬虫的停止，启动，调试，支持定时爬取任务;3. 代码简洁;4. 支持动态网站的爬取; requests/urllib只能爬取静态网站。phantomjsphantomjs: 幽灵浏览器，无界面版的浏览器。劣...

2018-06-15 08:57:23 352

原创 Python3----xpath

# xpath 跟re, bs4, pyquery一样, 都是数据提取方法. 根据元素的路径查找页面元素 # pip install from lxml import etree html = """ <div id='content'> <ul class='list'> <li class='one'>One...

2018-06-14 19:56:09 565

原创 python3 ---- PyQuery

# pyquery：仿照jquery语法，封装的一个包，和bs4有点类似。from pyquery import PyQueryhtml = """ <div id='content'> <ul class='list'> <li class='one'>One</li> <li ...

2018-06-14 19:51:20 422

原创 Python3---BeautifulSoup

# 爬虫网络请求方式：urllib(模块), requests(库), scrapy, pyspider(框架)# 爬虫数据提取方式：正则表达式, bs4, lxml, xpath, cssfrom bs4 import BeautifulSoup# 参数1：序列化的html源代码字符串，将其序列化成一个文档树对象。# 参数2：将采用 lxml 这个解析库来序列化 html 源代码html = B...

2018-06-14 19:41:15 212

原创正则爬取网页数据(二)

# 用正则爬取网页数据, 并存储到本地pymysql数据库中import re,random, time, pymysql from urllib.request import Request, urlopen class QSBKDataTool(object): # [('\n猩猩眨呀眨\n', '24', '\n\n\n昨晚同学聚会，以前的死对头非要坐我旁边，盯着我脸上的痘痘说...

2018-06-14 19:13:44 572

原创正则爬取网站实例(一)

import random, xlwt, re from urllib.request import Request, urlopen from urllib.parse import quote # quote()：是对url地址中的中文进行编码的一个函数 # 'http://www.zhilianzhaopin.com?kw=Python工程师&name=张三' class Z...

2018-06-14 19:05:22 391

原创 InsecureRequestWarning 爬虫遇到的警告

from urllib3.exceptions import InsecureRequestWarning requests.urllib3.disable_warnings(InsecureRequestWarning)

2018-06-11 14:54:53 300

原创 Python常用的第三方扩展包

https://www.lfd.uci.edu/~gohlke/pythonlibs/ Python常用的第三方扩展包，在pip install 安装不上的时候，可以通过它安装

2018-06-08 16:35:35 1234

原创 Robot 的安装

Robot 的安装:下载安装包https://robomongo.org/download Windows系统一路下一步安装:创建连接:连接完成:再一次打开的时候就能看到已经创建的连接了!

2018-06-07 13:37:19 190

夏天