- 博客(21)
- 收藏
- 关注
原创 Python str字符串方法集锦
字符串方法集锦1、字符串的定义字符串的定义 方法 说明 a=""或者a='' 定义空字符串:变量名='' 或者 变量名="" 字符串要用一对单引号,或者一对双引号包裹起来。 a="hello world"或a='hello world' 定义一个变量a,变量a的数据类型是字符串,值为"hello world" 2、字符串的四则运算a = "123"b="456"c=3字符串的四则运算 用法 ...
2021-03-29 20:55:33
203
原创 Python list方法集锦
数据类型:列表方法集锦1、列表元素添加ls1 = [1,2,3,4,5]列表元素的添加 方法 用法 含义 结果 append() ls1.append(100) 向列表ls1末尾拼接元素100 ls1=[1,2,3,4,5,100] insert() ls1.insert(3,100) 在列表ls1索引为3的位置插入元素100, 原本索引为3的元素后移 ls1=[1,2,3,100,4,5] 2、列...
2021-03-29 18:59:58
415
2
原创 GIT学习
git 命令1. 创建版本库git init 初始化一个Git仓库git add file 添加文件(可反复多次使用,添加多个文件)git commit -m 提交说明 提交,一次可提交多个文件2. 版本回退git status 查看仓库当前状态,git diff 如果Git status 告诉你项目被修改过,通...
2019-06-11 16:12:04
183
原创 python-scrapy安装及twisted问题
第一步:执行pip install scrapy在安装twisted的过程中报错,第二步:安装twistedhttps://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 找到合适的版本,下载终端执行 pip3.6 install 下载路径\Twisted-18.9.0-cp36-cp36m-win_amd64.whl...
2018-10-18 15:50:12
4221
1
转载 mysql安装配置
https://www.jb51.net/article/141578.htm新版的mysql对用户密码做了加密, 第三方连接数据库的时候会报错,
2018-07-25 13:09:32
152
原创 scrapy--middlewares 优先级问题
在重写scrapy内部的middleware类函数时, 需要将内部的对应的类函数在settings里设置为None目的是为了防止执行时和内部的类函数相互冲突
2018-07-09 22:01:05
1647
原创 scrapy 的 re_frist 方法
re_first 与 extract_first('')都是获取列表的第一项, 而re_first('(\d+)') 是利用正则获取列表第一项的数字
2018-07-09 22:00:44
2300
原创 urljoin 给缺少域名的网址添加域名
导入from urllib.parse import urljoinurljoin('要添加的域名', url)例如:
2018-07-09 22:00:32
472
原创 PIL 图片处理实例------(云打码登录)
from PIL import Imagefrom selenium import webdriverfrom selenium.webdriver.support.wait import WebDriverWait# PIL 属于Pillow模块下的一个模块, 主要是用来处理图片# 使用selenium进行验证码图片的截图# 在页面上通过xpath/cssselect 定位到验证码图片...
2018-06-23 10:24:47
395
原创 selenium----爬虫框架应用
Selenium [1] 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能—...
2018-06-21 19:13:31
528
转载 火狐浏览器驱动geckodriver的地址
https://github.com/mozilla/geckodriver/releases最新版火狐浏览器驱动geckodriver的地址。
2018-06-20 09:51:39
3421
原创 Python---cssselector选择器
# cssselector:和xpath是使用比较多的两种数据提取方式。# scrapy爬虫框架:支持xpath/css# pyspider爬虫框架:支持PyQuery,也是通过css样式选择器实现的# pip install cssselectorimport cssselectfrom lxml.html import etreehtml = """ <div id='conten...
2018-06-15 08:59:21
5489
原创 Python ---pyspider
pyspider: 爬虫框架,基于PyQuery实现的。优势:1. 基于多线程异步的任务调度方式;可以实现爬虫的高并发爬取,注意使用代理;2. 它提供了一个WebUI的爬虫任务管理界面,可以实现爬虫的停止,启动,调试,支持定时爬取任务;3. 代码简洁;4. 支持动态网站的爬取; requests/urllib只能爬取静态网站。phantomjsphantomjs: 幽灵浏览器,无界面版的浏览器。劣...
2018-06-15 08:57:23
330
原创 Python3----xpath
# xpath 跟re, bs4, pyquery一样, 都是数据提取方法. 根据元素的路径查找页面元素# pip installfrom lxml import etreehtml = """ <div id='content'> <ul class='list'> <li class='one'>One...
2018-06-14 19:56:09
553
原创 python3 ---- PyQuery
# pyquery:仿照jquery语法,封装的一个包,和bs4有点类似。from pyquery import PyQueryhtml = """ <div id='content'> <ul class='list'> <li class='one'>One</li> <li ...
2018-06-14 19:51:20
403
原创 Python3---BeautifulSoup
# 爬虫网络请求方式:urllib(模块), requests(库), scrapy, pyspider(框架)# 爬虫数据提取方式:正则表达式, bs4, lxml, xpath, cssfrom bs4 import BeautifulSoup# 参数1:序列化的html源代码字符串,将其序列化成一个文档树对象。# 参数2:将采用 lxml 这个解析库来序列化 html 源代码html = B...
2018-06-14 19:41:15
203
原创 正则爬取网页数据(二)
# 用正则爬取网页数据, 并存储到本地pymysql数据库中import re,random, time, pymysqlfrom urllib.request import Request, urlopenclass QSBKDataTool(object): # [('\n猩猩眨呀眨\n', '24', '\n\n\n昨晚同学聚会,以前的死对头非要坐我旁边,盯着我脸上的痘痘说...
2018-06-14 19:13:44
556
原创 正则爬取网站实例(一)
import random, xlwt, refrom urllib.request import Request, urlopenfrom urllib.parse import quote# quote():是对url地址中的中文进行编码的一个函数# 'http://www.zhilianzhaopin.com?kw=Python工程师&name=张三'class Z...
2018-06-14 19:05:22
376
原创 InsecureRequestWarning 爬虫遇到的警告
from urllib3.exceptions import InsecureRequestWarningrequests.urllib3.disable_warnings(InsecureRequestWarning)
2018-06-11 14:54:53
288
原创 Python常用的第三方扩展包
https://www.lfd.uci.edu/~gohlke/pythonlibs/ Python常用的第三方扩展包,在pip install 安装不上的时候,可以通过它安装
2018-06-08 16:35:35
1223
原创 Robot 的安装
Robot 的安装:下载安装包https://robomongo.org/download Windows系统一路下一步安装:创建连接:连接完成:再一次打开的时候就能看到已经创建的连接了!
2018-06-07 13:37:19
178
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人