自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 使用selenium

使用selenium基本步骤from selenium import webdriverimport timedriver = webdriver.Chrome() #操作浏览器url = 'http://www.baidu.com'driver.get(url) #跳转浏览器界面with open('baidu.html','wb') as f: f.write(dr...

2018-08-21 22:45:36 266

原创 使用进程爬取西祠代理

要求:爬取西祠代理ip,可用的ip加入列表中显示出来,不能用的pass,访问百度网测试(普通爬取,不用进程)import requestsfrom lxml import etreeimport timedef get_all_proxy(): url = 'http://www.xicidaili.com/nn/1' headers = { 'Us...

2018-08-21 22:43:34 648

原创 正则

import re# re是Python中正则的一个包,很好用'''1.match('a',b):从头开始匹配,相当于^2.search('a',b):从头开始匹配,第一个匹配不上,就向第二个匹配直到匹配为止3.findall('a',b):获取所有a:代表匹配规则,b:代表要匹配的字符串正则表达式:1. . 除换行符以外的任意字符2. * 匹配0次到多次,(找到...

2018-08-16 21:44:07 250

原创 笔记

repr()含义:原样输出例子:content = "<a href = \"http://aaa.com\">"print(content) #<a href = "http://aaa.com">print(repr(content)) 

2018-08-16 21:42:57 178

原创 引入requests

引用requests,简单爬取步骤 import requests url = 'http://www.budejie.com/' response = requests.get(url) # 1.html_bytes = response.read() # 2.f.write(html_bytes) # 1+2等同于response.cont...

2018-08-15 23:13:49 443

原创 爬取有道网站

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I...

2018-08-14 22:56:05 443

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除