Crowncc-优快云博客

原创使用selenium

使用selenium基本步骤from selenium import webdriverimport timedriver = webdriver.Chrome() #操作浏览器url = 'http://www.baidu.com'driver.get(url) #跳转浏览器界面with open('baidu.html','wb') as f: f.write(dr...

2018-08-21 22:45:36 266

原创使用进程爬取西祠代理

要求：爬取西祠代理ip，可用的ip加入列表中显示出来，不能用的pass，访问百度网测试（普通爬取，不用进程）import requestsfrom lxml import etreeimport timedef get_all_proxy(): url = 'http://www.xicidaili.com/nn/1' headers = { 'Us...

2018-08-21 22:43:34 648

原创正则

import re# re是Python中正则的一个包，很好用'''1.match('a',b):从头开始匹配，相当于^2.search('a',b):从头开始匹配，第一个匹配不上，就向第二个匹配直到匹配为止3.findall('a',b):获取所有a:代表匹配规则，b:代表要匹配的字符串正则表达式：1. . 除换行符以外的任意字符2. * 匹配0次到多次，（找到...

2018-08-16 21:44:07 250

原创笔记

repr()含义：原样输出例子：content = "<a href = \"http://aaa.com\">"print(content) #<a href = "http://aaa.com">print(repr(content))

2018-08-16 21:42:57 178

原创引入requests

引用requests,简单爬取步骤 import requests url = 'http://www.budejie.com/' response = requests.get(url) # 1.html_bytes = response.read() # 2.f.write(html_bytes) # 1+2等同于response.cont...

2018-08-15 23:13:49 443

原创爬取有道网站

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I...

2018-08-14 22:56:05 443