- 博客(6)
- 收藏
- 关注
原创 使用selenium
使用selenium基本步骤from selenium import webdriverimport timedriver = webdriver.Chrome() #操作浏览器url = 'http://www.baidu.com'driver.get(url) #跳转浏览器界面with open('baidu.html','wb') as f: f.write(dr...
2018-08-21 22:45:36
266
原创 使用进程爬取西祠代理
要求:爬取西祠代理ip,可用的ip加入列表中显示出来,不能用的pass,访问百度网测试(普通爬取,不用进程)import requestsfrom lxml import etreeimport timedef get_all_proxy(): url = 'http://www.xicidaili.com/nn/1' headers = { 'Us...
2018-08-21 22:43:34
648
原创 正则
import re# re是Python中正则的一个包,很好用'''1.match('a',b):从头开始匹配,相当于^2.search('a',b):从头开始匹配,第一个匹配不上,就向第二个匹配直到匹配为止3.findall('a',b):获取所有a:代表匹配规则,b:代表要匹配的字符串正则表达式:1. . 除换行符以外的任意字符2. * 匹配0次到多次,(找到...
2018-08-16 21:44:07
250
原创 笔记
repr()含义:原样输出例子:content = "<a href = \"http://aaa.com\">"print(content) #<a href = "http://aaa.com">print(repr(content))
2018-08-16 21:42:57
178
原创 引入requests
引用requests,简单爬取步骤 import requests url = 'http://www.budejie.com/' response = requests.get(url) # 1.html_bytes = response.read() # 2.f.write(html_bytes) # 1+2等同于response.cont...
2018-08-15 23:13:49
443
原创 爬取有道网站
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I...
2018-08-14 22:56:05
443
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人