
爬虫
阶艺勿听
这个作者很懒,什么都没留下…
展开
-
《精通python网络爬虫》学习笔记一
Urllib库 URLError Urllib库 环境 python 3.x 导入 import urllib.request 打开一个网页 file = urllib.request.urlopen("http://www.baidu.com") 获取打开网页的信息 print(file.info()) print(file.getcode()) print(fi...原创 2018-07-19 10:52:01 · 280 阅读 · 0 评论 -
《精通python网络爬虫》学习笔记二
正则表达式 原子 元字符 模式修正 贪婪模式与懒惰模式 正则表达式常见函数 re.match() re.research() 全局匹配函数 re.sub() 正则表达式 原子 普通字符 非打印字符(如\n) 通用字符 \w任一字母数字下划线 \d任一十进制数 \s任一空白字符 原子表 [xyz]一组地位平等的原子 [^xyz]代表除了xy...原创 2018-07-19 14:55:17 · 597 阅读 · 1 评论 -
《精通python网络爬虫》学习笔记三
Cookie Cookiejar Cookie Cookiejar 先通过F12,点击登录按钮找到post方法对应的request url。然后在网页源码中找到表单的name。 先进行无Cookie的登录 url = "....." #登录网址 postdata = urllib.parse.urlencode({ "username":"....", "passw...原创 2018-07-19 16:06:44 · 245 阅读 · 0 评论 -
《精通python网络爬虫》学习笔记四——多线程爬虫
多线程爬虫 多线程基础 队列基础 多线程爬虫 多线程爬虫 多线程基础 import threading 多线程基础 import threading class A(threading.Thread): def __init__(self): threading.Thread.__init__(self) def run(self):...原创 2018-07-20 17:08:04 · 404 阅读 · 0 评论