爬虫知识点收集
文章平均质量分 85
countofdane
能用脚本解决的打死不用手
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python Re模块 常用函数
Python Re模块 常用函数 #返回pattern对象 re.compile(string[,flag]) #以下为匹配所用函数 re.match(pattern,string[,flags]) re.search(pattern,string[,flags]) re.split(pattern,string[,maxsplit]) re.findall(pattern,st转载 2017-10-10 15:18:53 · 1659 阅读 · 0 评论 -
如何删除 字符串中的 emoji 表情符号
在爬取数据时候遇到昵称中有 emoji 符号的在存储数据库的时候会遇到报错,这是因为 emoji 占用四个字符的大小,如果昵称很重要,必须保存完整昵称的,需要修改数据库的设置即可 如果保存完整的昵称不是很重要可以考虑删除昵称中存在的 emoji 符号,方法如下 我看了网上的其他资料,是用 emoji 的编码区间过滤的,很明显有缺陷,因为很难找到很全的 emoji 编码区间表 所以我就...原创 2018-08-28 10:20:28 · 5702 阅读 · 2 评论 -
在登录页面点击登录之后页面重定向了无数次,如何 用Python 拿到重定向前的 cookie
关住 公 纵 号 “ 阿蒙课程分享 ” 获得学习资料及趣味分享 # -*- coding:utf-8 -*- # author:murongtiedan # updatetime:2018/3/14 # 功能:爬虫之模拟登录,urllib和requests都用了... 问题背景:在登录页面点击登录之后页面重定向了无数次,想获取某次重定向前的页面的 cookie 作为后来值应用...原创 2018-03-14 18:19:57 · 2115 阅读 · 0 评论 -
爬取百度贴吧楼层信息实战代码
关住 公 纵 号 “ 阿蒙课程分享 ” 获得学习资料及趣味分享 __author__ = 'CQC'# -*- coding:utf-8 -*-import urllibimport urllib2import re#处理页面标签类class Tool: #去除img标签,7位长空格 removeImg = re.compile('<img.*?>| {7}|')...转载 2017-10-12 16:46:21 · 656 阅读 · 0 评论 -
爬取环境信息实例
【python3】 #-*- coding:utf-8 -*- #author:lvfengwen #date:2017/10/12 #descript:爬取环境配置信息 import urllib,requests import http.cookiejar import re # import pprint import gzip #cookielib --> http.cooki原创 2017-10-13 18:48:19 · 330 阅读 · 0 评论 -
代码实现(一): 用Python抓取指定页面
1 2 3 4 5 6 7 #encoding:UTF-8 import urllib.request url = "http://www.baidu.com" data = urllib.request.urlopen(url).read() data = data.decode('UTF-转载 2017-10-13 15:21:31 · 371 阅读 · 0 评论 -
为什么爬虫正则更多的用非贪婪匹配模式?
源字符串:aatest1bbtest2cc 正则表达式一:.* 匹配结果一:test1bbtest2 正则表达式二:.*? 匹配结果二:test1(这里指的是一次匹配结果,所以没包括test2)转载 2017-10-12 14:54:19 · 258 阅读 · 0 评论 -
正则表达式实例(.*?)
正则表达式实例: #!/usr/bin/python import re line = "Cats are smarter than dogs" matchObj = re.match( r'(.*) are (.*?) .*', line, re.M|re.I) if matchObj: print "matchObj.group() : ", matchObj.group()转载 2017-10-12 14:44:17 · 3784 阅读 · 0 评论 -
常见HTTPError对应相应的状态码
100:继续 客户端应当继续发送请求。客户端应当继续发送请求的剩余部分,或者如果请求已经完成,忽略这个响应。 101: 转换协议 在发送完这个响应最后的空行后,服务器将会切换到在Upgrade 消息头中定义的那些协议。只有在切换新的协议更有好处的时候才应该采取类似措施。 102:继续处理 由WebDAV(RFC 2518)扩展的状态码,代表处理将被继续执行。 200:请求成功转载 2017-10-11 15:18:17 · 2362 阅读 · 0 评论 -
python的requests在网络请求中添加cookies参数
哎,好久没有学习爬虫了,现在想要重新拾起来。发现之前学习爬虫有些粗糙,竟然连requests中添加cookies都没有掌握,惭愧。废话不宜多,直接上内容。 我们平时使用requests获取网络内容很简单,几行代码搞定了,例如: import requests res=requests.get("https://cloud.flyme.cn/browser/index.jsp") print r...转载 2019-01-23 08:40:06 · 1581 阅读 · 0 评论
分享