爬虫
海边看花开
越努力越幸福
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
使用urllib模拟登录人人网
登录人人网获取cookie,粘贴出来就可以 废话不多说具体代码如下 from urllib import request url ="http://www.renren.com/967952300/profile" headers ={"User-Agent":"Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTM...原创 2018-11-12 23:19:49 · 475 阅读 · 0 评论 -
python3抓取糗事百科
使用requests和re模块抓取糗事百科 # -*- coding:utf-8 -*- import requests import re class Qiushi_Spider(object): def __init__(self): self.url = "https://www.qiushibaike.com/text/page/{}/" self...原创 2019-04-08 21:04:30 · 145 阅读 · 0 评论 -
pyhton使用正则抓取古诗文
正则表达式爬取古诗文 # -*- coding:utf-8 -*- import requests import re class Gushiwen_Spider(object): def __init__(self): self.url = "https://www.gushiwen.org/default_{}.aspx" self.headers...原创 2019-04-08 00:34:22 · 305 阅读 · 0 评论 -
使用xpath爬取腾讯招聘python岗位信息
使用xpath爬取腾讯招聘招聘数据 # -*- coding:utf-8 -*- import requests from lxml import etree class Tencent(object): def __init__(self): self.base_url = "https://hr.tencent.com/position.php?keywords=py...原创 2019-04-06 21:43:17 · 1334 阅读 · 0 评论 -
urllib3
在使用urllib3抓取某个药智时,出现下面错误 urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1045)> 解决办法:两种处理办法 取消证书...原创 2019-03-08 21:56:26 · 628 阅读 · 0 评论 -
使用lxml来爬取某地区豆瓣正在上映的电影
具体代码如下 # print(etree.tostring(html,encoding="utf-8").decode("utf-8")) lis = ul.xpath("./li[@class='list-item']") movies = [] for li in lis: # print(etree.tostring(li,encoding="utf-8").decode("utf...原创 2018-11-21 22:43:15 · 555 阅读 · 0 评论 -
request请求方法使用content和text的区别
import request resp = request.get("http://www.baidu.com") resp.text // 返回的是一个经过解码后的字符串,是unicode类型 resp.content // 返回的是一个原生字符串,是bytes类型 ...原创 2018-11-21 21:31:20 · 7121 阅读 · 0 评论 -
使用urllib保存cookie至本地
废话不多说,直接上代码,保存的cookie的位置和名字可以在MozillaCookieJar()这里传入参数,也可以在cookiejar.save()传入 from urllib import request from http.cookiejar import MozillaCookieJar cookiejar = MozillaCookieJar("cookie.txt") han...原创 2018-11-15 23:44:05 · 429 阅读 · 0 评论 -
定时爬虫制作
1 环境配置 安装: apt-get install cron(服务器环境下默认安装的有) 使用: crontab -e 进入编辑页面(第一次会让选择编辑器) crontab - l 查看当前的定时任务 编辑: 分 小时 日 月 星期 命令 0-59 0-23 1-31 1-31 0-6 co...原创 2018-11-05 22:27:13 · 195 阅读 · 0 评论 -
使用selenium抓取boss直聘
# -*- coding:utf-8 -*- from selenium import webdriver from lxml import etree import time class BossSpider(object): def __init__(self): self.start_url = 'https://www.zhipin.com/job_detail...原创 2019-04-22 21:09:37 · 710 阅读 · 0 评论
分享