爬虫
MaskOrange
1092681772
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
亲测可用centos7.4 + python3.6+ ngnix+ uwsgi flask环境安装配置
centos7.4 + python3.6+ ngnix+ uwsgi flask环境安装配置nginx安装编译修改nginx.confuwsgi安装 磕磕绊绊初学者踩过所有的坑69开了一年阿里云服务器 安装之前需要依赖依赖,yum安装就完事了,网上很多这种 nginx安装编译 习惯在这个目录下安装程序 cd /usr/local wget http://nginx.org/download/n...原创 2020-04-17 16:05:06 · 317 阅读 · 1 评论 -
搭建免费代理池
代理池搭建依赖数据库mongoDB 本文请求头UserAgent未提供 可以去这个网站找可用的复制 https://fake-useragent.herokuapp.com/browsers/0.1.11 import requests from bs4 import BeautifulSoup from fake_useragent import UserAgent import pymong...原创 2020-04-01 16:45:42 · 352 阅读 · 0 评论 -
requests入门简单爬虫(三)
众所周知http是无状态的协议,即每一次请求都是独立的,这样每一次请求访问服务器并不认得我们,所以引入了cookies,和session机制。 爬虫如何解决 需求:实现人人网获取“我的状态” # 第一种 # 直接手动登录,浏览器中找到登录的cookies值, headers = cookies值 加入到请求头中 response = requests.get(url, headers=header...原创 2019-11-07 15:50:24 · 170 阅读 · 0 评论 -
python爬虫例程
本文采用的是谷歌浏览器 获取’User-Agent’:参加 https://blog.youkuaiyun.com/orange_mask/article/details/97800094 import requests from bs4 import BeautifulSoup url = "https://www.runoob.com/python/python-100-examples.html"...原创 2019-08-22 11:47:56 · 331 阅读 · 0 评论 -
requests入门简单爬虫
爬虫的仨步骤 1.爬取网页 2.数据提取/保存 3.预处理 需求:运用requests实现百度贴吧自定义获取指定页面 任意打开一个吧 https://tieba.baidu.com/f?kw=python&ie=utf-8&pn=50 关键在于找到数据的接口 多翻几页分析发现最后得url url = 'https://tieba.baidu.com/f?kw=' + 搜索内容 +...原创 2019-09-16 19:50:28 · 192 阅读 · 0 评论 -
requests入门简单爬虫(二)
post的简单获取案例 需求:百度翻译搜索翻译联想 import requests # 所有字典的键由访问url实际id等确定 def translate(url, kw): form_data = { "kw": kw } respond = requests.post(url, data=form_data) result_dic = res...原创 2019-09-16 20:28:07 · 163 阅读 · 0 评论 -
python requests爬取西刺代理,并运用
临时偷发不细说了 ua = UserAgent() headers = { 'User-Agent': ua.random } print(headers) http_p = random.choice(http_ip_pool) https_p = random.choice(https_ip_pool) proxies =...原创 2019-09-17 14:39:27 · 305 阅读 · 0 评论
分享