
python
文章平均质量分 64
python
快乐的飞起
a programming lover
展开
-
资源汇总
1.java2.pythonpython3的安装请求库的安装requests的安装Selenium的安装ChromeDriver的安装GeckoDriver的安装PhantomJS的安装aiohttpt的安装linux下两种配置pip镜像源的方法解析库的安装1. lxml的安装2. Beautiful Soup的安装3. pyquery的安装4. tesserocr的安装数据库的安装MySQL的安装MongoDB的安装Redis的安装存原创 2021-01-07 21:15:56 · 161 阅读 · 0 评论 -
ubuntu安装docker官方的源很慢
官方的源很慢,使用阿里的:unload 原的dockersudo apt-get remove docker docker-engine docker-ce docker.iosudo apt-get updateapt-get 可以使用https库sudo apt-get install -y apt-transport-https ca-certificates curl software-properties-common添加docker的使用的公钥curl -fsSL原创 2021-01-07 21:15:34 · 3133 阅读 · 0 评论 -
爬虫框架的安装pyspider和Scrapy
pyspider是国人binux编写的强大的网络爬虫框架,它带有强大的WebUI、脚本编辑器、任务监控器、项目管理器以及结果处理器,同时支持多种数据库后端、多种消息队列,另外还支持JavaScript渲染页面的爬取,使用起来非常方便,准备工作pyspider是支持JavaScript渲染的,而这个过程是依赖于PhantomJS的,所以还需要安装PhantomJSpip安装pip3 install pyspider验证安装安装完成之后,可以直接在命令行下启动pyspider:pyspider a原创 2021-01-01 22:53:18 · 297 阅读 · 3 评论 -
爬虫app相关库的抓取
除了Web网页,爬虫也可以抓取App的数据。App中的页面要加载出来,首先需要获取数据,而这些数据一般是通过请求服务器的接口来获取的。由于App没有浏览器这种可以比较直观地看到后台请求的工具,所以主要用一些抓包技术来抓取数据。抓包工具有Charles、mitmproxy和mitmdump。一些简单的接口可以通过Charles或mitmproxy分析,找出规律,然后直接用程序模拟来抓取了。但是如果遇到更复杂的接口,就需要利用mitmdump对接Python来对抓取到的请求和响应进行实时处理和保存。另外,既然原创 2021-01-01 22:28:48 · 496 阅读 · 0 评论 -
爬虫解析库的安装
1.lxml pip3 install lxml2.beautifulsoup4 pip3 install beautifulsoup43.pyquery pip3 install pyquery4.tesserocr sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev 我们查看一下其支持的语言 tesseract --list-langs 结果显原创 2020-12-18 03:19:51 · 153 阅读 · 0 评论 -
爬虫请求库的安装
1.requests pip3 install requests2.selenium pip3 install selenium3.安装谷歌和火狐浏览器4.chromeDriver和geckoDriver [github上搜索,windows复制到python的 scripts目录下,linux 系统配置环境变量或者移动到/usr/bin目录 sudo mv chromeDriver /usr/bin sudo mv geckoDriver /usr/bin 或者配置环境变量谷歌 将可执原创 2020-12-17 23:29:42 · 222 阅读 · 0 评论 -
linux下两种配置pip镜像源的方法
1.永久置换pip镜像源 1. 创建pip.conf文件 运行以下命令: cd ~/.pip 如果提示目录不存在的话,我们要自行创建一个,再进入目录 mkdir ~/.pip cd ~/.pip 在.pip目录下创建一个pip.conf文件 touch pip.conf 文件就创建好了(当然如果你已经有这个文件了这步可以跳过). 2. 编辑pip.conf文件 sudo gedit ~/.pip/pip.conf 打开pip.conf文件窗口,将以下内容复制到文件中: [globa原创 2020-12-17 23:09:41 · 6796 阅读 · 0 评论 -
ubuntu安装python3和pip3
1.安装一些基础库 sudo apt-get install -y python3-dev build-essential libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev libcurl4-openssl-dev2.安装python3sudo apt-get install -y python33.安装pip3sudo apt-get install -y python3-pip4.查看安装是否成功pytho.原创 2020-12-16 23:17:15 · 744 阅读 · 0 评论 -
python使用urllib,re,bs库爬取wiki百科词条
import refrom urllib.request import Requestfrom urllib.request import urlopenfrom bs4 import BeautifulSoup as bs"""爬取wiki百科词条 1:原理 名称: a标签的text属性 url: a标签的href属性 2.使用工具 urllib 获取连接和请求数据 BeautifulSoup 解析数据原创 2020-11-28 21:18:35 · 957 阅读 · 0 评论 -
python未设置用户代理异常
from urllib.request import Requestfrom urllib.request import urlopenfrom bs4 import BeautifulSoup as bsdef t_(): url = "https://bk.tw.lvfukeji.com/baike-Wikipedia:%E9%A6%96%E9%A1%B5" # 封装头部 添加代理 header = { "user-agent": "Mozilla/原创 2020-11-28 21:19:22 · 154 阅读 · 0 评论