
爬虫
文章平均质量分 56
快乐的飞起
a programming lover
展开
-
爬虫web库的安装flask,tornado
安装pip3 install flask tornado原创 2020-12-20 20:48:01 · 132 阅读 · 0 评论 -
爬虫存储库的安装pymysql,pymongo,redis-py,RedisDump
爬虫存储库的安装pymysql,pymongo,redis-py1.安装2.验证1.安装pip3 install pymysql pymongo redis2.验证python3import pymysql as sql,pymongo as mongo,redisprint(sql.VERSION,mongo.version,redis.VERSION)原创 2020-12-19 02:36:21 · 476 阅读 · 2 评论 -
爬虫数据库的安装redis
@[TOC]爬虫数据库的安装mongoDB1.需要连接互联网,然后执行sudo apt-get update更新软件包2.sudo apt-get install redis-server3.安装完成后,Redis服务器会自动启动。使用 ps -aux|grep redis 命令可以看到服务器系统进程默认端口6379ps -aux|grep redis 4.使用netstat -nlt|grep 6379命令可以看到redis服务器状态netstat -nlt|grep 63795.使用s原创 2020-12-19 02:20:34 · 378 阅读 · 2 评论 -
爬虫数据库的安装mongoDB
参考转载 2020-12-19 00:08:00 · 197 阅读 · 1 评论 -
爬虫数据库的安装MySQL
1.mysqlsudo apt-get updatesudo apt-get install -y mysql-server mysql-client启动,关闭,重启的命令sudo service mysql startsudo service mysql stopsudo service mysql restart2.配置MySQL2.1 初始化配置sudo mysql_secure_installation2.2配置项较多,如下所示:#1VALIDATE PASSWORD PL转载 2020-12-18 23:59:44 · 228 阅读 · 0 评论 -
python使用urllib,re,bs库爬取wiki百科词条
import refrom urllib.request import Requestfrom urllib.request import urlopenfrom bs4 import BeautifulSoup as bs"""爬取wiki百科词条 1:原理 名称: a标签的text属性 url: a标签的href属性 2.使用工具 urllib 获取连接和请求数据 BeautifulSoup 解析数据原创 2020-11-28 21:18:35 · 957 阅读 · 0 评论 -
python未设置用户代理异常
from urllib.request import Requestfrom urllib.request import urlopenfrom bs4 import BeautifulSoup as bsdef t_(): url = "https://bk.tw.lvfukeji.com/baike-Wikipedia:%E9%A6%96%E9%A1%B5" # 封装头部 添加代理 header = { "user-agent": "Mozilla/原创 2020-11-28 21:19:22 · 154 阅读 · 0 评论 -
爬虫请求库的安装
1.requests pip3 install requests2.selenium pip3 install selenium3.安装谷歌和火狐浏览器4.chromeDriver和geckoDriver [github上搜索,windows复制到python的 scripts目录下,linux 系统配置环境变量或者移动到/usr/bin目录 sudo mv chromeDriver /usr/bin sudo mv geckoDriver /usr/bin 或者配置环境变量谷歌 将可执原创 2020-12-17 23:29:42 · 222 阅读 · 0 评论 -
pymysql操作之------------数据查询
"""读取MySQL数据1.#得到总记录数cursor.execute0)2.#查询下一行cursor.fetchone()3.#得到指定大小cursor.fetchmany(size=None)4.#得到全部cursor.fetchall()5.#关闭connection.close)"""import pymysql.cursors# 获取会话db = pymysql.connect(user="root", host="loca原创 2020-11-29 23:41:47 · 865 阅读 · 0 评论 -
pymysql操作之------------数据写入
import pymysql.cursors"""存储数据到MySQL1,通过pip安装pymysql pip install pymysql2,通过安装文件python setup.py install3.#引入开发包import pymysql.cursors4.#获取数据库链接connection = pymysql.connect( host='localhost', user='root',password='123456', db='wikiurl',原创 2020-11-29 23:07:43 · 375 阅读 · 0 评论 -
爬虫解析库的安装
1.lxml pip3 install lxml2.beautifulsoup4 pip3 install beautifulsoup43.pyquery pip3 install pyquery4.tesserocr sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev 我们查看一下其支持的语言 tesseract --list-langs 结果显原创 2020-12-18 03:19:51 · 153 阅读 · 0 评论 -
资源汇总
1.java2.pythonpython3的安装请求库的安装requests的安装Selenium的安装ChromeDriver的安装GeckoDriver的安装PhantomJS的安装aiohttpt的安装linux下两种配置pip镜像源的方法解析库的安装1. lxml的安装2. Beautiful Soup的安装3. pyquery的安装4. tesserocr的安装数据库的安装MySQL的安装MongoDB的安装Redis的安装存原创 2021-01-07 21:15:56 · 161 阅读 · 0 评论 -
vim
1.Vim的概念和基本操作,比如移动和增删改查如何1.输入Vim命令进入Vim 进去之后似乎没法输入东西,起始默认进去是normal模式使用 :q可以退出Vim2.开始编辑 进入编辑模式就可以像其他编辑器一样编辑了 使用i(insert)进入编辑模式, 开始输入文字表示(insert),a(append),o(open a line below) 使用Esc又可以回到normal模式。使用:wq保存退出 w : write q :quit - a append 当前原创 2021-01-07 21:16:07 · 271 阅读 · 0 评论 -
ubuntu安装docker官方的源很慢
官方的源很慢,使用阿里的:unload 原的dockersudo apt-get remove docker docker-engine docker-ce docker.iosudo apt-get updateapt-get 可以使用https库sudo apt-get install -y apt-transport-https ca-certificates curl software-properties-common添加docker的使用的公钥curl -fsSL原创 2021-01-07 21:15:34 · 3133 阅读 · 0 评论 -
爬虫框架的安装pyspider和Scrapy
pyspider是国人binux编写的强大的网络爬虫框架,它带有强大的WebUI、脚本编辑器、任务监控器、项目管理器以及结果处理器,同时支持多种数据库后端、多种消息队列,另外还支持JavaScript渲染页面的爬取,使用起来非常方便,准备工作pyspider是支持JavaScript渲染的,而这个过程是依赖于PhantomJS的,所以还需要安装PhantomJSpip安装pip3 install pyspider验证安装安装完成之后,可以直接在命令行下启动pyspider:pyspider a原创 2021-01-01 22:53:18 · 297 阅读 · 3 评论 -
爬虫app相关库的抓取
除了Web网页,爬虫也可以抓取App的数据。App中的页面要加载出来,首先需要获取数据,而这些数据一般是通过请求服务器的接口来获取的。由于App没有浏览器这种可以比较直观地看到后台请求的工具,所以主要用一些抓包技术来抓取数据。抓包工具有Charles、mitmproxy和mitmdump。一些简单的接口可以通过Charles或mitmproxy分析,找出规律,然后直接用程序模拟来抓取了。但是如果遇到更复杂的接口,就需要利用mitmdump对接Python来对抓取到的请求和响应进行实时处理和保存。另外,既然原创 2021-01-01 22:28:48 · 496 阅读 · 0 评论 -
linux下两种配置pip镜像源的方法
1.永久置换pip镜像源 1. 创建pip.conf文件 运行以下命令: cd ~/.pip 如果提示目录不存在的话,我们要自行创建一个,再进入目录 mkdir ~/.pip cd ~/.pip 在.pip目录下创建一个pip.conf文件 touch pip.conf 文件就创建好了(当然如果你已经有这个文件了这步可以跳过). 2. 编辑pip.conf文件 sudo gedit ~/.pip/pip.conf 打开pip.conf文件窗口,将以下内容复制到文件中: [globa原创 2020-12-17 23:09:41 · 6796 阅读 · 0 评论