
python
iku_ki
这个作者很懒,什么都没留下…
展开
-
博客之星互评
PC端 https://bbs.youkuaiyun.com/topics/603957617?spm=1001.2014.3001.6953五星好评互评 10000原力值 欢迎来撩[旺柴]原创 2021-12-29 17:49:33 · 244 阅读 · 0 评论 -
scrapy基本使用
- 什么是scrapy - 爬虫中封装好的一个框架 - 功能:高性能的持久化存储,异步的数据下载,高性能的数据解析,分布式- scrapy环境的搭建 - pip install wheel (服务第2步与第3步操作) - 下载twisted包 (scrapy借助它完成了异步数据下载),下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted - 安装twisted: pip install 下好的twisted原创 2021-11-19 22:34:09 · 921 阅读 · 0 评论 -
python连接远程hive
python连接hive1.安装库: pip install impyla pip install thrift==0.9.3 pip install thrift_sasl #安装失败就要先安装依赖包:sudo yum install cyrus-sasl-devel2.导入库 from impala.dbapi import connect3.创建连接与游标对象 conn = connect(host="slave的ip",user="root",passw原创 2021-11-12 22:58:50 · 3113 阅读 · 0 评论 -
bs4中的BeautifulSoup的基本使用
初始化 soup=BeautifulSoup(需要解析的文本,指定解析器) 需要解析的文本:一般是HTML代码 指定解析器:"lxml" | html.parser | xml | html5lib Python标准库 BeautifulSoup(markup, “html.parser”) Python的内置标准库、执行速度适中 、文档容错能力强 Python 2.7.3 or 3.2.2)前的版本中文容错能力差 lxml HTM.原创 2021-06-08 15:33:07 · 604 阅读 · 0 评论 -
scarpy安装与常用命令
scrapy环境的搭建pip install wheel (服务第2步与第3步操作)下载twisted包 (scrapy借助它完成了异步数据下载),下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted安装twisted: pip install 下好的twisted包名 (对应的python版本就下载)pip install pywin32pip install scrapy注意下载twisted包 时要与python版本兼容.原创 2021-05-27 18:20:09 · 213 阅读 · 0 评论 -
scrapy五大核心组件简介
scrapy五大核心组件简介scrapy的基本使用我们已经掌握,但是各位心中一定会有些许的疑问,我们在编写scrapy工程的时候,我们只是在定义相关类中的属性或者方法,但是我们并没有手动的对类进行实例化或者手动调用过相关的方法,那么这些操作都是谁做的呢?接下来我们就来看看scrapy的五大核心组件的工作流程,然后大家就会上述的疑问有基本了解了。引擎(Scrapy)用来处理整个系统的数据流处理, 触发事务(框架核心)调度器(Scheduler)用来接受引擎发过来的请求, 压入队列中, 并在原创 2021-05-26 23:26:36 · 502 阅读 · 0 评论 -
selenium设置浏览器无可视化界面
from selenium import webdriver from selenium.webdriver import ActionChains #动作链对象import timefrom selenium.webdriver.chrome.options import Options #无界面浏览器from selenium.webdriver import ChromeOptions#规避检测#实现无界面浏览器chrome_options=Options()chrome_option原创 2021-05-26 22:27:22 · 640 阅读 · 0 评论 -
selenium设置浏览器无可视化界面
from selenium import webdriver from selenium.webdriver import ActionChains #动作链对象import timefrom selenium.webdriver.chrome.options import Options #无界面浏览器from selenium.webdriver import ChromeOptions#规避检测#实现无界面浏览器chrome_options=Options()chrome_option原创 2021-05-25 21:20:48 · 611 阅读 · 0 评论 -
matplotlib twinx添加复合图例
#案例4df1=pd.DataFrame({ "月份":["1月","2月","3月","4月","5月","6月","7月","8月","9月","10月","11月","12月"], "平均气温":[2,4,7,4,18,29,30,34,10,5,6,3], "降水量":[4,5,5,6,21,30,37,45,28,12,10,9], "蒸发量":[1,2,4,3,19,21,20,13,9,3,4,2] })df1=df1.se原创 2021-05-25 11:33:14 · 1398 阅读 · 0 评论 -
如何快速搭建实用的爬虫管理平台
本篇文章内容较多,涉及知识较广,读完需要大约 20 分钟,请读者耐心阅读。前言大多数企业都离不开爬虫,爬虫是获取数据的一种有效方式。对搜索引擎来说,爬虫不可或缺;对舆情公司来说,爬虫是基础;对 NLP来说,爬虫可以获取语料;对初创公司来说,爬虫可以获取初始内容。但是爬虫技术纷繁复杂,不同类型的抓取场景会运用到不同的技术。例如,简单的静态页面可以用 HTTP 请求+HTML 解析器直接搞定;一个动态页面需要用 Puppeteer 或 Selenium等自动化测试工具;有反爬的网站需要用到代理、打码等技术;等等原创 2021-05-18 11:39:14 · 896 阅读 · 0 评论 -
python爬取豆瓣Top250——被识破【解决方案一:携带cookie】
import requests #爬虫from lxml import etree #数据解析import csv#头部headers={ 'Cookie':'自己的cookie 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36'}url="https://m原创 2021-04-27 19:30:51 · 950 阅读 · 3 评论 -
flask对数据库进行迁移同步时,报错:KeyError:‘eeads21‘
flask对数据库进行迁移同步时,报错:KeyError: ‘e999d3e9dd50’简单粗暴的方法:直接删除这几样文件即可。项目中找到该文件夹,直接删除把数据下的表全部删除3.但是切记需要保留好模型文件#删除完毕后执行初始化、迁移、同步命令:python app.py db initpython app.py db migratepython app.py db upgrade因为没有找到其他的好办法只能使用这个办法解决。此方法的缺点是:原数据库中存储的所有数据将被删除原创 2021-03-30 20:56:10 · 152 阅读 · 3 评论 -
scrapy项目-爬取阳光问政
scrapy项目-爬取阳光问政项目需求:爬取阳光问政官网全站内容爬取居民编号、状态、问题标题、及详情页的具体问题将爬取到的数据存储到本地的MySQL数据库中全站爬取:工程截图爬虫文件import scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Rulefrom crawlPro.items import Crawlpro原创 2021-02-09 17:29:15 · 473 阅读 · 0 评论 -
scrapy框架爬取王者荣耀英雄数据
scrapy框架爬取王者荣耀英雄属性爬虫工程爬虫文件import scrapyfrom theKingPro.items import ThekingproItemclass ThekingSpider(scrapy.Spider): name = 'theKing' # allowed_domains = ['www.xxx.com'] start_urls = ['https://db.18183.com/wzry/'] def parse(self,原创 2021-02-08 18:30:24 · 875 阅读 · 3 评论