
数据挖掘(爬虫)
文章平均质量分 50
小鹿的
这个作者很懒,什么都没留下…
展开
-
浏览器cookie转selenium cookie登录
python使用selenium模拟操作Chrome浏览器,cookie的生成chrome浏览器驱动http://chromedriver.storage.googleapis.com/index.html找到对应驱动并下载。我是从浏览器去拿的如图:结果图:原创 2022-06-23 21:35:56 · 2256 阅读 · 1 评论 -
爬虫采集,入库报错log日志管理
爬虫抓取的数据报错,以及入库等报错的信息的日志存储能自主判断是否有error_log文件目录,没有自主创建能单个配置日志文件的大小,超过了则创建新的日志文件能配置删除多少天前的日志,防止日志文件过多占用内存config.py:log_day = 360 # 清理多少天前的日志log_file_size = 1024*1024*100 # 允许单个日志文本大小最大值 100mb写入日志的函数方法:log.pyimport re, os, timefrom pa原创 2021-09-23 14:31:47 · 282 阅读 · 0 评论 -
爬虫免滑动验证登录获取cookie
def get_cookie(): url = 'xxxx' # 登录接口 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36', } r_sum = str(random.random())[3:18]原创 2021-06-21 14:22:19 · 256 阅读 · 0 评论 -
scrapy爬图片pipelines.py写法
settings.py 文件夹配置IMAGES_STORE = './imgLibs'# -*- coding: utf-8 -*-# Define your item pipelines here## Don't forget to add your pipeline to the ITEM_PIPELINES setting# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html# class Xiaohu原创 2021-06-04 11:06:03 · 249 阅读 · 0 评论 -
scrapy爬取微信公众号内容,多管道储存,orm数据储存
scrapy基本操作基本介绍:基于异步爬虫的框架。高性能的数据解析,高性能的持久化存储,全站数据爬取,增量式,分布式…环境的安装:- Linux: pip install scrapy- Windows: a. pip install wheel b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted - twisted插件是scrapy实现异步操作的三方组件。 c. 进入下载目录,执行 pip原创 2021-06-03 18:09:16 · 1053 阅读 · 1 评论 -
采集百度百家号动态加载的数据信息
问题:采集百度百家号 文章、动态、视频 的标题 ,发布时间 ,播放量 ,视频文件阅读数等代码:# coding = utf-8import osimport reimport timeimport jsonfrom datetime import datetime, timedeltafrom selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsfrom selenium.webd原创 2021-05-28 13:52:02 · 2338 阅读 · 3 评论 -
python爬虫SQLAlchemy的数据存储操作
ORM的全称是:Object Relational Mapping (对象 关系 映射)简单的说,orm是通过使用描述对象和数据之间映射的元数据,将程序中的对象自动持久化到关系数据库中。ORM需要解决的问题是,能否把对象的数据直接保存到数据库中,又能否直接从数据库中拿到一个对象?要想做到上面两点,则必须要有映射关系。ORM的优缺点优点:提供开发效率在一个地方编写数据模型,就可以更轻松地更新,维护和重用代码。它迫使您编写MVC代码,最终使您的代码更简洁。不必编写格式不好的SQL(大多数Web原创 2021-05-08 18:05:00 · 1482 阅读 · 2 评论 -
requests.exceptions.SSLError: HTTPSConnectionPool(host=‘ylbzj.cq.gov.cn‘, port=443): Max retries exc
在网页请求代码中加上这个 verify=False 就可以解决报错,代码可运行https://www.codeprj.com/blog/bab39f1.html原创 2021-03-29 16:24:01 · 524 阅读 · 0 评论 -
爬虫
什么是爬虫就是通过编写程序让其模拟浏览器上网,然后再互联网中抓取数据的过程爬虫的分类通用爬虫:抓取一整张页面源码数据聚焦爬虫:抓取一整张页面中的局部内容聚焦爬虫是需要建立在通用爬虫基础之上增量式爬虫分布式爬虫反爬机制:是需要应用在网站中。反爬机制的指定来阻止爬虫程序对其网站数据的爬取反反爬策略2. 是需要应用在爬虫中。指定相关的反反爬策略来破解网站的反爬机制从而爬取网站中相关的数据。requests模块概念:一个基于网络请求的模块,该模块可以模拟浏览器上网。环境原创 2021-03-02 20:51:50 · 186 阅读 · 0 评论 -
requests模块基本使用
安装pip install requests请求方式requests.get(url)requests.post(url)requests.put(url)requests.delete(url)requests.head(url)requests.options(url)Session.request参数method: 请求方式 如:get,post,put,delete,head,optionsurl: 请求地址params: (可选)要在Request的查询字符串中发送原创 2021-02-08 14:51:36 · 377 阅读 · 0 评论