- 博客(29)
- 问答 (4)
- 收藏
- 关注
原创 python笔记2--组合数据类型
序列是 Python 中一种重要的数据结构,包括列表、元组和字符串。通过索引可以访问序列中的元素,通过切片可以获取序列的一部分。掌握序列的基本操作和特性,可以帮助你更高效地处理数据。列表是 Python 中一种非常灵活且强大的数据结构,适用于存储和操作有序数据。掌握列表的创建、访问、修改、添加和删除操作,以及常用的方法和列表推导式,可以帮助你更高效地编写代码,可以使用自定义函数作为key参数,以实现复杂的排序逻辑。Python 提供了多种方法来对列表进行排序,包括sort()方法和sorted()函数。
2025-02-09 18:59:58
1039
原创 python基础语法--笔记1
保留字:是 Python 语言中具有特殊含义的单词,不能用作标识符。标识符:是用于标识变量名、函数名、类名等的名称,必须遵循一定的命名规则。合理使用保留字和标识符是编写清晰、可读性强的 Python 代码的基础。round()函数是一个非常实用的工具,用于对数值进行四舍五入操作。它支持多种用法,包括四舍五入到整数和指定的小数位数。了解其行为(特别是银行家舍入法)可以帮助你更准确地使用它来处理数值数据。Python 的复数类型提供了强大的功能,支持直接创建、基本运算、属性访问和方法调用。通过内置的。
2025-02-07 19:22:53
385
原创 爬虫疫情数据可视化(可视化图表)
由于本人才疏学浅,难免有纰漏,欢迎指正。由于本篇文章内容过多,本文只提供大致思路和分享代码,如有运行相关问题,请留言。
2022-07-03 21:42:40
3237
16
原创 python爬虫-电影数据抓取
1、进入此次爬取的页面点这里。2、按F12—> network3、ctrl+r 刷新 如图搜索一个电影名,找到数据位置,然后查看4、找到请求的url ‘?’后边的是参数,不要带上5、参数单独拿出来start:0 代表的是排行榜的第一部电影limit:20 代表的是一次返回20条数据(20部电影)start和limit都可以更改6、大致先看一看拿到的数据类型,然后解析,从其中拿到自己想要的数据 7、开始编写代码: 运行代码,查看结果: 拿到的的确是两条数据,然后从其中选择自己想要的数据出来,进行可视
2022-06-13 16:22:06
13112
8
原创 ETL的使用过程中遇到的坑(ETL中文乱码)
这里是我的表:然后连接测试:检查SQL语法没问题,很显然这是乱码了2 解决方法:再次测试:ok 解决!!!
2022-05-31 13:32:44
527
原创 python-爬虫 抓取美食板块商家数据
import pprintimport requestsimport csvimport reurl='http://meishi.meituan.com/i/api/channel/deal/list'headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36 Edg/9...
2022-05-07 21:08:31
1636
5
原创 python 常用的正则表达式
正则:用来匹配字符串的一门表达式语言测试的方法:https://tool.oschina.net/regex/1.支持普通字符2.元字符:就一个符号来匹配一堆内容\d能够匹配一个数字(0-9)\w能够匹配数字,字母,下划线(0-9,a-z,A-Z,_)\W除了数字,字母,下划线以外的内容\D除了数字以外的内容[abc]匹配a,b,c[^abc]除了a, b,c.除了换行符以外的其他所有内容都可以被匹配量词3.量词:控制,前面元字符出现的频次+:前面的元字符出现
2022-05-06 19:00:29
416
原创 python爬取动态加载数据过程解析
微博视频抓取的思路:整个页面中的视频就在这些component?包里,一个包里面是8个视频,进一步观察:请求地址一样,只是post请求携带的data不一样,根据提交不同的data就可以得到不同的数据接下里,只需找到next_cursor如图,就是第一个component包里携带的next_cursor是请求下个包所用的一小部分参数,所以只需要更换data里边的next_cursor,就可以抓取所有的视频。抓取这些包的目的主要是获取里边的一个oid值,这个...
2022-04-29 13:34:17
1037
原创 scrapy框架初识04-CrawlSpider
CrawlSpider:类,Spider的一个子类-全站数据爬去方式:-基于Spider:手动请求 -基于:CrawlSpider
2022-04-19 14:23:16
714
原创 scrapy框架03
- 中间件 - 下载中间件 - 位置:引擎和下载器之间 - 作用:批量拦截到整个工程中所有的请求和响应 - 拦截请求: - UA伪装:process_request - 代理IP:process_exception:return request - 拦截响应: - 篡改响应数据,响应对象这是我自己随便写的一个爬虫实例,爬取视频。scrapy框架+seleni.
2022-04-10 17:46:50
1312
1
原创 scrapy框架初识02
目录基于Spider的全站数据抓取五大核心组件:基于Spider的全站数据抓取- 就是将网站中某板块下的全部页码对应的页面数据进行抓取- 需求:爬取 https://pic.netbian.com/4kmeinv/的照片的名称- 实现方式: - 将所有页面的url添加到start_urls列表(不推荐)- 自行手动进行请求发送(推荐)...
2022-04-07 17:16:46
988
8
原创 scrapy框架初识1
目录scrapy框架介绍:scrapy框架的基本使用:scrapy数据解析操作:scrapy持久化存储:将爬取到的数据一份存储到本地一份存储到数据库,如何实现?scrapy框架介绍:框架就是一个集成了很多功能并且具有很强通用性的一个项目模板。scrapy框架:是爬虫中封装好的一个明星框架。功能:高性能的持久化存储,异步的数据下载,高性能的数据解析,分布式。scrapy框架的基本使用: —环境的安装:pip install scra...
2022-04-05 15:03:15
6562
原创 小题练习:最大公约数计算
#最大公约数可用辗转相除法,最小公倍数则用两个数的积除以最大公约数即可a,b=eval(input("请输入两个整数,中间用,隔开:"))c=a*bif a<b: a,b=b,awhile False==(a in [0,1]): b,a=a,b%ac=c/bprint("最大公约数为:{},最小公倍数为:{}".format(b,c))...
2022-03-29 14:56:50
444
原创 点选文字验证码识别
最近在学习爬虫,碰到很多验证登录,今天分享一个点选文字验证码识别以及我在使用的验证码识别平台。(上篇文章有涉及滑块验证)首先,注册一个超级鹰账号,选择充值0.5-1元即可。进入用户中心 > 软件ID 生成一个用来接入接口的软件ID,下载示例代码,然后就可以在pycharm中使用。超级鹰可以识别多种类型,b站验证码属于‘9004’以b站验证码为例:具体方法:首先模拟登录b站,进行登录,然后对验证码图片进行截图,使用screenshot()函数,将保存的图片传递给第三方平.
2022-03-28 22:27:44
4295
11
原创 selenium 实战模拟登陆
首先下载selenium模块,pip install selenium,下载一个浏览器驱动程序(我这里使用谷歌)。#需要用到的所有包from selenium import webdriverfrom selenium.webdriver.chrome.service import Servicefrom selenium.webdriver.common.by import Byfrom time import sleepfrom selenium.webdriver import A
2022-03-26 19:32:41
4693
12
原创 无头浏览器+规避检测
from selenium import webdriverfrom selenium.webdriver.chrome.service import Service#实现无可视化界面(无头浏览器)from selenium.webdriver import ChromeOptionsoption=ChromeOptions()option.add_argument('--headless')option.add_argument('--disable-gpu')s=Service("chr.
2022-03-25 23:35:08
704
空空如也
关于#scala#的问题:scala编程
2022-12-23
scrapy FilesPipeline 下载视频失败
2022-04-10
爬取的页面与原页面不一样
2022-03-12
无法正常安装MySQL不会?
2021-11-01
浏览器无法访问tomcat页面
2021-08-08
TA创建的收藏夹 TA关注的收藏夹
TA关注的人