Python
文章平均质量分 79
dianepure
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
案例: USNews 世界大学榜单 Python selenium 实践
如果你是新手,通过阅读此案例,可以参考解决的问题及习得的技巧:selenium:1、判断元素是否存在2、懒加载,控制台执行js,页面滑动最下方3、按钮因遮挡导致不可点击时,强制点击4、隐藏 自动化测试标签 和 静默执行5、获取当前加载页面的源码pandas:1、保存excel时 不替换原有文件,新增sheet保存2、DataFrame 添加字典数据时,默认列名字典顺序排序,保存加columns固定顺序css: 类名存在空格时,用 .代替空格print: 打印...原创 2022-02-25 12:04:35 · 1210 阅读 · 0 评论 -
多年Excel使用经验汇总
index+match | vlookup | lookup 使用整合index函数index(范围,行,列)index函数是在指定的区域取数据,一共有3个参数,如果区域只有一列,第三个参数可以省略。match函数match(查询条件,查询域,查询方式)match函数则是定位数据的位置,定位行或列。第三个参数用0表示精确查找。index+match 联合用index+match来...原创 2020-12-10 21:13:40 · 462 阅读 · 0 评论 -
chrome无头浏览器的几种检测与绕过方式 (爬虫与反爬虫)
转自:https://blog.youkuaiyun.com/Revivedsun/article/details/81785000原文链接:https://intoli.com/blog/not-possible-to-block-chrome-headless/本文测试使用的chrome版本为Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) A...转载 2019-05-23 18:25:49 · 10930 阅读 · 0 评论 -
微信公众号刷票思路 Python
记一次微信公众号批量投票,主要记录思路,具体的公众号已打码。主线思路:1.分析投票所需数据(判断 是通过ip 还是 需要注册账号后才可以进行投票)2.批量注册第三方平台的账号(若拥有大量可用微信号,则可用微信号直接替代此步)3.利用已注册的账号进行遍历,随机投票,每日循环。实施步骤:1.使用 mitmproxy 监测投票过程(亦可用fiddler进行抓包),分...原创 2019-04-29 18:39:42 · 26897 阅读 · 13 评论 -
【itchat】基于web端微信 的微信个人号接口
前言:itchat是一个开源的微信个人号接口,使用python调用微信从未如此简单。使用不到三十行的代码,你就可以完成一个能够处理所有信息的微信机器人。当然,该api的使用远不止一个机器人,更多的功能等着你来发现,比如这些。该接口与公众号接口itchatmp共享类似的操作方式,学习一次掌握两个工具。如今微信已经成为了个人社交的很大一部分,希望这个项目能够帮助你扩展你的个人的微...原创 2019-03-17 19:18:15 · 2055 阅读 · 1 评论 -
爬虫实例2:Python学习文章爬取
发现了一个教Python大佬的网站:https://cuiqingcai.com/category/technique,于是利用从上面学的知识,把这个网站 技术杂谈栏目下的文章爬了一下...主要使用的模块:requests、 BeautifulSoup、 Workbook.openpyxl、 time源码:from openpyxl import Workbookf...原创 2019-03-08 11:40:55 · 515 阅读 · 0 评论 -
练习:将图片版PDF(不可复制)通过OCR转换为可编辑的PDF
一 背景 今天有朋友咨询这个问题,于是在网上搜索了一番,很多方案都是在linux、mac下的,好在找到了windos的,借鉴了博主nightttt7的思路、源码,整合出了一个可用的程序,相关博主在最下方给出。二 实现思路 将原PDF文件 切割为多张 单页图片,利用OCR逐页扫描单页图片获得文本信息,将识别的文本信息输出为新的PDF。最终结果的优劣大程度...原创 2019-03-15 15:48:23 · 3637 阅读 · 3 评论 -
爬虫实例3:Python实时爬取新浪热搜榜
因为了解到新浪热搜榜每分钟都会更新,所以写的是每分钟爬取一次的死循环,按照日期为格式创建路径,将 爬取的信息按照时间顺序 输出到excel。步骤:1、在浏览器中,用F12分析热搜榜页面的html标签结构,观察有无分页情况、分页规律。2、分为 url、html解析、输出 三大模块进行编写方法: url: 因为本案例中 url为固定静态页,且无分页,所以直...原创 2019-03-14 14:23:16 · 3980 阅读 · 2 评论 -
爬虫实例1:2018中国最富1000人名单及信息(table格式)
前两天正好看到这个新闻,顺手就爬一下,用的re正则表达式爬的,用BeautifulSoup会更省力一些所需爬取链接:http://finance.sina.com.cn/zt_d/jmzf2018/网页为静态页面,为表结构,不需要翻页,较简单使用到的模块:re # 正则urllib.request # 亦可用request模块,今天看了urllib就正好用了ope...原创 2019-03-07 00:56:23 · 634 阅读 · 0 评论 -
目标1:网络爬虫
一 学习计划 自己本身是计算机专业,虽然没有从事开发方面的工作,但有一定语言基础。 在本次目标中,主要参考 此条学习路线<此路线大多为2.7版>,遇到需要记录的知识点(官方文档)或其他信息时,以本文为目录进行扩充。二 2.27学习进度 跟着学习路线中的视频1了解了一遍Python的基本语法,当日记录的笔记xmind 见下:...原创 2019-02-27 12:07:41 · 363 阅读 · 0 评论 -
Python 学习目标 - 19.2.27
18年在自己两台笔记本上安装的有Python3.63,在此版本上开始学习Python。希望能够达成的目标是:能够写出 网络爬虫,可以爬取一般资讯网站中的文本字段、图片、音频等。对于设计较复杂的网站有爬取思路。 能够熟练使用常用的数据分析类库,批量操作 windows平台下类excel、access等办公软件。 编辑windows平台下 .exe格式的可视化客户端文件,实现获取图像(包括...原创 2019-02-27 11:49:59 · 309 阅读 · 0 评论 -
Python练习:炉石传说荣誉室返尘最优策略
一 背景 炉石2019年荣誉室的消息公布后,很多人都在问荣誉室最优选择策略的问题。刚学了Python的基本语法,想试试手。因为对列表、字典这些基础类型的方法不太熟悉,写的时候遇到了好多问题,好在解决了大部分,目前所写的不是很健全,程序逻辑上有漏洞。如果有意向学习Python,可以自己动手写写这类项目,提高效果还是比较明显的。二 最优选择策略分析2.1 基础规则解释返尘规则...原创 2019-03-06 02:20:54 · 1966 阅读 · 0 评论 -
练习:抓取豆瓣电影Top250
一 背景 今天在github上看到的小项目,跑了一下可以跑通,于是当做练习题,参照源码学习三方模块与爬取思路,重新编译,源码见最下方。二 使用模块 使用的核心模块:requests、BeautifulSoup、openpyxlrequests (请求头,模拟浏览器访问) .get(url,headers=?).contentre (正则表达...原创 2019-03-02 20:37:01 · 631 阅读 · 1 评论
分享