
python
文章平均质量分 82
yhjbox
这个作者很懒,什么都没留下…
展开
-
爬取《鱿鱼游戏》豆瓣热门评论后,我发现了这些…
最近,Netflix的新剧《鱿鱼游戏》简直热爆了,该剧由《熔炉》导演黄东赫执导,由李政宰、朴海秀合作主演,目前已经达到了Netflix TV Show世界榜第2名,韩剧排行榜第1名。该剧是讲述一群走投无路并急需金钱的人收到神秘邀请,邀请他们共同加入一场游戏。为了赢取 456 亿韩元的奖金,背景各异的 456 名参赛者被关在秘密场所进行游戏。每一轮游戏都是韩国人小时候会玩的传统游戏,如一二三木头人,但闯关失败的后果是死亡。谁将是最终赢家?目前豆瓣超过23万人打分,热度还在持续飙升中。永恒.原创 2021-10-08 09:36:59 · 931 阅读 · 0 评论 -
一键备份公众号的所有文章到PDF,再也不用担心想看的文章被删了
有的时候,我们会发现收藏的某个微信公众号文章会被删或者和谐了,尤其是对自己非常实用的文章,一定会后悔当初怎么没有复制或者备份下来。单篇的公众号文章要备份,随便百度一下就能找到非常多方法,这里就不多废话了。如果要备份某个公众号的所有文章,这个就要费点功夫了。网上搜索了一下,免费付费的工具都有,评论效果也是不一而论,不好说。其实原理比较说起来还是不难的,今天永恒君就来分享一下备份某个公众号的所有文章的思路方法。以公众号永恒君的百宝箱为例了,原理是大致是这样的: 抓包抓取微信客户端的接口原创 2021-09-04 09:28:47 · 1317 阅读 · 0 评论 -
中学生都喜欢什么样的老师?抓取知乎高赞回答告诉你
今天一位学校老师提了这么一个需求:想知道当前初中学生都喜欢什么样的老师,并可以用词云的方式直观展示出来。要制作词云呢,需要有一定数量的关键词,以及权重值(或者出现频率)。而要得到这些关键词、权重值,必须要有一定量的内容信息,总不能我们自己瞎编瞎写吧~~那今天就来和大家分享一下永恒君的整个操作过程,希望对大家能有启发和帮助。1、获取内容信息这一步是基础,获取的方式有很多样,但无外乎就是两类直接内容,如给学生调查问卷,整理成稿 间接内容,如网上搜集相关资料文章、相关问答永恒君采取的是第.原创 2021-07-08 22:38:50 · 557 阅读 · 0 评论 -
python中使用docx库操作word文档记录(1)- 读取文本和表格
python中使用docx库操作word文档记录(1)- 读取文本和表格本文记录docx库读取word文本和表格的方法一、使用docx模块Python可以利用python-docx模块处理word文档,处理方式是面向对象的。也就是说python-docx模块会把word文档,文档中的段落、文本、字体等都看做对象,对对象进行处理就是对word文档的内容处理。安装方法为:pip install python-docx二、相关概念先了解python-docx模块的几个概念。1,Document对象,原创 2020-12-03 19:20:41 · 1453 阅读 · 0 评论 -
记录Pyinstaller库将python脚本打包为exe文件的使用
记录Pyinstaller库将python脚本打包为exe文件的使用python脚本在没有安装python的机器上是不能直接运行,需要借助第三方库将脚本打包成exe文件,进而运行python程序。本文记录一下Pyinstaller库打包py文件为exe的使用方法。一、安装Pyinstaller库,pip install pyinstaller 这个不废话了。二、简单的py程序,可以命令行进入pyinstaller所在的文件夹(如果没有配置环境变量的话,),直接执行(但是不推荐)。pyinstal原创 2020-12-03 18:56:21 · 202 阅读 · 0 评论 -
disable-infobars已无效 - selenium隐藏提示“Chrome提示受到自动软件控制”
本机的chrome版本为 84.0.4147.89使用selenium进行测试的时候,浏览器会有“Chrome提示受到自动软件控制”的提示。网上大部分做法是option.add_argument('disable-infobars')但是测试已经无效了。需要进行下面的配置才行option.add_experimental_option("excludeSwitches", ["enable-automation"])option.add_experimental_option('useAut原创 2020-07-25 20:48:14 · 1839 阅读 · 0 评论 -
记录用web scraper爬取裁判文书网的文书列表信息以及批量下载word文书
这个是一位网友在B站交流的一个问题,这里记录一下。需求1、爬取的网站地址:http://wenshu.court.gov.cn/website/wenshu/181217BMTKHNT2W0/index.html?pageId=7bcf3b0574e320a487ada1f504759be4&s21=%E8%B5%94%E5%81%BF2、需要抓取的信息爬取文书列表内容,报告标题、文号、日期、摘要等等信息。3、需要抓取多页,比如说前10页。分析网站的情况1、抓取的页面翻页的时候,ur原创 2020-07-12 16:25:44 · 4082 阅读 · 0 评论 -
用Python爬取28010条《隐秘的角落》评论,我发现了这些...
“一起去爬山吧?”这句台词火爆了整个朋友圈,没错,就是来自最近热门的《隐秘的角落》,豆瓣评分8.9分,好评不断。永恒君趁着端午的假期也赶紧刷完了这部剧,感觉还是蛮不错的。同时,为了想更进一步了解一下小伙伴观剧的情况,永恒君抓取了爱奇艺平台评论数据并进行了分析。下面来做个分享,给大伙参考参考。##1、爬取评论数据因为该剧是在爱奇艺平台独播的,自然数据源从这里取比较合适。永恒君爬取了《隐秘的角落》12集的从开播日6月16日-6月26日的评论数据。使用 Chrome 查看源代码模式,在播放页面往下面滑原创 2020-06-29 22:49:13 · 5989 阅读 · 1 评论 -
四分位数与pandas中的quantile函数
四分位数与pandas中的quantile函数1.分位数概念统计学上的有分位数这个概念,一般用p来表示。原则上p是可以取0到1之间的任意值的。但是有一个四分位数是p分位数中较为有名的。所谓四分位数;即把数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。为了更一般化,在计算的过程中,我们考虑p分位。当p=0.25 0.5 0.75 时,就是在计算四分位数。第1四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。第2四分位数 (Q2),又称原创 2020-05-23 21:17:41 · 16817 阅读 · 0 评论 -
用OpenPyXL处理Excel表格 - 向sheet读取、写入数据
假设一个名叫“模板”的excel表格里有四个sheet,名字分别是[‘平台’, ‘制冷’, ‘洗衣机’, ‘空调’]1、读取from openpyxl import load_workbooknamelists=['平台', '制冷', '洗衣机', '空调']#4个sheet的名字,也可以通过pd来获取wb = load_workbook("模板.xlsx")#使用openpyxl读取xlsx文件,创建workbook 显示有多少张sheetprint(wb.sheetnames)原创 2020-05-20 00:48:54 · 4755 阅读 · 0 评论 -
Python中用OpenPyXL处理Excel表格 - 单元格格式设置
官方文档: http://openpyxl.readthedocs.io/en/default/OpenPyXL库 --单元格样式设置单元格样式的控制,依赖openpyxl.style包,其中定义有样式需要的对象,引入样式相关:from openpyxl.styles import PatternFill, Font, Alignment, Border, SideBorder 边框 Side 边线PatternFill 填充Font 字体Aignment 对齐以上基本可满足需要基本原创 2020-05-16 14:25:09 · 4968 阅读 · 0 评论