
Python
文章平均质量分 67
月小水长
这个作者很懒,什么都没留下…
展开
-
【开源】浏览器书签层级可视化
无论层次多深的书签,一点直达,解决痛点。原创 2021-12-30 08:30:00 · 842 阅读 · 0 评论 -
微博评论爬虫解决 meiko 之问,S 11 冠军皮肤选猫咪还是选露露呢
S11 结束了,EDG 牛逼就完事了。作为 Meiko 十年老粉,我看到他发了这样一条微博:所以是选露露还是猫咪呢?广大网友在评论区讨论得不亦乐乎。我突然灵光一闪,可以用爬虫把这些评论抓取下来,提取每一条评论中的包含露露、猫咪等关键词,每一条评论出现一次 vote 就 + 1,然后可视化出来大家都想选啥英雄,说干就干。昨晚下班后熬夜干到快 12 点,终于 done 了。差不多把这 3 w条评论全部抓取下来了,评论数据时间是截止 2021.11.11 晚上 11 点。然后就是抽取分析统计了,核原创 2021-11-13 16:54:22 · 874 阅读 · 0 评论 -
新闻平台聚合之腾讯新闻爬虫发布
idea of startproject对于 web 开发者而言,目前各大新闻门户网站,新浪新闻,百度新闻,腾讯新闻,澎湃新闻,头条新闻并没有提供稳定可用的 feed api。对于 nlper,缺乏足够的新闻语料数据集来供训练。对于新闻传播/社会学/心理学等从业者,缺乏获取新闻数据的简单易用途径来供分析。如果上面三点是某见识所限,其实并不存在的话,第 4 点,则是某的私心,某以为互联网的记忆太短了,热搜一浪盖过一浪,所以试图定格互联网新闻的某些瞬间,最后会以网站的形式发布出来。原创 2021-03-11 23:05:21 · 760 阅读 · 5 评论 -
百度新闻爬虫
这是本项目的开篇,在这个小项目中,将要基于爬虫和GUI编程写一个写个小工具,目的是不用打开浏览器,也能搜到一些关键信息,并将这些信息持久化保存下来,读者可以对这些数据进行分析,比如舆情分析,或作为 NLP 的语料输入。众所周知,搜索引擎的一个核心技术就是爬虫技术,各大搜索引擎的爬虫将个网站的快照索引起来 ,用户搜索时,输入关键词并回车后,基于搜索引擎的浏览器就将相关信息按照一定排序规则展现给用户,今天分享的这个爬虫,是爬取百度爬虫爬取的内容,听起来,有点像俄罗斯套娃。其实你现在能够在网站看到的这篇文章,原创 2020-11-29 16:43:26 · 5801 阅读 · 4 评论 -
Python 获取微信好友地区、性别、签名信息并将结果可视化
序言我之前在优快云博客上分享过两篇有关itchat库的教程:itchat库实用教程 (一): Python从编程零基础打造一款微信聊天自动回复机器人itchat库实用教程 (二): Python使用itchat库+图灵机器人实现群聊助手本篇博客是itchat库系列的第三篇文章,它主要实现的功能是获取微信好友地区、性别、签名信息并将结果可视化正文根据itchat库获得好友信息使用下面...原创 2019-01-24 18:15:41 · 2148 阅读 · 3 评论 -
深入理解 Matplotlib 3D 绘图函数 plot_surface 的 rstride 和 cstride 参数
今晚开始接触 Matplotlib 的 3D 绘图函数 plot_surface,真的非常强大,图片质量可以达到出版级别,而且 3D 图像可以旋转 ,可以从不同角度来看某个 3D 立体图,但是我发现各大中文开源社区有关 3D 绘图的代码都是千篇一律的,现除了看源码说明,我几乎得不到半点有关 plot_surface 的重要参数说明,而且我感觉纯英文的源码说明晦涩难懂,而且没有任何配图,初学者看得是...原创 2019-01-23 22:20:02 · 71236 阅读 · 50 评论 -
Matplotlib 简明教程(一): 从上手到解决具体需求--任意函数表达式极值的结果可视化
Matplotlib简介Matplotlib 是 Python 从 Matlab 迁移过来的一个 2D 绘图库,它可以在各种平台上以各种硬拷贝格式和交互式环境生成出具有出版品质的图形,通过几行代码,就能开发出直方图、饼状图、散点图、三维图等各式各样的专业图表,具有极强的自定义性和可扩展性。下面是 Matplotlib 官网的几个示例图表:同时由于 Matplotlib 是基于 NumPy (...原创 2019-01-23 18:39:19 · 1460 阅读 · 0 评论 -
wxPython + opencv 打造自己的图片编辑软件
本文首发于我的简书GUI采用wxPython,图像处理采用opencv,制作了一款简单的图片处理工具。其效果如下主要的功能及实现选中文件资源管理器中的图片这个采用tkinter库的filedialog模块很容易实现 image_path = filedialog.askopenfilename(initialdir=r"..\\", title="sel原创 2018-12-10 22:49:25 · 2171 阅读 · 0 评论 -
利用 Tensorflow 构建自己的物体识别模型(一)
本文首发于: 我的简书安装tensorflow利用Tensorflow训练搭建自己的物体训练模型,万里长征第一步,先安装tensorflow。tensorflow分为cpu版和gpu版,gpu版的运行速度是cpu的50倍,但是gpu版的坑太多,要安装许多开发套件,对windows的支持不够友好;更为致命的是,它需要Nvida的中高端显卡,我的电脑系统是windows10,显卡是入门级显卡,开...原创 2018-12-03 20:48:46 · 7933 阅读 · 1 评论 -
一文搞定 Python 的时间处理
time模块# -*- coding: utf-8 -*-# author: inpurer(月小水长)# pc_type lenovo# create_date: 2018/12/3# file_name: timetest.py# description: 月小水长,热血未凉import timet0...原创 2018-12-03 15:43:06 · 471 阅读 · 0 评论 -
requests + pyquery 爬取 csdn 博客信息
突然闲来无事想要爬取csdn博客,顺便温习下相关技术点。爬取目标以我的csdn主页为例爬取的主要的数据已经在上用红线图标出来了,主要可分为两部分所有博客的八个统计数据,原创的博客数、你的粉丝数、博客获得的赞、博客的评论数、博客等级、访问量、积分和排名每篇博客的具体信息,如标题、发布时间、阅读数、评论数思路分析Google Chrome浏览器F12开发者工具查看网页结构,比较简单...原创 2019-01-21 20:30:04 · 1512 阅读 · 0 评论 -
Python 直接赋值、浅拷贝和深度拷贝解析
文章目录名词解析实例分析直接复制浅拷贝深度拷贝名词解析直接赋值:其实就是对象的引用(别名)。浅拷贝(copy):拷贝父对象,不会拷贝对象的内部的子对象。深拷贝(deepcopy): 需要用到 copy 模块的 deepcopy 方法,完全拷贝了父对象及其子对象。实例分析直接复制先看代码:a = 123print(id(a))b = aprint(id(b))b =...原创 2019-02-01 19:05:13 · 652 阅读 · 0 评论 -
Python 打造微信群聊天机器人(带操作界面)
前言这几天我的一个小伙伴问我能不能给 Ta 做一个配置灵活的微信群聊天机器人,之前了解过 itchat 库的使用,我就爽快的答应了,花了一个晚上,终于做出了雏形。电脑上运行程序如下:手机上的信息如下:其实基于 itchat 的微信机器人早已经烂大街了,但大多数过于简单,相比较而言,我的这个程序有下面几大鲜明的特色:1、支持打开/关闭指定群聊的自动回复,只需用记事本打开 group.c...原创 2019-04-09 09:22:59 · 29900 阅读 · 13 评论 -
wxPython 开发实战之输入控件 TextCtrl 使用验证器 Validator 来约束输入
前言TextCtrl 是 wxPython 框架里一个非常实用的文本输入控件,我们经常需要对 TextCtrl 做这样一个输入上的约束:只允许输入数字(比如允许 1.2、4.5、100 这些输入而禁止诸如 .8、4t等输入,方便我们在将输入的 str 类型转成 int、float 等其他类型时不需要额外加判断来防止产生异常。今天我查阅 wxPython 的 API,发现了 Validator 这...原创 2019-04-12 14:41:11 · 3629 阅读 · 1 评论 -
wxPython 开发实战之 Font 详解
wx.Font 对象确定一个文本的外观。可以在其他有文本显示的控件比如 TextCtrl,Button,Label 通过 setFont(Font对象)来指明。其构造函数如下:wx.Font(pointSize,family,style,weight,underline,faceName,encoding)参数说明pointSizepointSize是字体的以磅为单...转载 2019-04-12 15:06:51 · 2294 阅读 · 0 评论 -
分享两个有趣的爬虫:百度贴吧和百度翻译
本文首发于我的微信公众号:月小水长原文地址:https://mp.weixin.qq.com/s/uehzjUl8QEaQHtCx4o4BXg百度翻译爬虫程序跑起来的效果是这样的,自动翻译,而且支持中英文互译在调试代码的过程中,我发现百度翻译的加密参数和谷歌翻译差不多,我以前也写过一篇有关谷歌翻译的文章,感兴趣的同学可以看看:更让我大跌眼镜的是,不仅如此,百度翻译的加密函数也是抄袭谷...原创 2019-05-27 13:52:19 · 881 阅读 · 0 评论 -
【数据会说话】2008-2018 高考录取分数线全方位解读!
高考分数线面面观一说到高考,人们自然而然地就会想到高考录取分数线,每年各地区的高考录取分批次线出来的时候,人们总喜欢做一番对比,江苏省高考难度为全国之最,这是大家所公认的;河北和河南难度也很大,而与江苏采用自主命题不同的是,河南河北均采用新课标全国原创 2019-06-14 22:44:04 · 2002 阅读 · 0 评论 -
Python分析【标题党】文章
这是一篇迟来的推送。写作缘由这是很久前一个好友给我的一个小任务:给出某平台历史文章数据,分析出哪些文章有”标题党“的嫌疑,哪些文章标题妙笔生花且内容名副其实。分析一篇文章的标题起得好不好,无非看阅读量,但是怎么看”标题党“呢?我思索着,“标题党”文章大概是这样的:阅读量高但点赞数少,仔细想想,一篇文章,如果标题天花乱坠地吸引人,就会有许多读者点进去阅读,但是发现内容却是败笔,没有干货,这样的...原创 2019-08-03 11:50:26 · 744 阅读 · 0 评论 -
70 行 Python 代码制作一款简易的音乐播放器
今天整理了以前的python作业代码,发现了一些有趣的小东西,比如下面这个,大概70行代码制作一款简易的音乐播放器。install some packagespip install pygamepygame是跨平台Python模块,专为电子游戏设计,包含图像、声音。我这里主要用到了pygame来播放音乐。pygame播放音乐有两个方法,比如music_one = pygame.mix...原创 2018-12-01 22:52:15 · 3743 阅读 · 2 评论 -
python爬取学校教务管理系统
写这个爬虫的缘由以前用java写过一个爬取学校的教务系统的爬虫 https://blog.youkuaiyun.com/ygdxt/article/details/81158321,最近痴迷Python爬虫,了解到许多强大的库,想再一次用学校的教务系统做下测试。这一次我首先想到的是新的教务系统,这个难度更大,因为有了验证码识别反爬,由于我是用的tessocr库识别验证码,(具体配置过程可以参考我之前的博客...原创 2018-11-28 20:19:15 · 5464 阅读 · 5 评论 -
计算机网络自顶向下方法套接字编程作业
本博客是针对,《计算机网络自顶向下方法》一书第二章后面套接字编程作业,所有代码均已上传至我的github:https://github.com/inspurer/ComputerNetwork所有代码均本人亲自编写,有问题欢迎评论交流;如需转载请联系:2391527690@qq.com作业1: Web服务器问题描述使用Python开发一个简单的Web服务器,它仅能处理一个请求,具体而言...原创 2018-11-30 22:34:02 · 12492 阅读 · 15 评论 -
Python通过selenium包调用Chrome浏览器报错
在使用代码from selenium import webdriverbrowser = webdriver.Chrome('D:\chromedriver\chromedriver.exe')browser.get('http://www.baidu.com/')通过selenium包调用Chrome浏览器的时候,报以下错误selenium.common.exceptions...原创 2018-07-25 17:29:44 · 3633 阅读 · 0 评论 -
Python使用itchat库+图灵机器人实现群聊助手
以前在csdn上写过一篇itchat的入门级博客:Python从编程零基础打造一款微信聊天自动回复机器人,有快1000的访问量了,这让我备受鼓舞,还有小伙伴评论说怎么实现群聊消息回复,恰巧今天下午没事,一起来探讨吧。首先安装python环境,然后安装第三方包itchat,可参考上一篇itchat库的博客,不再赘述,(有什么问题可以加微信公众号:月小水长,后台私聊我)实现效果...原创 2018-07-18 18:00:26 · 5890 阅读 · 7 评论 -
Python3序列解包zip()函数详解
Python zip() 函数描述zip() 函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。如果各个迭代器的元素个数不一致,则返回列表长度与最短的对象相同,利用 * 号操作符,可以将元组解压为列表。语法zip 语法:zip([iterable, ...])参数说明:iterabl -- 一个或多个迭代器;返回值返回元组列表。实例以下实例展示了 z...原创 2018-06-20 00:01:03 · 2285 阅读 · 0 评论 -
Python安装whl文件之坑
有的时候,使用pip install xxx会失败,这个时候我们就需要下载xxx.whl文件,而xxx.whl在版本上有很多不兼容的地方需要注意 1.whl文件兼容性很差,同一文件分版本具体下载哪一个版本?可在pythonIDE中输入import pip;print(pip.pep425tags.get_supported())(pip 10没有pep425tags()...原创 2018-05-30 22:20:58 · 14550 阅读 · 0 评论 -
Python模拟Tim登录界面
先上效果图: 具体代码实现: #模拟Tim登录界面,账号为‘123456’,密码为‘654321’正确import wxclass App9_3(wx.Frame): #初始化上半部分Bar def topPanelInit(self): ...原创 2018-05-30 18:05:52 · 1652 阅读 · 0 评论 -
Python3.x编码问题
1.记事本的ANSI编码为系统本地编码,我的是gbkopen()函数的encoding参数默认是本地编码,也就是gbk,所以直接读取ANSI编码的记事本文件是木有问题的。怎么查看系统本地编码?在cmd下输入: chcp从下表可以看出,936对应gbk编码下表列出了所有支持的代码页及其国家(地区)或者语言:代码页 国家(地区)或语言437 ...原创 2018-05-29 18:28:26 · 1362 阅读 · 0 评论 -
Python从编程零基础打造一款微信聊天自动回复机器人
本教程的作用零基础手把手教你打造一款微信自动回复机器人,零基础!操作流程:第一步:安装python环境,由于官网处于半墙状态,下载python开发包可能比较慢,这里我先下载好了,给出百度云下载地址,(链接:https://pan.baidu.com/s/1QOU9H8yDVhs30RZAR4adWQ ,密码:ydg7),下载好,一路next,默认安装。第二步:打开命令行,(快捷键win(那个键上有...原创 2018-06-19 22:56:50 · 7862 阅读 · 12 评论 -
基于python opencv人脸识别的员工考勤系统
#@[TOC](基于python opencv人脸识别的员工考勤系统)WorkAttendanceSystem一个基于opencv人脸识别的员工考勤系统##工程简介写于2018/09/,python课设期间;##项目结构mainui.py是主界面,调用face_img_register.py和face_recognize_punchcard.py其中face_img_register...原创 2018-09-22 17:16:10 · 48157 阅读 · 34 评论 -
纪录两个Opencv的小坑
在利用Opencv做人脸识别的时候遇到了两个小坑,特此记录下来。 1.python3下使用cv2.imwrite存储带有中文路径图片# 创建 cv2 摄像头对象cap = cv2.VideoCapture(0)ret, im_rd=cap.read()cv2.imwrite("我//h.jpg", im_rde) #该方法不成功cv2.imencode('.jpg', im_...原创 2018-09-22 21:28:45 · 438 阅读 · 0 评论 -
python填坑之路:tesserocr配置
最近在学爬虫,在模拟登录网站的时候常常需要输入验证码,最常见的就是OCR(Optical Character Recognition,光学字符识别) ,于是乎了解到tesserocr这个库,但是安装的过程可谓坎坷。 大致的过程可参考博客:崔庆才的个人博客,但是最好注意以下几点将tesseract(注意不是tesserocr)的安装路径加入环境变量。 将tesseract安装...原创 2018-11-06 20:45:53 · 1560 阅读 · 0 评论 -
Python 从生成器到协程
生成器通过列表生成式,我们可以直接创建一个列表。但是,受到内存限制,列表容量肯定是有限的。而且,创建一个包含100万个元素的列表,不仅占用很大的存储空间,如果我们仅仅需要访问前面几个元素,那后面绝大多数元素占用的空间都白白浪费了。所以,如果列表元素可以按照某种算法推算出来,那我们是否可以在循环的过程中不断推算出后续的元素呢?这样就不必创建完整的list,从而节省大量的空间。在Python中,这...原创 2018-11-30 13:26:23 · 572 阅读 · 0 评论 -
Python利用 pyinstaller 打包简明教程
本文首发于我的简书写在前面几个月前我分享过一篇基于opencv人脸识别的员工考勤系统,由于我发布在多平台,总共的阅读量快5000+了,这让我备受鼓舞,同时陆陆续续有许多小伙伴联系到我,讨论具体的配置过程,其实过程还蛮复杂的,特别是在pycharm下,所以我打算把这个工程打包成exe。pyinstaller简明教程安装pyinstallerpip install pyinstaller是最...原创 2018-12-02 20:25:37 · 6519 阅读 · 4 评论 -
一文搞定python的日志自定义
在开发过程中,日志是一个避不开的话题,有的时候我们不需要控制台输出过多的信息,甚至不输出,当然,我们可以在控制台设置日志的等级来达到目的,但是,日志的保存,日志格式的重写,这些,就必须用python内建的logging模块来实现了。封装一个通用的日志脚本命名为logge.py,代码如下import osimport timeimport logging#返回一个logger实例,如果...原创 2018-11-24 19:18:30 · 2217 阅读 · 0 评论 -
Python 函数参数的填坑之路
背景最近在看廖雪峰老师的python3教程之函数的参数受益匪浅,但是在实践的过程中,发现了一些不解之谜两个错误import _threadimport timedef func1(x): while x: print(x) x = x -1_thread.start_new_thread(function=func1,args=(5,),kwargs=None)time....原创 2018-11-30 13:26:14 · 1750 阅读 · 0 评论 -
python多进程与多线程
有关进程、线程、多进程、多线程线程与进程概念线程:是程序执行流的最小单元,是系统独立调度和分配CPU(独立运行)的基本单位。进程:是资源分配的基本单位。一个进程包括多个线程。区别1.线程与资源分配无关,它属于某一个进程,并与进程内的其他线程一起共享进程的资源。2.每个进程都有自己一套独立的资源(数据),供其内的所有线程共享。3.不论是大小,开销线程要更“轻量级”4.一个进程内的线...原创 2018-11-22 14:18:00 · 289 阅读 · 0 评论 -
python爬取图虫网图库
本文首发于月小水长的个人博客如何使用下载工程源码点击下载或者git bash;git clone git@github.com:inspurer/PythonSpider.git下载相关依赖在命令行下依此输入pip install requests pip install pyquery 打开图虫网选择你喜欢的图库链接,比如https://tuchong.com/4...原创 2018-11-14 21:55:29 · 2419 阅读 · 0 评论 -
Python 中 ‘unicodeescape’ codec can’t decode bytes in position XXX: trun错误原因分析及解决方案
表面原因:出现这种错误的原因绝大部分是因为有句python语句涉及到了文件路径,比如:with open('C:\Users\lenovo\Desktop\xiaotao.csv','w',encoding='utf-8') as f:深层原因:转义做个实验:居然会报错???看错误提示 “position 2-3”,即“\U”,很容易联想到无符号数的转义,而“\U”后面又不是数字,故报错,修改后:...原创 2018-03-02 23:02:18 · 2380 阅读 · 0 评论