
Python 数据挖掘系列
文章平均质量分 92
人生苦短,我用Python,在这里,不定期更新关于爬虫、PyECharts、结巴分词、Pandas、Matplotlib、SnowNLP、OpenCV等数据挖掘相关内容。如果喜欢或者感兴趣,欢迎订阅。
云来雁去
探讨技术心得,交流生活感悟,站在理性与感性的十字路口,谢谢你,在这世界的角落,找到我。
展开
-
基于 K-Means 聚类分析实现人脸照片的快速分类
K-Means 是一种广泛应用的聚类算法,其基本原理是将数据集分成 K 个簇,目标是让每个簇内的数据点尽可能相似,而不同簇之间的数据点尽可能差异明显。K-Means 的执行过程如下:随机选取 K 个初始中心点。将每个数据点分配到距离最近的中心点所对应的簇。更新每个簇的中心点,通常取簇内所有数据点的均值。重复步骤 2 和 3,直到中心点不再发生变化或达到预设的最大迭代次数。图一:簇划分不正确或者簇数量假设错误图二:数据分布具有各向异性,簇的形状是一个拉长的椭圆形,而不是对称的圆形。原创 2025-01-16 17:49:25 · 558 阅读 · 0 评论 -
后 GPT 时代,NLP 不存在了?
在刘慈欣老师的《三体》小说中,整个故事是以杨冬的死亡线索展开的,而她自杀的原因是物理学不存在了。随着 GPT-4 的发布,『NLP已死』和『NLP不存在了』的声音开始不绝于耳。如果说杨冬认为物理学被颠覆源于智子的“”,那么,现在的大型语言模型对于 NLP 的冲击,实际上改变了AI与最终用户互动的方式。传统的 NLP 技术方向涵盖了信息抽取、文本挖掘、机器翻译、语音合成、语音识别、语义理解、句法分析,这些都被视为自然语言处理的中间任务。因此,传统的 NLP 模式是在每个领域中提供各种不同的工具。原创 2023-05-17 08:25:29 · 1481 阅读 · 0 评论 -
视频是不能 P 的系列:使用 Milvus 实现海量人脸快速检索
最近一直在优化一个人脸识别项目,最大的感受是,科学的尽头永远都是殊途同归。一年前我在使用实现人脸识别的时候,其实当时有两个悬而未决的问题:其一是人脸样本数目增加带来的性能下降问题;其二是如何快速地判断目标人脸是否在人脸样本中。此时此刻,在经历了虹软人脸识别 SDK 的折磨以后,我终于意识到,这两个问题从来就没有消失,它会在某个合适的时机突然跳出来,然后不露声色地敲打着你说道:“此刻,回过头来重新审视这两个问题,我认为,它们本质上就是 1:1 和 1:N 的问题。笔者在使用。原创 2023-04-27 11:41:45 · 1449 阅读 · 0 评论 -
视频是不能 P 的系列:使用 Dlib 实现人脸识别
本文是的第三篇。此前,我们已经可以通过或者实现对人脸的检测,并在此基础上实现了某种相对有趣的应用。譬如,利用人脸特征点提取面部轮廓并生成、将图片中的人脸批量替换为精神污染等等。当然,在真实的应用场景中,如果只是检测到人脸,那显然远远不够的,我们更希望识别出这张人脸是谁。此时,我们的思绪将会被再次拉回到人脸识别这个话题。在探索未知世界的过程中,博主发现自带的 LBPH 方法,即局部二值模式直方图方法,识别精度完全达不到预期效果。所以,博主最终选择了。原创 2022-11-03 16:07:12 · 673 阅读 · 2 评论 -
视频是不能 P 的系列:OpenCV 和 Dlib 实现表情包
2020 年年底的时候,博主曾心血来潮地开启过一个系列:视频是不能 P 的,其灵感则是来源于互联网上的一个梗,即:视频不能 P 所以是真的。不过,在一个美颜盛行的时代,辨别真伪实在是一件奢侈的事情,在各种深度学习框架光环的加持下,在视频中实现“改头换面”已然不再是新鲜事儿,AI 换脸风靡一时的背后,带来是关乎隐私和伦理的一系列问题,你越来越难以确认,屏幕对面的那个到底是不是真实的人类。古典小说《红楼梦》里的太虚幻境,其牌坊上有幅对联写道,“假作真时真亦假,无为有处有还无”。果然,在这个亦真亦幻的世界里,哪里原创 2022-07-11 16:40:20 · 824 阅读 · 0 评论 -
Python 图像风格化迁移助力画家梦想
本文内容走近风格化迁移体验风格化迁移自定义模型训练本文小结很多年前,星爷在《食神》这部电影里大彻大悟,「只要用心,人人都是食神」。从那个时候起,这句话就隐隐约约带着返璞归真、回归本心的意思。如同电影里描绘的餐饮行业一样,在资本市场的裹挟下,造神这项运动显得轻而易举,这个食神可以是史蒂·周,可以是唐牛,可以是任何人。因此,当穷困潦倒的史蒂·周,因为一碗叉烧饭而落泪的时候,我想,这或许是一种直面自我的顿悟。毕竟,电影里的星爷原本就不会做饭。《舌尖上的中国》带火了一句话,“高端的食材,往往只需要最简单的烹饪”,原创 2022-05-07 09:46:40 · 1180 阅读 · 2 评论 -
通过 Python 预测 2021 年双十一交易额
本文内容思路说明实现过程本文小结突然间,十月以某种始料未及的方式结束了,也许是因为今年雨水变多的缘故,总觉得这个秋天过去得平平无奇,仿佛只有观音禅寺的满地银杏叶儿,真正地宣布着秋天的到来,直到看见朋友在朋友圈里借景抒怀,『 霜叶红于二月花 』,秋天终于没能迁就我的一厢情愿,我确信她真的来了。当然,秋天不单单会带来这些诗情画意的东西,更多的时候我们听到的是双十一、双十二,这些曾经由光棍节而催生出的营销活动,在过去的十多年间渐渐成为了一种文化现象,虽然我们的法定节日永远都只有那么几天,可这并不妨碍我们自己创造原创 2021-10-27 14:23:19 · 507 阅读 · 0 评论 -
使用 Python 自动识别防疫二维码
这个月月初的时候,朋友兴奋地和我描述着他的计划——准备带孩子到宁夏自驾游。朋友感慨道,“小孩只在书本上见过黄河、见过沙漠,这样的人生多少有一点遗憾”,可正如新冠病毒会变异为德尔塔一样,生活里唯一不变的变化本身,局部地区疫情卷土重来,朋友为了孩子的健康着想,不得不取消这次计划,因为他原本就想去宁夏看看的。回想过去这一年多,口罩和二维码,是每天打交道最多的东西。也许,这会成为未来几年里的常态。在西安,不管是坐公交还是地铁,都会有人去检查防疫二维码,甚至由此而创造了不少的工作岗位。每次看到那些年轻人,我都有种失落原创 2021-08-20 15:56:56 · 2401 阅读 · 0 评论 -
SnowNLP 使用自定义语料进行模型训练
SnowNLP 是一个功能强大的中文文本处理库,它囊括了中文分词、词性标注、情感分析、文本分类、关键字/摘要提取、TF/IDF、文本相似度等诸多功能,像隐马尔科夫模型、朴素贝叶斯、TextRank等算法均在这个库中有对应的应用。如果大家仔细观察过博主的博客,就会发现博主使用了摘要提取这一功能来增强博客的SEO,即通过自然语言处理(NLP)技术,提取每一篇文章中的摘要信息。因为 SnowNLP 本身使用的语料是电商网站评论,所以,当我们面对不同的使用场景时,它自带的这个模型难免会出现“水土不服”。因此,如果我原创 2021-05-22 21:48:44 · 3589 阅读 · 14 评论 -
通过Python分析2020年全年微博热搜数据
本文内容热搜抓取热搜分析全年热搜热度分析全年热搜情感分析全年热搜词云分析全年热搜人物分析本文小结几天前, Catcher Wong 大佬告诉我,他终于写完了2020年的年终总结。在看完大佬的年终总结以后,我有一种“前浪被后浪拍死在沙滩上”的感觉,正如当学生时都看“别人家的孩子”,工作以后看的都是“别人的年终总结”。我们的生活,其实就是由“别人”和“我们”交织在一起,而更多的时候,是成为“大多数”的“我们”,去关注成为“少数”的“别人”。我想说的是,世间万物互为装饰,就像卞之琳在《断章》里写道,“明月装饰了原创 2021-01-27 20:15:56 · 2875 阅读 · 15 评论 -
厉害了!打工人用Python分析西安市职位信息
在上一篇博客中,我和大家分享了整个11月份找工作的心路历程,而在找工作的过程中,博主发现西安大小周、单休这种变相“996”的公司越来越多,感慨整个行业越来越“内卷”的同时,不免会对未来的人生有一点迷茫,因为深圳已经开始试运行“996”了,如果有一天“996”被合法化并成为一种常态,那么,我们又该如何去面对“人会一天天衰老,总有一天肝不动”的客观规律呢?我注意到Boss直聘移动端会展示某个公司的作息时间,所以,我有了抓取西安市职位和公司信息并对其进行数据分析的想法,我想知道,这到底是我一个人的感受呢?还是整个原创 2020-12-05 21:54:24 · 5833 阅读 · 13 评论 -
浅析网站PV/UV统计系统的原理及其设计
国庆节前有段时间,新浪的“图床”一直不大稳定,因为新浪开启了防盗链,果然免费的永远是最贵的啊。为了不影响使用,我非常粗暴地禁止了浏览器发送Referer,然后我就发现了一件尴尬的事情,“不蒜子”统计服务无法使用了。这是一件用脚后跟想都能想明白的事情,我禁止了浏览器发送Referer,而“不蒜子”正好使用Referer来识别每个页面,所以,这是一个再明显不过的因为需求变更而引入的Bug。这个世界最离...原创 2019-12-29 14:41:21 · 5517 阅读 · 1 评论 -
使用多线程为你的Python爬虫提速的N种姿势,你会几种?
本文附带福利向Python脚本一个,学习多线程与爱美之心兼得,关注和订阅博主的专栏即可领取!文章目录楔子线程与线程池ThreadThreadPoolThreadPoolExecutor进程与进程池ProcessProcessPoolProcessPoolExecutor协程与异步I/Oasynciorequests本文小结最近博主在优化一个爬虫程序,它是博主在2017年左右刚接触 Python 时写下的一个程序。时过境迁,当 Python 2.X 终于寿终正寝成为过去,当博主终于一只脚迈进30岁的大.原创 2021-01-16 13:00:50 · 1028 阅读 · 5 评论 -
视频是不能P的系列:当OpenCV人脸检测遇上柴犬Doge
恍惚间,2020年已接近尾声,回首过去这一年,无论是疫情、失业还是“996”,均以某种特殊的方式铭刻着这一年的记忆。也许,是这个冬天的西安雾霾更少一点。所以,有时透过中午的一抹冬阳,居然意外地觉得春天的脚步渐渐近了,甚至连圣诞节这种“洋节日”都感到亲切而且期待,我想,这大概是我丧了一段时间的缘故吧!可不管怎样,人们对未来的生活时常有一种“迷之自信”,果然生还还是要继续下去的呀!趁着最近的时间比较充裕,我决定开启一个信息的系列:视频是不能P的。这是互联网上流传的一个老梗了,正所谓“视频是不能P的,所以是真的”原创 2020-12-26 13:52:39 · 891 阅读 · 0 评论 -
作为技术宅的我,是这样追鬼滅の刃的
有人说,“男人至死都是少年”,而这句听起来有一点中二的话,其实是出自一部同样有一点中二的动漫——银魂。我个人的理解是,知世故而不世故。也许,年轻时那些天马行空的想法,就像堂吉诃德大战风车一样荒诞,可依然愿意去怀着这样的梦想去生活。正如罗曼罗兰所言,“世上只有一种英雄主义,就是在认清生活真相之后依然热爱生活”。所以,继《浪客剑心》之后,我再次被一部叫做《鬼灭之刃》的动漫吸引,毕竟男人的快乐往往就是这么朴实无华且枯燥。一个快三十岁的人,如果还能被一部热血少年番吸引,大概可以说明,他身体里的中二少年连同中二少年魂原创 2020-12-18 00:44:20 · 1958 阅读 · 0 评论 -
使用Python抽取《半泽直树》原著小说人物关系
此时此刻,2020年的最后一个月,不过这一年给我们留下了怎样的记忆,时间终究自顾自地往前走,留给我们的怀念已时日无多。如果要说2020年的年度日剧,我想《半泽直树》实至名归,这部在时隔七年后上映的续集,豆瓣评分高达9.4分,一度超越2013年第一部的9.3分,是当之无愧的现象级电视剧,期间甚至因为疫情原因而推迟播出,这不能不感谢为此付出辛勤努力的演职人员们。身为一个“打工人”,主角半泽直树那种百折不挠、恩怨分明的性格,难免会引起你我这种“社畜”们的共鸣,即使做不到“以牙还牙,加倍奉还”,至少可以活得像一个活原创 2020-12-10 20:17:12 · 2668 阅读 · 3 评论 -
使用Python开发插件化应用程序
插件化应用是个老话题啦,在我们的日常生活中更是屡见不鲜。无论是多年来臃肿不堪的Eclipse,亦或者是扩展丰富著称的Chrome,乃至近年来最优秀的编辑器VSCode,插件都是这其中重要的组成部分。插件的意义在于扩展应用程序的功能,这其实有点像iPhone手机和AppStore的关系,没有应用程序的手机无非就是一部手机,而拥有了应用程序的手机则可以是Everything。显然,安装或卸载应用程序并...原创 2019-12-29 14:39:55 · 2635 阅读 · 2 评论 -
基于Python实现Windows下壁纸切换功能
在过去一年多的时间里,我尝试改变博客的写作风格,努力让自己不再写教程类文章,即使在这个过程中,不断地面临着写作内容枯竭的痛苦。因为我渐渐地意识到,告诉别人如何去做一件事情,始终停留在”术”的层面,而比这个更为重要的是,告诉别人为什么要这样做,这样就可以过渡到”道”的层面。古人云:形而上者谓之道,形而下者谓之器。我们常常希望通过量变来产生质变,可是如果在这个过程中不能及时反思和总结,我们认为的努力或原创 2018-02-07 14:35:20 · 10571 阅读 · 2 评论 -
使用Python生成博客目录并自动更新README
各位朋友,大家好,我是Payne,欢迎大家关注我的博客,我的博客地址是:https://qinyuanpei.github.io。首先在这里祝大家春节快乐,作为过完年以后的第一篇文章,博主想写点内容风格相对轻松的内容。自从博主的博客采用 TravisCI 提供的持续集成(CI)服务以以来,博客的更新部署变得越来越简单,所有的流程都被简化为Git工作流下的提交(commit)和推送(push)操...原创 2018-02-23 12:46:15 · 2230 阅读 · 0 评论 -
基于Python实现的微信好友数据分析
最近微信迎来了一次重要的更新,允许用户对”发现”页面进行定制。不知道从什么时候开始,微信朋友圈变得越来越复杂,当越来越多的人选择”仅展示最近三天的朋友圈”,大概连微信官方都是一脸的无可奈何。逐步泛化的好友关系,让微信从熟人社交逐渐过渡到陌生人社交,而朋友圈里亦真亦幻的状态更新,仿佛在努力证明每一个个体的”有趣”。有人选择在朋友圈里记录生活的点滴,有人选择在朋友圈里展示观点的异同,可归根到底,人...原创 2018-02-24 13:03:25 · 21901 阅读 · 40 评论 -
基于新浪微博的男女性择偶观数据分析(下)
各位朋友,大家好,我是Payne,欢迎大家关注我的博客。我的博客地址是:https://qinyuanpei.github.io。对于今天这篇文章的主题,相信经常关注我博客的朋友一定不会陌生。因为在2017年年底的时候,我曾以此为题写作了一篇文章:基于新浪微博的男女择偶观数据分析(上)。这篇文章记录了我当时脑海中闪烁着的细微想法,即当你发现一件事物背后是由哲学或者心理学这类玄奥的科学在驱动的时...原创 2018-03-24 23:42:45 · 3708 阅读 · 5 评论 -
博客图片迁移折腾记
去年国庆的时候,七牛官方开始回收测试域名,这直接导致博客中大量图片出现无法访问的情况,虽然博主第一时间启用了新的域名:https://blog.yuanpei.me,可是因为七牛官方要求域名必须备案,所以,这件事情一直耽搁着没有往下进行。至于为什么会一直拖到2019年,我想大家都能猜到一二,没错,我就是懒得去弄域名备案这些事情原创 2019-01-18 11:24:01 · 1395 阅读 · 0 评论 -
深入浅出理解Python装饰器
各位朋友,大家好,我是Payne,欢迎大家关注我的博客,我的博客地址是https://qinyuanpei.github.io。今天我想和大家一起探讨的话题是Python中的装饰器。因为工作关系最近这段时间在频繁地使用Python,而我渐渐意识到这是一个非常有趣的话题。无论是在Python标准库还是第三方库中,我们越来越频繁地看到装饰器的身影,从某种程度上而言,Python中的装饰器是Python原创 2018-02-05 15:57:19 · 1768 阅读 · 0 评论