
Python
文章平均质量分 81
沙振宇
将来的你一定会感谢现在奋斗的你。当你的才华还撑不起你的野心时,那你就应该静下心来学习。
展开
-
【人工智能】机器学习常用算法总结 及 各个常用分类算法精确率对比
目录简介一、监督学习1、决策树(Decision Tree,DT)2、朴素贝叶斯分类器(Naive Bayesian Model,NBM)3、最小二乘法(Least squares)4、逻辑回归(Logistic Regression)5、支持向量机(SVM)6、K最近邻算法(KNN,K-NearestNeighbor)7、集成学习(Ensemble Learning)二、无监督学习1、聚类算法2...原创 2018-12-27 21:46:38 · 39135 阅读 · 6 评论 -
【人工智能】10分钟教你学会爬虫Scrapy
Scrapy是一个非常简单方便的爬虫框架了,本篇文章一步一步的教你几分钟学会爬虫。简单了解一下Scrapy的概念。它是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。本文是讲述的全过程,会比较详细。原创 2019-04-11 20:00:17 · 19731 阅读 · 2 评论 -
【Python】十个常用排序算法——python3实现(以及全部的排序算法分类)
冒泡排序(Bubble Sort)也是一种简单直观的排序算法。它重复地走访过要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来。走访数列的工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢"浮"到数列的顶端。作为最简单的排序算法之一,冒泡排序给我的感觉就像Abandon在单词书里出现的感觉一样,每次都在第一页第一位,所以最熟悉。原创 2019-06-10 19:49:59 · 30387 阅读 · 12 评论 -
【Python】企业微信机器人每天定时发消息实例
文章目录1、背景2、企业微信API3、想法4、效果5、源代码6、Github源码分享7、具体步骤7.1、创建一个群7.2、创建好后,添加一个群机器人7.3、给机器人起名字、添加头像7.4、创建好后,复制Webhook地址后,点完成7.5、配置程序到supervisor中启动7.6、完成1、背景由于办公需要“每天定时推送某消息用来提醒群里面所有人”,于是决定用企业微信自带的机器人来实现此功能。具...原创 2020-02-24 17:29:12 · 29681 阅读 · 39 评论 -
【Python】 Python3读写Excel - 4种方式(读这一篇就够了)
于是我找到了xlsxwriter这个模块,它生成的文件后缀名为.xlsx,最大能够支持1048576行数据,16384列数据。原创 2018-10-17 10:17:52 · 156746 阅读 · 38 评论 -
【网络编程】ZeroMQ的网络通信
在前一篇文章中提到了 ØMQ (ZeroMQ) ,是一个基于消息队列的多线程网络库,它封装了网络通信、消息队列、线程调度等功能,向上层提供简洁的API,应用程序通过加载库文件,调用API函数来实现高性能网络通信。本篇文章重点讲述下,在客户端上如何使用 ZeroMQ 与 服务端的 ZeroMQ 进行通信,主要讲述两种常用模式:1.Request-Reply(请求响应模式)2.Publish-Subscribe(订阅-发布模式)消息双向的,有来有往。原创 2024-02-18 10:04:46 · 1408 阅读 · 0 评论 -
【人工智能】K近邻(K-NearestNeighbor)文本算法的精确率
TF-IDF(词频-逆文本频率),前面的TF也就是常说到的词频,我们之前做的向量化也就是做了文本中各个词的出现频率统计,并作为文本特征,这个很好理解。最近的项目中,用到了很多机器学习的算法,每个机器学习的算法在不同的样本下的精准率是不同的。通过以上数据可以看出在样本数量较低的情况下还不错,在样本数量在5000的时候效果还可以,但是到达20000的时候,准确率已经在65%左右了。概括来讲, IDF反应了一个词在所有文本中出现的频率,如果一个词在很多的文本中出现,那么它的IDF值应该低。原创 2019-02-20 11:38:55 · 4078 阅读 · 1 评论 -
【人工智能】朴素贝叶斯(Naive Bayesian Model)文本算法的精确率
最近的项目中,用到了很多机器学习的算法,每个机器学习的算法在不同的样本下的精准率是不同的。为了验证每个算法在每种不同样本数量的能力,就做了一下实验,本文讲的是“朴素贝叶斯”在文本算法中的精准率。这里应该多跑几遍不同样本,然后把结果取平均值,每次的结果还是稍有不同的。2、把整体样本按照8:2的比例,分为80%的训练集,20%的测试集。4、接着把训练集的样本和标签统一的传入算法中,得到拟合后的模型。6、把测试集得出的词向量丢到拟合后的模型中,看得出的结果。对输入数据的表达形式很敏感,分类的性能不一定很高。原创 2019-02-20 12:36:22 · 5511 阅读 · 1 评论 -
【人工智能】随机森林(Random Forest)文本算法的精确率
TF-IDF(词频-逆文本频率),前面的TF也就是常说到的词频,我们之前做的向量化也就是做了文本中各个词的出现频率统计,并作为文本特征,这个很好理解。有些句子中的词,比如说“的”,几乎所有句子都会出现,词频虽然高,但是重要性却应该比 主语、宾语等低。最近的项目中,用到了很多机器学习的算法,每个机器学习的算法在不同的样本下的精准率是不同的。概括来讲, IDF反应了一个词在所有文本中出现的频率,如果一个词在很多的文本中出现,那么它的IDF值应该低。6、把测试集得出的词向量丢到拟合后的模型中,看得出的结果。原创 2019-02-20 14:17:29 · 15193 阅读 · 7 评论 -
【人工智能】逻辑回归(LogisticRegression)文本算法的精确率
TF-IDF(词频-逆文本频率),前面的TF也就是常说到的词频,我们之前做的向量化也就是做了文本中各个词的出现频率统计,并作为文本特征,这个很好理解。2)预测结果呈“S”型,因此从log(odds)向概率转化的过程是非线性的,在两端随着log(odds)值的变化,概率变化很小,边际值太小,slope太小,而中间概率的变化很大,很敏感。最近的项目中,用到了很多机器学习的算法,每个机器学习的算法在不同的样本下的精准率是不同的。2、把整体样本按照8:2的比例,分为80%的训练集,20%的测试集。原创 2019-02-19 15:42:16 · 10134 阅读 · 0 评论 -
【人工智能】决策树(Decision Tree)文本算法的精确率
TF-IDF(词频-逆文本频率),前面的TF也就是常说到的词频,我们之前做的向量化也就是做了文本中各个词的出现频率统计,并作为文本特征,这个很好理解。最近的项目中,用到了很多机器学习的算法,每个机器学习的算法在不同的样本下的精准率是不同的。通过以上数据可以看出决策树在样本数量较低的情况下还不错,在样本数量在5000的时候效果还可以,但是到达20000的时候,准确率已经在70%左右了。概括来讲, IDF反应了一个词在所有文本中出现的频率,如果一个词在很多的文本中出现,那么它的IDF值应该低。原创 2019-01-11 19:17:06 · 19302 阅读 · 3 评论 -
【人工智能】Liblinear中的支持向量机(SupportVectorMachine)文本算法的精确率
文章目录简介Liblinear中的效果和Sklearn中的效果对比Liblinear实验整体流程Liblinear核心源码简介最近的项目中,用到了很多机器学习的算法,每个机器学习的算法在不同的样本下的精准率是不同的。为了验证每个算法在每种不同样本数量的能力,就做了一下实验,本文讲的是“支持向量机”在运用Liblinear库时,在文本算法中的精准率。Liblinear中的效果和Sklearn中...原创 2019-02-22 19:18:52 · 3614 阅读 · 1 评论 -
【人工智能】sklearn中的支持向量机(SupportVectorMachine)文本算法的精确率
Sklearn的svm算法中,LinearSVC效果是最优的。在数据量达到20000条,精确率依然在80%左右。其实SVM简单的调参后,精确率会更高。机器学习 之 支持向量机(SupportVectorMachine)文本算法的精确率——升级版sklearn。原创 2019-02-20 11:10:04 · 4171 阅读 · 1 评论 -
【Python】 Python3用Tornado实现get或post请求示例
近日,有小伙伴咨询python是如何快速封装API接口的问题。原创 2018-11-26 15:09:55 · 7587 阅读 · 3 评论 -
【Python】Python离线安装项目所需所有pip包
5、中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/simple/2、中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/4、清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/1、阿里云 http://mirrors.aliyun.com/pypi/simple/(注:如果是python3的环境,就用pip3 list)如果有些包在一个源上找不到,不妨到其他源上去找找。原创 2018-12-10 17:55:39 · 16780 阅读 · 1 评论 -
【Python】 批量读取文件中指定字符
代码中先获取文件,然后读取每一行,然后以":"作为分隔符。(-1代表倒数第一个,-2代表倒数第二个)是以":"作为分隔符的数据,每一行以回车结束。此文件为XXX.train。从指定的NLP生成的文件中读取指定的字符。原创 2018-12-24 20:52:24 · 15726 阅读 · 1 评论 -
【人工智能】NLP的Precision(查准率,精确率),Recall(查全率,召回率),Accuracy(准确率)以及综合评价指标(F1-Measure)
目录简述准确率、召回率、F1AP和mAP(mean Average Precision)ROC和AUC简述机器学习(ML),自然语言处理(NLP),信息检索(IR)等领域,评估(Evaluation)是一个必要的 工作,而其评价指标往往有如下几点:准确率(Accuracy),精确率(Precision),召回率(Recall)和F1-Measure。(注: 相对来说,IR 的 ground t...原创 2018-10-29 09:38:37 · 10359 阅读 · 2 评论 -
【人工智能】感知机(Perceptron)
今天来学习下机器学习的敲门砖——感知机模型。网上查了很多中英文资料,得知感知机是在1957年由Frank Rosenblatt提出的,它被成为机器学习领域最为基础的模型。虽然是最为基础的,但是它在机器学习的领域中,有着举足轻重的地位,它是SVM(支持向量机)和NN(神经网络)学习的基础,可以说它是最古老的分类方法之一了。虽然今天看来它的分类模型在大多数时候泛化能力不强,但是它的原理却值得好好研究。如果研究透了感知机模型,再学习支持向量机、神经网络,也是一个很好的起点。原创 2019-02-01 16:59:05 · 49192 阅读 · 1 评论 -
【人工智能】支持向量机(SupportVectorMachine)文本算法的精确率——升级版sklearn
Sklearn的svm算法中,LinearSVC效果是最优的。原创 2019-02-27 10:07:11 · 8718 阅读 · 2 评论 -
【人工智能】SVM、NN等统计学算法爆内存的解决方案
Swap空间的作用可简单描述为:当系统的物理内存不够用的时候,就需要将物理内存中的一部分空间释放出来,以供当前运行的程序使用。那些被释放的空间可能来自一些很长时间没有什么操作的程序,这些被释放的空间被临时保存到Swap空间中,等到那些程序要运行时,再从Swap中恢复保存的数据到内存中。就是内存条的空间不够了,为了能让应用程序认为它拥有连续可用的内存(一个连续完整的地址空间),我们匀出一部分硬盘空间来充当内存使用的。通常情况下,我们会把总样本2-8分成测试集和训练集,通常也是在执行训练和测试的时候耗时的。原创 2019-02-28 11:35:05 · 9517 阅读 · 2 评论 -
【Python】Django、Flask、Tornado的框架性能分析
本文仅关注目前最常用的三大 Python 框架:Django、 Flask 以及 Tornado。原创 2019-02-28 11:56:06 · 3411 阅读 · 1 评论 -
【人工智能】第三方库jieba(中文分词)入门与进阶
结巴”中文分词:做最好的 Python 中文分词组件开发者可以指定自己自定义的词典,以便包含 jieba 词库里没有的词。虽然 jieba有新词识别能力,但是自行添加新词可以保证更高的正确率用法: jieba.load_userdict(file_name) # file_name 为文件类对象或自定义词典的路径词典格式和 dict.txt 一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。原创 2019-03-19 10:18:24 · 4613 阅读 · 2 评论 -
【人工智能】Python开发相关系列文章精品教程
此文章为转载文章,这是目前为止Python开发写的较全的一篇文章,向原作者们致敬机器学习案例系列教程——算法总结机器学习案例系列教程——损失函数总结机器学习案例系列教程——优化方法总结(梯度下降法、牛顿法、拟牛顿法、共轭梯度法等)机器学习案例系列教程——距离度量方法总结机器学习案例系列教程——模型评估总结。原创 2019-03-20 10:13:07 · 7160 阅读 · 1 评论 -
【Python】什么是python的GIL全局解释锁
我们所说的Python全局解释锁(GIL)简单来说就是一个互斥体(或者说锁),这样的机制只允许一个线程来控制Python解释器。这就意味着在任何一个时间点只有一个线程处于执行状态。GIL对执行单线程任务的程序员们来说并没什么显著影响,但是它成为了计算密集型(CPU-bound)和多线程任务的性能瓶颈。由于GIL即使在拥有多个CPU核的多线程框架下都只允许一次运行一个线程,所以在Python众多功能中其声誉可谓是“臭名昭著”。原创 2019-03-22 10:33:28 · 2122 阅读 · 5 评论 -
【人工智能】Python常用的两种爬虫的方式 正则表达式、XPath
正在学习python的爬虫,于是爬了一下现在自己的优快云博客的个人信息。本文讲解了我利用Python3爬取优快云个人信息的两种方式(正则表达式、XPath)。由于优快云也会不断的改变它的HTML代码,所以本文只是提供爬取方式哈。这篇文章中提过。只不过那篇文章讲解的是利用Scrapy框架去爬,本文讲的是直接用xpath模块的一种效果。原创 2019-04-19 17:23:51 · 8650 阅读 · 6 评论 -
【Python】python3绘制各种可视化图表
最近项目中用到不少有关Python图表的知识,主要用的可视化程序库的泰斗 matplotlib。其实还有很多相关画图表的图形库,大多数可视化图形库是基于 matplotlib 构建的并且确保一些用例更简单。本文主要讲的是 matplotlib ,在文尾将会介绍 11 种其它的数据可视化库。matplotlib 是Python可视化程序库的泰斗。经过十几年它任然是Python使用者最常用的画图库。它的设计和在1980年代被设计的商业化程序语言MATLAB非常接近。原创 2019-04-29 20:41:28 · 28382 阅读 · 5 评论 -
【数据结构】八个常用查找算法
最基础的遍历无序列表的查找算法顺序查找又称为线性查找,是一种最简单的查找方法。适用于线性表的顺序存储结构和链式存储结构。该算法的时间复杂度为O(n)二分查找(Binary Search),是一种在有序数组中查找某一特定元素的查找算法。查找过程从数组的中间元素开始,如果中间元素正好是要查找的元素,则查找过程结束;如果某一特定元素大于或者小于中间元素,则在数组大于或小于中间元素的那一半中查找,而且跟开始一样从中间元素开始比较。如果在某一步骤数组为空,则代表找不到。原创 2019-05-28 19:24:22 · 29440 阅读 · 8 评论 -
【数据库】非关系型数据库 之 Key-Value数据库 Redis的使用
Redis是一个开源的 C语言编写的Key-Value数据库,并提供多种语言的API。它通常被称为数据结构服务器,因为值(value)可以是 字符串(String), 哈希(Hash), 列表(list), 集合(sets) 和 有序集合(sorted sets)等类型。原创 2019-06-13 17:06:17 · 29411 阅读 · 5 评论 -
【数据库】非关系型数据库 之 文档型数据库 MongoDB 的使用
MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统。在高负载的情况下,添加更多的节点,可以保证服务器性能。MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB 将数据存储为一个文档,数据结构由键值(key=>value)对组成。MongoDB 文档类似于 JSON 对象。字段值可以包含其他文档,数组及文档数组。原创 2019-06-19 19:11:14 · 45809 阅读 · 1 评论 -
【Python】Python中三元表达式的三种方法
【代码】【Python】Python中三元表达式的三种方法。原创 2019-06-20 10:54:03 · 13873 阅读 · 2 评论 -
【数据库】非关系型数据库 之 图数据库Neo4j的使用
Neo4j是现今最火爆的图数据。在2010年发布,产品的发展势头还算不错。作为图数据库,Neo4j最大的特点是关系数据的存储。图数据库除了能够像普通的数据库一样存储一行一行的数据之外,还可以很方便的看出存储数据之间的关系信息。适合存储”修改较少,查询较多,没有超大节点“的图数据。原创 2019-06-21 12:04:57 · 41829 阅读 · 1 评论 -
【数据库】非关系型数据库 之 列数据库 Cassandra 的使用
Cassandra的主要特点就是它不是一个数据库,而是由一堆数据库节点共同构成的一个分布式网络服务,对Cassandra 的一个写操作,会被复制到其他节点上去,对Cassandra的读操作,也会被路由到某个节点上面去读取。对于一个Cassandra集群来说,扩展性能是比较简单的事情,只管在群集里面添加节点就可以了。原创 2019-06-24 17:14:15 · 6960 阅读 · 0 评论 -
【设计模式】单例模式 C++(两种方式)、Python3单例实例
如果单例对象构造十分耗时或者占用很多资源,比如加载插件啊, 初始化网络连接啊,读取文件啊等等,而有可能该对象程序运行时不会用到,那么也要在程序一开始就进行初始化,就会导致程序启动时非常的缓慢。所以这种情况使用懒汉模式(延迟加载)更好。注:如果这个单例对象在多线程高并发环境下频繁使用,性能要求较高,那么显然使用饿汉模式来避免资源竞争,提高响应速度更好。就是说不管你将来用不用,程序启动时就创建一个唯一的实例对象。原创 2019-06-26 18:17:42 · 39505 阅读 · 0 评论 -
【DevOps】用Python3通过PyCharm上传代码到Git服务器
上传代码到服务器,如果不知道的情况下还用传统的方式上传很麻烦,现在很多IDE都提供上传代码的功能,例如:VSCode,PyCharm等等。本文讲解的是PyCharm。原创 2019-07-26 11:50:41 · 35251 阅读 · 1 评论 -
【操作系统】Python3 监控服务器的CPU、硬盘、内存和各个端口的开启情况
由于项目的需要,需要做一个简单监控服务器的CPU利用率、CPU负载、硬盘使用率、内存利用率和服务器的各个端口的开启情况的程序,并把结果通知到监控平台,如果出现异常,监控平台打电话或者发短信通知给具体的运维人员。博主写了负责监控的代码,供大家学习参考哈~原创 2019-08-06 14:53:36 · 40329 阅读 · 0 评论 -
【人工智能】Sklearn的模型 和 CountVectorizer 、Transformer 保存 和 使用
文章目录1、简述2、 CountVectorizer 和 Transformer保存和加载2.1、TF-IDF词典的保存2.2、TF-IDF加载,测试新数据3、模型的保存和加载3.1、模型的保存3.2、模型的加载4、例子1、简述如果用到TF-IDF,sklearn中经常会用CountVectorizer与TfidfTransformer两个类。我们总是需要保存TF-IDF的词典,然后计算测试集...原创 2019-11-12 20:38:24 · 17433 阅读 · 1 评论 -
【人工智能】Jieba分词示例
之前讲述过关于Jieba分词的内容,最近又有关于这方面的需求,于是做了一个小示例来学习。此示例先获取xlsx文件的语料内容,然后再针对语料进行分词。先上传图片到项目中,然后提交完图片之后在项目中找到图片的url。原创 2019-12-05 14:34:44 · 8803 阅读 · 0 评论 -
【人工智能】利用TF特征向量和Simhash指纹计算中文文本的相似度的示例
文章目录1、简介2、计算过程3、效果图4、核心代码5、此项目Github源码分享1、简介最近一直在研究NLP的文本相似度算法,本文将利用TF-IDF特征向量和Simhash指纹计算中文文本的相似度。2、计算过程准备测试数据预处理读到的数据加载数据到Map中输入用户问题利用TF特征向量和Simhash指纹计算出 预处理的配置文件中的分值3、效果图4、核心代码 try...原创 2019-12-13 11:04:24 · 12160 阅读 · 2 评论 -
【Python】Python3 使用 Websocket 示例
最近又回顾了下Websocket,发现已经忘的七七八八了。于是用js写了客户端,用python写了服务端,来复习一下这方面的知识。原创 2020-01-14 18:24:19 · 13062 阅读 · 0 评论 -
【Python】Python3打包(windows/linux)详解
cx_Freeze的作用可以让python程序可以脱离python运行环境,在没有安装python的微型linux系统(例如cdlinux、tinycore等)里,方便地运行你的python程序。cx_Freeze 是一个类似 py2exe 的工具,但 cx_Freeze 可以在 linux 下可以直接执行的 ELF 格式的二进制可执行文件,也可以在windows上执行。我是用 pip install 安装的pyinstaller,于是先find了一下,找到了此命令,于是就做了个软链接。原创 2020-01-20 19:55:00 · 54157 阅读 · 12 评论