机器学习
Python成长路
程序员小白的成长之路,分享学习过程中积累的经验和遇到问题的解决方法。主要使用的编译语言: Python
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于决策树的简单验证码识别
原理核心思想:相似的输入必会产生相似的输出。原理:首先从训练样本矩阵中选择第一个特征进行划分,使每个子表中该特征的值全部相同(比如第一个特征是男女,则可以划分出两个子表,男表和女表),然后再在每个子表中选择下一个特征按照同样的规则继续划分更小的子表(比如第二个特征是年龄,我可以划分成三个子表(当然根据情况的不同而不同),小于18,大于18小于60,大于60,则在男女表中分别又有三个子表,每个子...原创 2020-01-09 11:45:27 · 1467 阅读 · 0 评论 -
基于朴素贝叶斯识别简单验证码
朴素贝叶斯定理原理请参考:http://www.ruanyifeng.com/blog/2011/08/bayesian_inference_part_one.htmlhttps://www.cnblogs.com/TimVerion/p/11197043.html即 后验概率 = 先验概率 * 调整因子在分类中,先验概率指样本中该类别占所有类别的概率,调整因子则是每个样本特征的概率乘积...原创 2020-01-03 10:21:52 · 616 阅读 · 0 评论 -
knn识别简单验证码
参考https://www.biaodianfu.com/knn-captcha-recognition.html内容大致一样,只是根据自己的想法加入了一些改动KNN(k近邻算法)算法原理请看:https://www.biaodianfu.com/knn.html我来说一下sklearn中knn的属性和方法sklearn.neighbors.KNeighborsClassifier(n...原创 2020-01-02 16:12:14 · 1124 阅读 · 0 评论 -
k均值聚类算法(K Means)及其实战案例
算法说明K均值聚类算法其实就是根据距离来看属性,近朱者赤近墨者黑。其中K表示要聚类的数量,就是说样本要被划分成几个类别。而均值则是因为需要求得每个类别的中心点,比如一维样本的中心点一般就是求这些样本的算术平均数。这里存在一个问题了,在最开始我并不知道哪个样本属于哪个类别,那么我怎么能求出中心点呢?如何去划分类别呢?既然是无监督的算法,肯定是没有结果来做训练的。算法思想首先最开始的类别我们需...原创 2019-12-23 17:34:49 · 10000 阅读 · 0 评论 -
机器学习基础知识-上
1、数据预处理一行一样本,一列一特征import sklearn.preprocessing as sp1)标准化sp.scale(原样本) # 返回值为标准化样本定义:将样本矩阵中各列的平均值和标准差统一为0和1实现:假设有样本[ a b c],均值为m,标准差为s,则标准化的样本为[(a-m)/s (b-m)/s (c-m)/s]2)范围缩放mms = sp.MinMaxS...原创 2019-01-02 19:04:04 · 1088 阅读 · 0 评论 -
继上一篇博客留下的坑
在上一篇博客中有一个未知的模型contour-classifier:https://blog.youkuaiyun.com/Qwertyuiop2016/article/details/107120290,这个模型是github的大佬直接给出的,并不知道它是如何创建的,所以这篇博客来填一下坑。模型特征有五个:框宽度、框高度、框面积、框面积/(框高度*框宽度)、框周长需要得到是结果是这个框中所包含的字符数,既然已经有了模型,我们可以用它产生结果就可以得到想要的数据集。已经提取的数据集:https://wwa.lan原创 2020-07-07 11:31:24 · 380 阅读 · 0 评论
分享