
机器学习
£•€•×
这个作者很懒,什么都没留下…
展开
-
基于逻辑回归的分类预测
机器学习算法(一): 基于逻辑回归的分类预测1 逻辑回归的介绍和应用1.1 逻辑回归的介绍逻辑回归(Logistic regression,简称LR)虽然其中带有"回归"两个字,但逻辑回归其实是一个分类模型,并且广泛应用于各个领域之中。虽然现在深度学习相对于这些传统方法更为火热,但实则这些传统方法由于其独特的优势依然广泛应用于各个领域中。而对于逻辑回归而且,最为突出的两点就是其模型简单和模型的可解释性强。逻辑回归模型的优劣势:优点:实现简单,易于理解和实现;计算代价不高,速度很快,存储资源低;原创 2020-09-02 20:47:25 · 678 阅读 · 0 评论 -
路漫漫其修远兮,吾将上下而求索 fbprophet
安装包真心累1,pip install fbprophet 报错2.conda install fbprophet 报错3.conda install -c conda-forge fbprophet 报错4.conda install fbprophet -c conda-forge原创 2020-06-20 07:55:59 · 337 阅读 · 0 评论 -
python中datetime.strptime(),strftime()的应用
@TOCdatetime是模块,datetime模块还包含一个datetime类,通过from datetime import datetime导入的才是datetime这个类。strptime():用户输入的日期和时间是字符串,要处理日期和时间,首先必须把str转换为datetime。转换方法是通过datetime.strptime()实现,需要一个日期和时间的格式化字符串: >>> from datetime import datetime >>> cday原创 2020-06-19 15:52:41 · 272 阅读 · 0 评论 -
如何在一个图形中使用相同的颜色但不同的线条样式绘制两个pandas DataFrame
如何在一个图形中使用相同的颜色但不同的线条样式绘制两个pandas DataFrame假设我有以下两个数据帧:df1 = pd.DataFrame(np.random.randn(100, 3),columns=['A','B','C']).cumsum()df2 = pd.DataFrame(np.random.randn(100, 3),columns=['A','B','C']).cumsum()df2 plotdf1 plot我的问题是,如何在一个图中绘制它们,以便:三个系列的d原创 2020-06-03 17:36:24 · 849 阅读 · 0 评论 -
python之matplotlib 用系统字体
python之matplotlib用系统字体学会这个方法中文就可正常表示啦,oh yeah1.导包from matplotlib.font_manager import FontProperties2.调用本机字体库设置字体font = FontProperties(fname=r"C:\Windows\Fonts\simhei.ttf", size=14)其中,simhei.ttf是自己电脑中的字体,如何找到呢,在路径C:\Windows\Fonts的文件夹中,有如下字体,如下图带有常规字样原创 2020-05-26 16:08:28 · 574 阅读 · 0 评论 -
NLP了解
入门NLP1.NLTK自然语言处理库,词性分类库等2.安装语料库3.数据预处理原创 2020-05-25 15:36:53 · 111 阅读 · 0 评论 -
sklearn中的random_state
random_state类似于随机数中的seed,保证每次随机结果一致random_state参数:例如:在sklearn可以随机分割训练集和测试集(交叉验证),只需要在代码中引入model_selection.train_test_split就可以了:from sklearn import model_selectionx_train, x_test, y_train,y_test=model_selection.train_test_split(x,y,test_size=0.2,random原创 2020-05-25 10:08:50 · 629 阅读 · 0 评论 -
k-Means聚类原理及实现
吸收天地之精华,为了完成对数据聚类的任务,广泛查阅各种资料,现总结如下:聚类分析总结 & 实战解析聚类分析是没有给定划分类别的情况下,根据样本相似度进行样本分组的一种方法,是一种非监督的学习算法。聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度划分为若干组,划分的原则是组内距离最小化而组间距离最大化,如下图所示:常见的聚类分析算法如下:K-Means: K-均值聚类也称为快速聚类法,在最小化误差函数的基础上将数据划分为预定的类数K。该算法原理简单并便于处理大量数据。K-中心原创 2020-05-17 15:36:49 · 510 阅读 · 0 评论 -
sklearn安装包下载
sklearn下载地址:https://pypi.org/project/scikit-learn/#files注意:1.下载对应版本,先使用Python或python3命令看当前python的版本。2.安装sklearn之前需要先安装numpy和scipy安装:pip install whl文件名称转载 2020-05-12 14:57:47 · 3796 阅读 · 0 评论 -
非平衡数据
对于平衡分布数据,准确率评估非平衡数据,一般用敏感度、特效性、精确度、召回率等评估非平衡数据那么什么是非平衡数据呢?这个问题很直观, 就是样本中数据的不同类别的样本的比例相差很大, 一般可以达到 9:1 或者更高。 这种情况其实蛮常见的, 譬如去医院看病的人,最后当场死亡的比例(大部分人还是能活着走出医院的, 所以要对医生好点)。 或者搞大数据的人员中男女比例。再或者, 生长线上的正品和次品。 如下图就是, 两种样本非常不成比例, 就失衡了(Imbalanced/unbalanced) 。从数据角原创 2020-05-09 22:27:07 · 954 阅读 · 0 评论 -
flops
我想应该有许多的小伙伴在阅读卷积神经网络的论文中遇到了flops,有趣的是这究竟是什么呢?刚看到FLOPS,我第一反应是之前看到过的用来衡量硬件计算性能的指标,这里需要做一下区分:FLOPS(floating point operations per second),即每秒浮点数运算次数,所以它是一个衡量硬件计算能力的指标FLOPs(floating point operations),即...转载 2020-05-07 23:33:45 · 344 阅读 · 0 评论 -
分类之逻辑斯蒂回归
逻辑斯蒂回归Logistic Regression LR二项逻辑斯蒂回归模型逻辑斯蒂回归是在线性回归模型的基础上,使用阶跃函数对线性模型进行分类,及将线性模型的输出值套上一个函数进行分割,大于z的判定为0,小于z的判定为1,例如:使用sigmoid函数,将线性模型wTx的结果压缩到[0,1]之间,使其拥有概率意义,其本质仍然是一个线性模型,实现相对简单。设X是连续随机变量,X服从逻辑斯蒂分布...原创 2020-05-07 14:55:46 · 183 阅读 · 0 评论 -
生成模型与判别模型
生成模型与判别模型监督学习方法生成方法生成模型生成方法的特点:判别方法判别模型判别方法的特点:监督学习方法生成方法-----生成模型判别方法-----判别模型生成方法生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:P(Y|X)=P(X,Y)/P(X)这样的方法之所以称为生成方法,是因为模型表示了给定输入X产生输出Y的生成关系生...原创 2020-05-07 14:07:47 · 136 阅读 · 0 评论 -
t-SNE降维
t-SNE(t-distributed stochastic neighbor embedding)是用于降维的一种机器学习算法,是由 Laurens van der Maaten 和 Geoffrey Hinton在08年提出来。此外,t-SNE 是一种非线性降维算法,非常适用于高维数据降维到2维或者3维,进行可视化。t-SNE是由SNE(Stochastic Neighbor Embeddi...转载 2020-05-05 22:03:41 · 786 阅读 · 0 评论 -
理解结构风险最小化
结构风险最小化从数据中学习经验风险/经验损失经验风险最小化结构经验最小化从数据中学习经验风险/经验损失经验风险最小化认为经验风险最小的就是最优的模型因此求解最优化问题:其中F是假设空间,当样本容量足够大时,经验风险可以有很好的学习效果,比如:极大似然估计就是经验风险最小化的一个例子,当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化等价于极大似然估计然而当样本容...原创 2020-05-05 21:05:44 · 839 阅读 · 0 评论