
python系列
主要为python数据分析
五角钱的程序员
这个作者很懒,什么都没留下…
展开
-
将CSV文件中的每一列(除ID)分别做归一化处理的函数实现
在机器学习过程中,对数据的处理过程中,常常需要对数据进行归一化处理,下面介绍(0, 1)标准化的方式,简单的说,其功能就是将预处理的数据的数值范围按一定关系“压缩”到(0,1)的范围类。通常(0, 1)标注化处理的公式为:xnormalization=x−MinMax−Min{x}_{normalization}=\frac{x-Min}{Max-Min}即将样本点的数值减去最小值,再除以...原创 2020-04-13 22:35:51 · 4073 阅读 · 10 评论 -
机器学习中的评价指标(分类指标评Accuracy、Precision、Recall、F1-score、ROC、AUC )(回归指标评价MSE、RMSE、MAE、MAPE、R Squared)
文章目录1.机器学习中的评价指标基础(一)分类指标评价1.Accuracy2.Precision、查准率3.Recall、查全率4.F1-score举个例子:5.ROC6.AUC(二)回归指标评价1.均方误差(MSE)2.均方根误差(RMSE)3.MAE(平均绝对误差)4.MAPE5.R Squared1.机器学习中的评价指标简要介绍精度、精确率、召回率、P-R曲线、F1 值、TPR、FPR、...原创 2020-04-12 14:40:04 · 6450 阅读 · 23 评论 -
并肩XGBoost、LightGBM,一文理解CatBoost!
文章目录1. CatBoost简介2. 类别型特征2.1 类别型特征的相关工作2.2 目标变量统计(Target Statistics)2.3 特征组合2.4 CatBoost处理Categorical features总结3. 克服梯度偏差4. 预测偏移和排序提升4.2 排序提升5. 快速评分6. 基于GPU实现快速训练7. CatBoost的优缺点7.1 优点7.2 缺点8. CatBoost...转载 2020-04-04 14:41:12 · 609 阅读 · 0 评论 -
模型保存(模型持久化pickle模块和joblib模块)
文章目录Model persistence(模型持久化)1、persistence example2、security & maintainability limitationshttps://scikit-learn.org/stable/modules/model_persistence.htmlModel persistence(模型持久化)训练了模型之后,我们希望可以保存下来...转载 2020-03-30 16:24:22 · 969 阅读 · 0 评论 -
集成学习voting Classifier在sklearn中的实现(投票机制)
文章目录Voting即投票机制1)使用方式2)思想Hard VotingSoft VotingHard Voting 投票方式的弊端:硬投票代码软投票代码机器学习的算法有很多,对于每一种机器学习算法,考虑问题的方式都略微有所不同,所以对于同一个问题,不同的算法可能会给出不同的结果,那么在这种情况下,我们选择哪个算法的结果作为最终结果呢?那么此时,我们完全可以把多种算法集中起来,让不同算法对同一种...原创 2020-03-30 16:10:46 · 9431 阅读 · 0 评论 -
更改Jupyter Notebook起始目录的方法
我们打开Jupyter Notebook时通常找不到自己想要的目录,怎么办呢?Win+R -> cmd ->cd + 更改的路径 + enter -> jupyter notebook (推荐方法)注意:需提前jupyter-note book.exe文件所在的目录,添加至path环境变量中例如: 更改的路径为D盘,切换方法是 D: 或者 d:然后输入:ipython ...原创 2020-03-30 13:07:11 · 1040 阅读 · 1 评论 -
Windows下安装使用python的Flask框架
文章目录1、安装python环境:2、安装virtualenv虚拟环境:3、虚拟环境中安装 flask:4、使用PyCharm打开项目:5、安装其他库:1、安装python环境: 这里就不赘述了。2、安装virtualenv虚拟环境: &n...原创 2020-03-25 13:39:53 · 1579 阅读 · 0 评论 -
数据挖掘竞赛利器(stacking 的基本思想及代码实现)
文章目录1.简介2.stacking 的基本思想第一层xgboost和lightgbm第二层逻辑回归LinearRegression()3.代码实现3.1xgboost3.2lightgbm3.3逻辑回归LinearRegression()4.Stacking特点1.简介 Stacking是许多集成方法的综合。其...原创 2020-03-24 19:20:22 · 4143 阅读 · 2 评论 -
confusion_matrix混淆矩阵的使用
文章目录混淆矩阵1.简介2.举例3.confusion_matrix函数的使用3.1实现例子13.2实现例子2混淆矩阵 混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。具体评价指标有总体精度、制图精度、用户精度等,这些精度指标从不同的侧面反映了图像分类的精度。 在人工智能中,混淆...原创 2020-03-23 15:29:52 · 7250 阅读 · 0 评论 -
半监督学习——LabelPropagation
print(__doc__)import numpy as npimport matplotlib.pyplot as pltfrom sklearn import datasetsfrom sklearn import svmfrom sklearn.semi_supervised import label_propagationrng = np.random.RandomSta...原创 2020-03-15 22:18:36 · 767 阅读 · 0 评论 -
XGBoost ——机器学习竞赛平台(介绍及代码实现)
文章目录XGBoost简介安装XGBoost代码原始查看训练过程查看特征重要性调参 查找最好的学习率提升参数1. eta [default=0.3, alias: learning_rate]2. min_child_weight [default=1]3. max_depth [default=6]4. gamma [default=0, alias: min_split_loss]5. sub...原创 2020-03-14 22:31:55 · 1315 阅读 · 2 评论 -
python特征选择(一款非常棒的特征选择工具:feature-selector)
文章目录前言1.数据集选择2.feature-selector用法3.具有高missing-values百分比的特征4.具有高相关性的特征5.对模型预测结果无贡献的特征6.对模型预测结果只有很小贡献的特征7.具有单个值的特征8.从数据集去除选择的特征9.结论前言 FeatureSelector是用于降低机器学习数...原创 2020-03-13 01:32:06 · 13767 阅读 · 33 评论 -
2.8_seaborn_visualizationSeaborn与可视化
Seaborn与可视化Seaborn是斯坦福大学出的一个非常好用的可视化包,这一节我们一起来看看这个包和相关的一些用法。# * coding:utf-8_*_# 作者 :XiangLin# 创建时间 :12/02/2020 19:45# 文件 :2-8_seaborn_visualization.py# IDE :PyCharmimport numpy as...原创 2020-02-15 15:02:56 · 276 阅读 · 0 评论 -
2-7_Pandas_Timestamps时间戳
# * coding:utf-8_*_# 作者 :XiangLin# 创建时间 :12/02/2020 19:06# 文件 :2-7_Pandas_Timestamps.py# IDE :PyCharmimport pandas as pdimport warningswarnings.filterwarnings('ignore')pd.set_opti...原创 2020-02-13 12:54:27 · 451 阅读 · 0 评论 -
2-6_Cleaning_Data清洗数据
清洗数据清洗和处理数据通常也是非常重要一个环节,这节提提这个内容。# * coding:utf-8_*_# 作者 :XiangLin# 创建时间 :12/02/2020 11:28# 文件 :2-6_Cleaning_Data.py# IDE :PyCharmimport pandas as pdimport matplotlib.pyplot as pl...原创 2020-02-13 11:30:04 · 491 阅读 · 0 评论 -
2-5_Pandas_String_Operations pandas字符串操作
pandas字符串操作很明显除了数值型,我们处理的数据还有很多字符类型的,而这部分数据显然也非常重要,因此这个部分我们提一提pandas的字符串处理。# * coding:utf-8_*_# 作者 :XiangLin# 创建时间 :11/02/2020 20:15# 文件 :2-5_Pandas_String_Operations.py# IDE :PyCha...原创 2020-02-12 11:24:08 · 487 阅读 · 0 评论 -
2.4_Date_Type_analysis数据类型分析
# * coding:utf-8_*_# 作者 :XiangLin# 创建时间 :11/02/2020 11:03# 文件 :2-4_Date_Type_analysis.py# IDE :PyCharmimport pandas as pdimport matplotlib.pyplot as pltimport warningswarnings.fil...原创 2020-02-11 11:56:36 · 315 阅读 · 0 评论 -
2.3数据分析Data_Analysis_part2
# * coding:utf-8_*_# 作者 :XiangLin# 创建时间 :10/02/2020 11:15# 文件 :2-3_Data_Analysis_part2.py# IDE :PyCharmimport pandas as pdimport matplotlib.pyplot as pltimport numpy as npimport w...原创 2020-02-10 13:46:34 · 379 阅读 · 0 评论 -
2.2数据选择与分析及折线图柱状图Selecting_data_and_analysis_part1
# * coding:utf-8_*_# 作者 :XiangLin# 创建时间 :09/02/2020 12:01# 文件 :2-2_Selecting_data_and_analysis_part1.py# IDE :PyCharmimport pandas as pdimport matplotlib.pyplot as pltimport warnin...原创 2020-02-09 12:57:50 · 585 阅读 · 0 评论 -
2.1读取csv格式文件Reading_CSV_File
1.1 读取csv格式文件用read_csv函数可以读取csv数据,默认数据之间是用逗号分隔开的。有时候数据集并不是这样的啊,咱们看看比较完整的读数据参数设定。# * coding:utf-8_*_# 作者 :XiangLin# 创建时间 :08/02/2020 12:52# 文件 :2-1_Reading_CSV_File.py# IDE :PyCharm...原创 2020-02-08 13:50:06 · 894 阅读 · 2 评论 -
基于TF-IDF的文本关键词抽取方法
基于TF-IDF的文本关键词抽取方法# * coding:utf-8_*_# 作者 :XiangLin# 创建时间 :06/01/2020 15:10# 文件 :基于TF-IDF的文本关键词抽取方法.py# IDE :PyCharm# 采用TF-IDF方法提取文本关键词# http://scikit-learn.org/stable/modules/feat...原创 2020-02-08 12:20:52 · 2655 阅读 · 8 评论 -
pandas 数据排序DataFrame.sort_values()
DataFrame. sort_values()作用:既可以根据列数据,也可根据行数据排序。注意:必须指定by参数,即必须指定哪几行或哪几列;无法根据index名和columns名排序官方文档https://pandas.pydata.org/pandasdocs/stable/reference/api/pandas.DataFrame.sort_values.htmlDataFram...原创 2020-01-08 18:28:10 · 11627 阅读 · 1 评论 -
K-Means 算法
在聚类中K-Means算法是很常用的一个算法,也是基于向量距离来做聚类。算法步骤如下。 (1)从n个向量对象任意选择k个向量作为初始聚类中心。 (2)根据在步骤(1)中设置...原创 2019-12-28 12:10:29 · 374 阅读 · 0 评论 -
python线性拟合curve_fit
曲线拟合转化为线性拟合 非线性回归的情况太过复杂,在生产实践中也尽量避免使用这种模型。好在分类算法有很多,而且更多的是为了处理半结构化数据,所以非线性回归相关的内容只做一般了解即可。 非线性回归一般可以分为一元非线性回归和多元非线性回归。 一元非线性回归是指两个变量-----一个自变量,一个因变量之间呈现非线性关系,如双曲线、二次曲线、三(多)次曲线、幂曲线、指数曲线、对数...原创 2019-12-27 16:36:09 · 3939 阅读 · 2 评论 -
python数据分析基础
(一) 箱型图分析# * coding:utf-8_*_# 创建时间 :2019.12.26 16:06# IDE :PyCharmimport pandas as pdcatering_sale = '..chapter3\\data\\catering_sale.xls' #餐饮数据data = pd.read_excel(catering_sale,index_col...原创 2019-12-26 21:51:17 · 1144 阅读 · 0 评论 -
Python基本操作
(1)基本运算1.基本运算,第一个是赋值运算,第二个是乘法,最后一个是幂a = 3print(a*2)print(a**2)输出69a,b,c = 6,7,8 #这句命令相当于 a = 6 ,b = 7 , c = 8print("a=%d" %(a))print("a=%d" %(b))print("a=%d" %(c))输出a=6a=7a=82.灵活的字符...原创 2019-12-25 15:56:52 · 917 阅读 · 0 评论