
数据分析入门
文章平均质量分 82
ITLiu_JH
IT
展开
-
scikit-surprise 智能推荐模块使用说明
Surprise内置的智能推荐算法简介原创 2025-03-31 22:05:16 · 839 阅读 · 0 评论 -
python list的引用,浅copy与深copy
python对象的引用,浅copy与深copy原创 2023-02-25 08:11:12 · 768 阅读 · 1 评论 -
PageRank-案例-机场
机场排名原创 2022-04-20 18:03:20 · 1400 阅读 · 0 评论 -
数据分析-模型选择-数据集划分-交叉验证
数据集划分-交叉验证原创 2022-04-12 11:23:31 · 2961 阅读 · 1 评论 -
数据分析-循环神经网络-LSTM-案例
数据分析-RNN-LSTM原创 2022-04-01 10:46:27 · 5571 阅读 · 5 评论 -
JupyterHub -安装与配置-简介
目录前言安装jupyterhub安装需求安装JupyterHub配置启动Jupyterhub前言详见:JupyterHub — JupyterHub 2.3.0.dev documentationJupyterHubis the best way to serveJupyter notebookfor multiple users. It can be used in a class of students, a corporate data science ...原创 2022-03-30 09:36:30 · 4076 阅读 · 0 评论 -
JupyterLab 的安装与使用
前言JupyterLab is the next-generation web-based user interface for Project Jupyter.JupyterLab enables you to work with documents and activities such asJupyter notebooks, text editors, terminals, and custom components in a flexible, integrated, and e...原创 2022-03-30 08:50:41 · 5031 阅读 · 0 评论 -
数据分析-神经网络-CNN-猫狗识别案例
猫狗大战原创 2022-03-29 09:30:01 · 2057 阅读 · 1 评论 -
数据分析-神经网络-损失函数
损失函数原创 2022-03-28 08:36:32 · 5008 阅读 · 0 评论 -
数据分析-深度学习-前馈神经网络-回归-Tensorflow
神经网络-预测保险费用原创 2022-03-28 08:21:27 · 3090 阅读 · 0 评论 -
数据分析-数据挖掘基础-样本距离度量
样本距离度量及python实现原创 2022-03-27 07:14:56 · 1477 阅读 · 0 评论 -
数据分析-深度学习-前馈神经网络-分类-Tensorflow
前馈神经网络在前馈神经网络中,每层包含多个神经元,每一层的神经元接受前一层传导的神经元信号,并产生信号输出到下一层。从输入层,经过隐含层(可多层),最后到输出层,整个网络中无反馈,信号从输入层到输出层单向传播。前馈神经网络也被成为多层感知器。tensorflow的实现...原创 2022-03-26 08:24:24 · 1959 阅读 · 1 评论 -
数据分析-深度学习-激活函数
单神经节点为n个输入,为输入对应的权重,b为偏置,f为激活函数。常用的激活函数Sigmoid函数优点具有较好的可解释性输出范围有限单调连续缺点函数饱和,梯度容易消失输出不以0为中心Tanh函数优点比Sigmoid收敛速度快输出以0为中心缺点函数饱和,梯度容易消失ReLU(Rectified Linear Units)函数...原创 2022-03-27 07:16:09 · 317 阅读 · 0 评论 -
数据分析-深度学习-神经网络
BP神经网络案例原创 2022-03-26 08:23:17 · 1750 阅读 · 0 评论 -
数据分析-特征组合-FeatureUnion
特征联合原创 2022-03-25 11:17:38 · 2758 阅读 · 0 评论 -
数据分析-降维-PCA-LDA-LLE
目录前言矩阵分解法主成分分析(PCA)实现 decomposition.PCA 判别分析法(LDA)实现基于流形学习的数据降维方法LLELLE实现MDSMDS实现前言降维指采用某种映射方法,将高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : w->v,其中w是原始数据点的表达,目前最多使用向量表达形式。 v是数据点映射后的低维向量表达,通常v的维度小于w的维度。原始数据在采集时可能包含了很高的维度,降...原创 2022-03-24 21:06:56 · 1736 阅读 · 0 评论 -
数据分析-流水线-pipeline
流水线原创 2022-03-25 12:06:46 · 2828 阅读 · 0 评论 -
数据分析-PageRank-案例
PageRank实现原创 2022-03-24 07:54:41 · 4550 阅读 · 0 评论 -
数据分析-关联规则-Apriori
关联规则-apriori实现原创 2022-03-23 13:16:12 · 3593 阅读 · 0 评论 -
数据分析-特征选择-feature_selection
目录前言过滤式方差选择法卡方检验法相关系数检验法包裹式嵌入式前言特征选择是从全部特征中选取一个特征子集来建立模型,通过降低特征维度,提高模型性能。通常保留与目标特征相关性高的特征,剔除包含信息较少(方差较低)的特征。特征选择的方法有:过滤式先进行特征选择,再建立模型,特征选择的过程中不涉及建模。如方差选择法,卡方检验法,相关系数法。包裹式建立模型并给定评价标准,选择效果最优的特征子集。如递归特征消除法。嵌入式特征选择与模型训练..原创 2022-03-23 11:49:04 · 3236 阅读 · 0 评论 -
数据分析-参数调优-GridSearchCV
参数调优原创 2022-03-22 15:00:54 · 2342 阅读 · 0 评论 -
数据分析-数据集划分-交叉验证
交叉验证原创 2022-03-21 22:27:15 · 5382 阅读 · 0 评论 -
数据分析-入门-神经网络-波士顿房价
@神经网络-波士顿房价-数据分析-入门20 导入必要的包import pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import r2_scorefrom sklearn.metrics import mean_squared_errorimport tensorflow as tf1 加载数据data = pd.read_csv(“d:/datasets/Housin原创 2022-02-22 15:31:06 · 850 阅读 · 0 评论 -
数据分析-集成模型
集成模型原创 2022-03-20 21:12:45 · 4947 阅读 · 0 评论 -
数据分析-分类评价-PR与ROC曲线
分类评价-PR与ROC曲线原创 2022-03-16 09:19:49 · 3362 阅读 · 2 评论 -
python 环境搭建 -anaconda
anaconda是常用的python虚拟环境管理工具原创 2022-03-13 11:04:44 · 4351 阅读 · 0 评论 -
数据分析-聚类-案例
聚类案例原创 2022-03-06 21:35:49 · 2407 阅读 · 0 评论 -
数据分析-分类-案例
分类案例原创 2022-03-06 21:19:31 · 3156 阅读 · 1 评论 -
数据分析-聚类
数据分析聚类原创 2022-03-06 14:25:33 · 5054 阅读 · 0 评论 -
数据分析-分类-案例-糖尿病数据集
@数据分析-分类-案列-糖尿病数据集Sklearn中分类的模块主要有:决策树分类: tree.DecisionTreeClassifierK近邻分类: neighbors.KNeighborsClassifierBernoulli 贝叶斯: naive_bayes.BernoulliNBGaussian 贝叶斯: naive_bayes.GaussianNB多项式贝叶斯:naive_bayes.MultinomialNB支持向量分类器:svm.SVC 支持向量分类器线性支持向量分类器:s原创 2022-03-04 10:51:30 · 8975 阅读 · 4 评论 -
数据分析-分类
分类是一种典型的有监督学习问题原创 2022-03-06 20:54:05 · 2013 阅读 · 0 评论 -
数据分析-回归-案例-波士顿房价数据集
数据来源:boston-housing-dataset目录1、目标2、数据集介绍3、代码3.1 导入必须的工具包3.2 导入数据3.3 数据探索3.4 数据集划分3.5 模型构建3.6评价1、目标根据历史房价数据建立回归模型,预测不同类型房屋的价格。2、数据集样本数:10000特征数量: 13个相关属性(即13个指标变量),1个目标变量(房价)。特征 说明CRIM 城镇人均犯罪率ZN 大于25,000平方英尺的地块划分为住宅用地的.原创 2022-03-04 09:04:04 · 37155 阅读 · 12 评论 -
数据分析-回归
@回归回归(Regression)这一概念最早由英国生物统计学家高尔顿和他的学生皮尔逊在研究父母亲和子女的身高遗传特性时提出“子女的身高趋向于高于父母的身高的平均值,但一般不会超过父母的身高。”-- 《遗传的身高向平均数方向的回归》如今,我们做回归分析时所讨论的“回归”和这种趋中效应已经没有任何瓜葛了,它只是指源于高尔顿工作的那样——用一个或多个自变量来预测因变量的数学方法。在一个回归模型中,我们需要关注或预测的变量叫做因变量,我们选取的用来解释因变量变化的变量叫做自变量。1、回归算法线性回归原创 2022-03-03 16:27:45 · 909 阅读 · 0 评论 -
数据预处理-案例
@数据预处理代码数据集来源:https://www.kaggle.com/artemskakun/snsdata无标签数据1、导包import pandas as pdimport numpy as npfrom pandas import cut #等距离散化from pandas import qcut #等频离散化from sklearn.preprocessing import Binarizer #二值化from sklearn.impute import SimpleIm原创 2022-03-03 09:32:02 · 3320 阅读 · 0 评论 -
数据预处理-离群值检测与处理
@数据分析预处理离群值检测回归3σ法样本x和样本均值μ之间的距离,而且这个距离以标准差σ为单位进行计算:Z-score(x)=(x-μ)/σ得到样本的Z-score值后,通常将满足条件|Z-score(x)|>3的样本视为离群值称为3σ法。箱线图是检验样本数据中异常值的常用方法,与3σ法不同,箱形图法既可以用作服从正态分布样本数据异常值判断,也可以用作不服从正态分布样本数据异常值判断,适用范围广。箱线图由最大值、上四分位数(Q3)、中位数(Q2)、下四分位数(Q1)和最小值五个统计量原创 2022-03-01 09:23:12 · 8482 阅读 · 0 评论 -
数据预处理-特征编码与离散化
特征编码1、OneHotEncodersklearn.preprocessing.OneHotEncoderpreprocessing.OneHotEncoder(n_values=‘auto’, #‘auto’,int或int数组,每个特征的取值个数。categorical_features=‘all’, #指定将哪些功能视为分类dtype=<class ‘numpy.float64’>, #期望的输出类型sparse=True, #如果设置为True将返回稀疏矩阵,否则原创 2022-03-01 08:50:37 · 927 阅读 · 0 评论 -
数据预处理-标准化
标准化数据分析及建模过程中,许多机器学习算法需要其输入特征为标准化形式。例如,SVM算法中的RBF核函数,线性模型中的𝑙1、𝑙2正则项,目标函数往往假设其特征均值在0附近且方差齐次;若样本的特征之间的量纲差异太大,样本之间相似度评估结果将存在偏差。常见数据标准化方法:Z-Score标准化Min-Max标准化1、Z-Score标准化sklearn.preprocessing.StandardScalerpreprocessing.StandardScaler(copy=True, #如果为原创 2022-03-01 08:47:14 · 1024 阅读 · 0 评论 -
数据预处理-缺失值处理
@数据预处理原创 2022-02-28 08:36:08 · 2012 阅读 · 0 评论 -
数据分析-入门-线性回归-波士顿房价
线性回归入门原创 2022-02-22 15:22:02 · 1515 阅读 · 0 评论