- 博客(40)
- 资源 (1)
- 收藏
- 关注
原创 统计学知识
1.交叉分析表当需要分析多个变量之间,一个变量是否对其他变量的取值存在影响,分析变量之间是否存在相关关系叫交叉表分析。检验方法:卡方检验,检验行列之间是否相关列联系数,用于名义变量之间的相关系数。表征变量之间的相关性强弱。0~1,0代表不相关;1代表相关性强皮尔逊卡方,似然比,线性关联三种检验结果,皮尔逊卡方常用在二维表中对行变量和列变量进行独立性假设检验,似然比用于对数据线性模型的检验。实验目的:为分析”实验准备“情况与评价结果的关系。三种检验方法显著性水平都小于0.05,
2020-09-25 17:08:53
13493
原创 距离计算以及代码实现
1.欧氏距离(Euclidean Distance)(1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离:(2)三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离:(3)两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的欧氏距离:(4)也可以用表示成向量运算的形式:import numpy as npx = np.array([1,2,3,4])y = np.array([0,5,6,7])#方法一:根据公式求解d.
2020-09-25 14:03:00
1513
原创 2020-09-22
OLS(最小二乘法)主要用于线性回归的参数估计OLS线性回归的基本原则:最优拟合曲线应该使各点到直线的距离的平方和(即残差平方和,简称RSS)最小:OLS线性回归的目标是通过减少响应变量的真实值与预测值的差值来获得模型参数(截距项和斜率),就是使RSS最小。为了能够恰当地解释OLS模型的系数,数据必须满足以下统计假设:正态性:对于固定的自变量值,因变量值成正太分布 独立性:个体之间相互独立 线性相关:因变量和自变量之间为线性相关 同方差性:因变量的方差不随自变量的水平不同而变化,.
2020-09-22 11:59:06
489
原创 主成分分析
「什么样的信息/变量才能被压缩?」只有相关性强的变量才能被压缩。如场景2的数学建模和科技节活动,都是学生们理科思维的体现方式,所以可以考虑把这两者合并成一个新的叫 “ 理科思维 ” 的变量,这样便可以不用两个变量都要费笔墨描述,关键是 “ 理科思维 ” 这个新的变量里面数学建模和科技节这两个旧变量的各自的占比是多少。(因为这里并没有因变量,所以这两个旧变量的权重系数无法简单的使用多元线性回归来完成)如果变量间的关系几乎是独立的却依然强制压缩(比如体育和演讲),则会大大加剧信息的缺失程度,这也是为什么 “
2020-09-22 10:42:02
3799
原创 classification_report
#显示主要分类指标的文本报告from sklearn.metrics import classification_reporty_true = [0, 1, 2, 2, 2]y_pred = [0, 0, 2, 2, 1]target_names = ['class 0', 'class 1', 'class 2']print(classification_report(y_true, y_pred, target_names=target_names))#support每个样本出现的次数#微
2020-08-19 15:20:03
1398
1
原创 多元线性回归检验
多元线性回归模型通常用来研究一个应变量依赖多个自变量的变化关系,如果二者的以来关系可以用线性形式来刻画,则可以建立多元线性模型来进行分析。1.t检验t检验是对单个变量系数的显著性检验,一般看p值;如果p值小于0.05表示该自变量对因变量解释性很强。2.F检验F检验是对整体回归方程显著性的检验,即所有变量对被解释变量的显著性检验 F检验其通常是用来分析用了超过一个参数的统计模型,以判断该模型中的全部或一部分参数是否适合用来估计母体。3.P值P值...
2020-07-13 10:43:33
32457
原创 Pyspark,Python下安装Spark,无需安装Hadoop
又是装环境斗志斗勇的一天,苦笑之前一直不想搭虚拟机/Hadoop/spark这些环境,后来python三千万行数据实在跑不动了,知道有pyspark这等好东西,以为conda install pyspark一下就可以了,发现并没有那么简单。找了很多资料,搜了很多也没找到合适的教程,正好记录一下,希望能帮到需要的同学。不用虚拟机不用Hadoop。环境:anconda 3.0 win10 64位1.下载第一步conda install pyspark 下载sparkhttp://spark..
2020-07-08 17:35:47
3687
3
原创 卡方独立性检验|卡方拟合性检验
独立性检验“独立性检验”验证从两个变量抽出的配对观察值组是否互相独立(例如:每次都从A国和B国各抽一个人,看他们的反应是否与国籍无关)。独立性检验主要用于两个或两个以上因素多项分类的计数资料分析,也就是研究两类变量之间的关联性和依存性问题。如果两变量无关联即相互独立,说明对于其中一个变量而言,另一变量多项分类次数上的变化是在无差范围之内;如果两变量有关联即不独立,说明二者之间有交互作用存在。独立性检验一般采用列联表的形式记录观察数据, 列联表是由两个以上的变量进行交叉分类的频数分布表,是用于提.
2020-06-25 22:59:58
26191
3
原创 多重共线性VIF
多重共线性是指自变量之间存在线性相关关系,即一个自变量可以是其他一个或几个自变量的线性组合。方差膨胀系数(variance inflation factor,VIF)是衡量多元线性回归模型中复 (多重)共线性严重程度的一种度量。它表示回归系数估计量的方差与假设自变量间不线性相关时方差相比的比值。多重共线性是指自变量之间存在线性相关关系,即一个自变量可以是其他一个或几个自变量的线性组合。检验方法主要有:容忍度(Tolerance)和方差膨胀系数(Variance inflation factor,
2020-06-24 15:11:07
40363
原创 python函数多参数
def demo(num, *args, **kwargs): print(num) print(args) print(kwargs)demo(1, 2, 3, 4, 5, name="小明", age=18, gender=True)1(2, 3, 4, 5){'name': '小明', 'age': 18, 'gender': True}def demo(*args, **kwargs): print(args) print(kwargs).
2020-06-21 22:07:09
1048
原创 python字符串常用操作
hello_str = 'Python'```powershellhello_str.capitalize hello_str.isidentifier hello_str.rindexhello_str.casefold hello_str.islower hello_str.rjusthello_str.center hello_str.isnumeric hello_str.rpartitionhello_str.count
2020-06-21 21:26:01
324
原创 python常用序列函数
1.enumerate函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在 for 循环当中参数可以是字符串,列表,元组,字典。返回 enumerate(枚举) 对象l = 'python'for i in enumerate(l): print(i)(0, 'p')(1, 'y')(2, 't')(3, 'h')(4, 'o')(5, 'n')...
2020-06-21 17:01:49
815
原创 波士顿房价KNN
from sklearn.datasets import load_bostonboston = load_boston()X =boston.datay = boston.targetX.shapefrom sklearn.model_selection import train_test_splitimport numpy as npX_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.25,ra...
2020-06-21 15:21:32
1556
原创 matplotlib|箱线图
import numpy as npimport pandas as pddef OutlierDetection(df): # 计算下四分位数和上四分位 Q1 = df.quantile(q=0.25) Q3 = df.quantile(q=0.75) # 基于1.5倍的四分位差计算上下须对应的值 low_whisker = Q1 - 1.5 * (Q3 - Q1) up_whisker = Q3 + 1.5 * (Q3 - Q1) # 寻.
2020-06-20 20:31:57
884
原创 机器学习回归算法汇总_加利福尼亚房价
一.探索数据%matplotlib inlineimport matplotlib.pyplot as pltimport pandas as pdimport numpy as npimport seaborn as snsplt.style.use('fivethirtyeight')import warningswarnings.filterwarnings('ignore')plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
2020-06-19 21:10:09
1042
原创 样本不均衡
1.对训练集中的反类样例进行“欠采样”,去除一些返利,使得正反例数目接近,然后再进行学习;2.对训练集里的正类样例进行“过采样”,增加一些正例使得正反例数目接近3.基于原始数据进行学习,但在分类器预测时,阈值移动...
2020-06-15 14:08:11
204
原创 Pandas空值判断
1.浮点型floatnp.isnan()pd.isna()pd.isnull()/pd.notnull2.字符串strpd.isna()pd.isnull()/pd.notnull()3.时间datetime类型np.isnat()pd.isnull/pd.notnull万能
2020-06-11 10:57:06
3093
原创 datetime时间数据的处理
from datetime import date获取今天日期date.today()datetime.date(2020, 6, 9)day = date(year = 2020,month=8,day= 9)daydatetime.date(2020, 8, 9)当数据列为字符串格式,拆分年月日传给datestr1 = '20160809'y = int(str1[0:4])m = int(str1[4:6])d = int(str1[6:8])date(year
2020-06-09 14:34:40
969
原创 nn.Embedding
nn.Embedding( num_embeddings, embedding_dim, padding_idx=None, max_norm=None, norm_type=2.0, scale_grad_by_freq=False, sparse=False, _weight=None, )一个保存了固定字典和大小的简单查找表。这个模块常用来保存词嵌入和用下标检索它们。模块的输入是一个下标的列表,输出是对应的词嵌入。num_embeddings (int): size of the dictiona
2020-05-29 15:12:47
785
转载 文本分类|keras数据集新闻分类
https://blog.youkuaiyun.com/einstellung/article/details/82695194?ops_request_misc=&request_id=&biz_id=102&utm_term=%E6%96%B0%E9%97%BB%E5%88%86%E7%B1%BB&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-0-826951941.准
2020-05-14 15:50:14
566
原创 文本分类
数据文件:news_classify_data.txtdata_path = 'data/data6825/news_classify_data.txt'with open(data_path, 'r', encoding='utf-8') as f: lines = f.readlines()行数 len(lines):56821从原文件中需要提取题目、类别,划分训练集、测试集str1 = '6660024717287621123_!_0_!_文化_!_老祖宗俗.
2020-05-14 14:12:37
359
1
原创 Keras笔记
https://keras.io/zh/Keras 的核心数据结构是 model,一种组织网络层的方式。最简单的模型是 Sequential顺序模型,它由多个网络层线性堆叠。Sequential 模型from keras.models import Sequentialmodel = Sequential()可以简单地使用 .add() 来堆叠模型:from keras.layers import Densemodel.add(Dense(units=64, activation
2020-05-13 15:34:49
306
原创 keras|手写数字识别
from __future__ import print_functionimport kerasfrom keras.datasets import mnistfrom keras.models import Sequentialfrom keras.layers import Dense, Dropout, Flattenfrom keras.layers import Conv2D, MaxPooling2Dfrom keras import backend as Kbatch_si.
2020-05-13 14:53:30
454
原创 笔记|损失函数
1.binary_crossentropy交叉熵损失函数,一般用于二分类:这个是针对概率之间的损失函数,你会发现只有yi和ŷi是相等时,loss才为0,否则loss就是为一个正数。而且,概率相差越大,loss就越大。这个神奇的度量概率距离的方式称为交叉熵。2.categorical_crossentropy分类交叉熵函数:交叉熵可在神经网络(机器学习)中作为损失函数。 如下公式所示:y表示真实标记的分布,a则为训练后的模型的预测标记分布,交叉熵损失函数可以衡量y与a的相似性。交叉熵作.
2020-05-13 11:21:16
392
转载 LSTM
https://baijiahao.baidu.com/s?id=1595925115533782629&wfr=spider&for=pc
2020-05-12 13:06:33
222
原创 预处理
线性的无量纲化包括中心化(Zero-centered或者Meansubtraction)处理和缩放处理(Scale)。中心化的本质是让所有记录减去一个固定值,即让数据样本数据平移到某个位置。缩放的本质是通过除以一个固定值,将数据固定在某个范围之中,取对数也算是一种缩放处理当数据(x)按照最小值中心化后,再按极差(最大值 - 最小值)缩放,数据移动了最小值个单位,并且会被收敛到[0,1]之间,而这个过程,就叫做数据归一化(Normalization,又称Min-Max Scaling),归一化后数据服
2020-05-10 23:59:10
240
原创 评估指标
评估指标指标含义rmse回归用,调整后的均方误差mae回归用,绝对平均误差logloss二分类用,对数损失mlogloss多分类用,对数损失error分类用,分类误差,等于1-准确率auc分类用,AUC面积logloss一种常用的概率损失衡量是对数损失(log_loss),又叫做对数似然,逻辑损失或者交叉熵损失,它是多元逻辑回 归以及一些拓展算法,比如神经网络中使用的损失函数。它被定义为,对于一个给定的概率分类器,在预测概率为条 件的情况
2020-05-10 21:47:38
513
原创 学习记录|泰坦尼克号生存预测
【学习记录】1.导入包,数据集import numpy as np import pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsplt.style.use('fivethirtyeight')import warningswarnings.filterwarnings('ignore')%matplotlib inlinedata = pd.read_csv('train.csv')data.inf
2020-05-09 23:36:42
787
1
原创 回归|加利福尼亚房价
1.%matplotlib inlineimport matplotlib.pyplot as pltimport pandas as pdfrom sklearn.datasets.california_housing import fetch_california_housinghousing = fetch_california_housing()X = housing.datay = housing.targethousing.feature_names['MedIn
2020-05-09 17:20:49
747
原创 随机森林|乳腺癌数据集
随机森林(Random Forest)其实也算Bagging的一种,但是有一点区别是随机森林在构建决策树的时候,会随机选择样本特征中的一部分来进行划分。由于随机森林的二重随机性,它具有良好的学习性能。以随机森林为代表的装袋法的训练过程旨在降低方差,即降低模型复杂度1.不调参的分数0.9666from sklearn.datasets import load_breast_cancerfrom sklearn.ensemble import RandomForestClassifier...
2020-05-09 16:26:11
3838
4
原创 matplotlib|Pyecharts画图练习
气温解决中文无法正常显示plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']plt.rcParams['font.serif'] = ['Microsoft YaHei']plt.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题,或者转换负号为字符串import matplotlib.pyplot as pltimport randomfrom matplot
2020-05-09 14:40:20
564
1
原创 Kaggle便利店销量预测
学习记录1.导入包import pandas as pdimport datetimeimport csvimport numpy as npimport osimport scipy as spimport xgboost as xgbimport itertoolsimport operatorimport warningswarnings.filterwarnings("ignore") from sklearn.preprocessing import Standa
2020-05-09 00:10:30
864
原创 逻辑回归|乳腺癌数据集
学习记录1.from sklearn.linear_model import LogisticRegression as LRfrom sklearn.datasets import load_breast_cancerimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accurac
2020-05-09 00:10:14
4264
原创 青春有你2
import jsonimport reimport requestsimport datetimefrom bs4 import BeautifulSoupimport os#获取当天的日期,并进行格式化,用于后面文件命名,格式:20200508wtoday = datetime.date.today().strftime('%Y%m%d') ...
2020-05-08 12:49:32
373
原创 安装imblearn时报错ImportError: cannot import name 'MultiOutputMixin'
解决方案:重启!重启!重启!导入imblearn时的问题,本以为是pip install秒速能解决的事情,结果浪费了好几个小时都没成功,搜遍全网没找到解决方案。1.先输入命令conda install -c glemaitre imbalanced-learn我:没成功2.更新包已有的都符合版本,缺的安装后我:还是不行3.本地已经有imblearn和imba...
2020-03-20 21:06:40
7988
26
原创 毕业后
毕业快6个月了,最终我也没有从事软件行业。最近想学数据分析,开始看Python的书,想起来有这么一个网站,然而我已经忘记名字是什么了,就搜“iT交流”,果然第一位就是优快云。上次想不起慕课叫什么了,就搜IT学习。。。。。想起来也有点可悲,学了四年,最终没有从事,基本的都快要忘记了,之前手机不用了,费了半天劲才找回这个账号,原来我之前认认真真地只写过一篇文章呀
2017-12-20 20:45:47
234
原创 tomcat安装及解决问题
虽说安装tomcat很容易但是也经历了重重困难,毕竟每个人pc情况不同,下面说下我的情况以及解决方案。 安装步骤: 1.官网下载tomcat7.0 2.下载好后 点击 进行安装一路next 可以直接修改端口号,由于我的8080被占用了,所以我设置的为8181 然后要选择jre的安装目录,要选择自己
2016-04-04 18:07:33
727
bootstrap包
2016-04-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人