
Python
Python使用方法总结
Tao_666
这个作者很懒,什么都没留下…
展开
-
数据建模-变量编码(数值化)方法
为什么要编码?模型中的预测模型都只能对数值类型进行建模分析(Catboost模型可以直接对类别变量建模),所以需要对离散变量进行编码。编码原则:保证编码后变量的距离可计算且符合原始变量之间的距离度量。编码方法根据是否需要预测变量(也称目标、因变量、标签)分为有监督和无监督编码。无监督编码1、One-hot编码(一位有效编码)不可排序的离散变量编码,例如:性别2、Dummy variable编码(哑变量编码)不可排序的离散变量编码3、Lable编码(标签编码)可排序的离散变量编码,例如:学原创 2020-11-15 21:19:19 · 3103 阅读 · 0 评论 -
聚类分析及Python建模
基本原则:是将有较大相似性的对象归为同一类,而将差异较大(相似性较小)的个体归入不同的类。度量相似性的聚类统计量(指标):距离和相似系数1、距离:欧式距离、马氏距离、兰氏距离2、相似系数:相关系数、夹角余弦用CijC_{ij}Cij表示第iii个变量与第jjj个变量之间的相似系数,∣Cij∣\left\vert C_{ij} \right\vert∣Cij∣满足∣Cij∣⩽1\left\vert C_{ij} \right\vert\leqslant1∣Cij∣⩽1。∣Cij∣\left\v原创 2020-11-04 00:31:19 · 929 阅读 · 1 评论 -
Python中numpy库的where函数
numpy.where() 有两种用法:np.where(condition, x, y)满足条件(condition),输出x,不满足输出y。import numpy as npA = np.arange(-5, 10)print(A)#[-5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9]B = np.where(A, 1, -1) #0为False,所以0变为-1print(B)#[ 1 1 1 1 1 -1 1 1 1原创 2020-11-01 22:15:15 · 3367 阅读 · 0 评论 -
Python中shape使用说明
shape属性可以获取矩阵(ndarray)的行列信息,获取的结果是一个元组,下面以二维数组为例import numpy as npx = np.array([[1,2,3,4,5],[4,5,6,7,8],[7,8,9,10,11],[10,11,12,13,14]])print(x.shape) #输出数组的行和列数print(x.shape[0]) #只输出行数print(x.shape[1]) #只输出列数'''输出(4, 5)45'''...原创 2020-11-01 20:39:15 · 2100 阅读 · 0 评论 -
Python中numpy库的linspace函数
inspace(start, stop, num=[], endpoint=True, retstep=False, dtype=None)在指定的间隔范围内返回均匀间隔的数字。在[start, stop]范围内计算,返回num个(默认为50)均匀间隔的样本。参数1、start [scalar] 返回序列的初始值。2、stop [scalar] 除非endpoint被设置为False,否则stop为序列的终点值。值得注意的是,当endpoint=False时,返回序列的步长会发生变化。3、原创 2020-11-01 20:17:25 · 808 阅读 · 0 评论 -
Python中numpy库的percentile函数
四分位数(Quartile),即统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的得分就是四分位数。第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range,IQR)。im..原创 2020-11-01 19:48:44 · 2997 阅读 · 0 评论 -
Python中numpy库的unique函数
unique函数对于一维数组(元组)或列表,unique函数去除其中重复的元素,并按元素由小到大的顺序返回一个新的无重复元素列表import numpy as npA = [1, 2, 2, 5, 3, 4, 4] #列表a = np.unique(A)B = (1, 2, 2, 5, 5, 4, 3) #元组b = np.unique(B)C = ['fgfh','asd','fgfh','asdfds','wrh']c = np.unique(C)print(a)print(b原创 2020-11-01 00:14:51 · 2329 阅读 · 0 评论