
python
corina_qin
这个作者很懒,什么都没留下…
展开
-
特征选择-方差过滤 (学习笔记)
方差过滤找到方差大有区分度的特征,过滤掉那些特征方差较小的特征。比如一个特征本身的方差很小,就表示样本在这个特征上基本没有差异,可能特征中的大多数值都一样,甚至整个特征的取值都相同,那这个特征对于样本区分没有什么作用。所以可以设置一个过滤的阈值,过滤掉那些方差小的特征,从而达到特征筛选的目的。注意不要将重要的特征过滤掉。适用于稀疏矩阵(数值为0的元素数目远远多于非0元素的数目,并且非0元素分布没有规律)from sklearn.feature_selection import VarianceTh原创 2022-03-15 21:17:55 · 1283 阅读 · 0 评论 -
Pandas数据分析 - 字符串操作
str.count():计算某个字符的数量str.upper():转化为小写字母str.lower() :转化为大写字母str.len():求每个字符串的长度str.startswith():判断起始是否为某个指定字母str.endswith():判断结束是否为某个指定字母str.strip():去除字符串两边的空格str:rstrip():去除字符串右边的空格str.lstrip():去除字符串左边的空格str.replace():替换字符串import nump原创 2022-01-15 19:34:03 · 753 阅读 · 0 评论 -
Pandas数据分析 - 时间相关的数据类型
常见的两种数据类型是datetime和timedelta。datetime顾名思义就是既有日期date也有时间time,表示一个具体的时间点(时间戳)。2021-12-23 (date) 12:00:00 (time) ---> datetimetimedelta则表示两个时间点之间的差,比如2020-01-01和2020-01-02之间的timedelta即为一天。将时间列转换为时间格式data.trade_date.head()0 201901021 2.原创 2022-01-15 12:18:25 · 1807 阅读 · 0 评论 -
Pandas数据分析 - axis参数理解
使用0值表示沿着每一列或者行标签索引值向下执行方法使用1值表示沿着每一行或者列标签模向执行对应的方法原创 2022-01-15 11:24:57 · 495 阅读 · 0 评论 -
Pandas数据分析 - 缺失值判断 - isnull()等 用法
numpy用isnan()检查是否存在NaN(Not a Number)。pandas用.isna()或者.isnull()检查是否存在NaN。判断缺失值:data.isna() / data.isnull(); data.notna()/ data.notnull()填充缺失值:data.fillna(value=" ")删除缺失值:data.dropna()import numpy as npimport pandas as pddf=pd.DataFrame(np原创 2022-01-15 00:33:54 · 3902 阅读 · 0 评论 -
Pandas数据分析 - 去重 - duplicated() drop_duplicates() 用法
import numpy as npimport pandas as pd#生成重复数据df=pd.DataFrame(np.ones([5,2]),columns=['col1','col2'])df['col3']=['a','b','a','c','d']df['col4']=[3,2,3,2,2]df=df.reindex(columns=['col3','col4','col1','col2']) #将新增的一列排在第一列df col3 col4 col1 col20 .原创 2022-01-15 00:08:20 · 997 阅读 · 0 评论 -
Pandas数据分析 - 分列 - split() 用法
函数用法:split(sep,n,expand=false)sep表示用于分割的字符;n表格分割成多少列;expand表示是否展开为数据款,True输出Series,False输出Dataframe。import numpy as npimport pandas as pd# 将每个数据按照_分割返回结果默认是一个由列表组成的Seriess = pd.Series(['a_b_c', 'd_e_f', np.nan, 'g_h_i'])s.str.split('_')0原创 2022-01-14 23:42:36 · 7989 阅读 · 0 评论