- 博客(5)
- 收藏
- 关注
原创 python算法自学笔记(数据分析)
groupby的过程就是将原有的DataFrame按照groupby的字段划分为若干个分组DataFrame,被分为多少个组就有多少个分组DataFrame。pandas中的df.loc[]主要是根据DataFrame的行标和列标进行数据的筛选的,其接受两个参数:行标和列标,当列标省略时,默认获取整行数据。两个参数都可以以字符,切片以及列表的形式传入。重置数据帧的索引,并使用默认索引。箱线图用来展现数据的分布,能直观的展示数据的关键指标(如下四分位数、上四分位数、中位数、最大值、最小值、离散点/异常值点)
2023-08-19 10:39:38
120
原创 数据处理涉及的一些方法
目的:每个特征的尺度(scale)不同,有的特征的单位是小时,有的特征的单位是公里,尺度不同也意味着变化的范围不同,有的特征的波动非常大,有的非常小。对大部分机器学习算法而言,特征取值越大或波动越大,在模型中获得的权重就越大,结果导致预测精度降低,最好的处理办法是将所有特征的尺度缩放到统一的区间。01−33。
2023-08-19 10:39:31
213
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅