- 博客(10)
- 收藏
- 关注
原创 python批量合并excel文件,从每个文件中抽取同样的列合并
因为这学期课程想要分析股票数据,但下载的成分股被分为多个excel文件,为方便起见,写了这个合并excel的程序。它里面的内容如下:采用***\t***分割。
2023-02-27 17:35:33
630
1
原创 hive 连接 MySQL遇到问题
其中第1、4、5个红框是虚拟机名称注意改成自己的,第二个是你的用户名一般都是root,第三个是你的MySQL设置的密码,一般这几个搞对了基本就没什么问题了。
2022-09-17 19:14:11
1276
1
原创 python数据分析(2) DataFrame中iloc与loc的作用与区别,取自kaggle竞赛
iloc在概念上比loc简单,因为它忽略数据集的索引。当我们使用iloc时,我们将数据集视为一个大矩阵(列表的列表),我们必须按位置对其进行索引。相反,Loc使用索引中的信息来完成它的工作。因为数据集通常有有意义的索引,所以使用loc通常更容易。# 用iloc观察某一行X.iloc[0]# 用iloc观察某一列,与matlab操作相似X.iloc[:, 0]# iloc切片操作# 第一列前三行X.iloc[:3, 0]# 第一列012这三行X.iloc[[0, 1, 2], 0]
2022-05-09 15:51:10
2544
原创 手动创建DataFrame,Series,取自kaggle
import pandas as pd# 默认索引,从0开始fruits = pd.DataFrame([[30, 21]], columns=['Apples', 'Bananas'])# 自定义索引fruit_sales = pd.DataFrame([[35, 21], [41, 34]], columns=['Apples', 'Bananas'], index=['2017 Sales', '2018 Sales'])animals = pd.Da.
2022-05-09 14:57:39
484
原创 python机器学习入门(2)模型优化(以决策树为例),来自kaggle竞赛
from sklearn.metrics import mean_absolute_errorfrom sklearn.tree import DecisionTreeRegressor# 此函数用于返回模型拟合效果,用绝对平均误差评估''' max_leaf_nodes 决策树分叶数 train_X 训练集自变量 val_X 测试集自变量 train_y 训练集因变量 val_y 测试集因变量.
2022-05-04 16:27:08
1273
1
原创 python机器学习库sklearn入门(1)工具使用(数据分割、模型评估),来自kaggle竞赛
from sklearn.metrics import mean_absolute_error # 绝对平均误差评估模块from sklearn.model_selection import train_test_split # 训练集测试集分割模块# split data into training and validation data, for both features and target# The split is based on a random number generato...
2022-05-04 15:54:49
1105
原创 python数据分析(1) DataFrame常用命令,取自kaggle竞赛
import pandas as pd # 读取文件melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'melbourne_data = pd.read_csv(melbourne_file_path) # 显示列名(用于查看数据结构)melbourne_data.columns # 删除具有空值的行,一行有一个空值则全部删除melbourne_data = melbourne_data.dro.
2022-05-04 15:13:28
1038
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人