机器学习Pandas_learn2

from pandas import DataFrame
paints={"字画名称":{"第一幅":"旭日东升",
                "第二幅":"富水长流",
                "第三幅":"招财进宝",
                "第四幅":"鸿运当头"},
        "字画底价":{"第一幅":2860,"第二幅":498,"第三幅":1068,"第四幅":598},
        "字画拍卖加价":{"第一幅":1000,"第二幅":2000,"第三幅":500,"第四幅":1500}}
goods_in=DataFrame(paints,columns=["字画名称","字画拍卖加价","字画底价"])
print(goods_in)
     字画名称  字画拍卖加价  字画底价
第一幅  旭日东升    1000  2860
第二幅  富水长流    2000   498
第三幅  招财进宝     500  1068
第四幅  鸿运当头    1500   598
from pandas import DataFrame
paints={"字画名称":{"第一幅":"旭日东升",
                "第二幅":"富水长流",
                "第三幅":"招财进宝",
                "第四幅":"鸿运当头"},
        "字画底价":{"第一幅":2860,
                "第二幅":498,
                "第三幅":1068,
                "第四幅":598},
        "字画拍卖加价":{"第一幅":1000,
                       "第二幅":2000,
                       "第三幅":500,
                       "第四幅":1500}}
goods_in=DataFrame(paints)
goods_in_indexes=goods_in.index
goods_in_indexes[1]="字画拍卖底价"
print(goods_in_indexes)
---------------------------------------------------------------------------

TypeError                                 Traceback (most recent call last)

Cell In[2], line 16
     14 goods_in=DataFrame(paints)
     15 goods_in_indexes=goods_in.index
---> 16 goods_in_indexes[1]="字画拍卖底价"
     17 print(goods_in_indexes)


File c:\Program Files\Python313\Lib\site-packages\pandas\core\indexes\base.py:5371, in Index.__setitem__(self, key, value)
   5369 @final
   5370 def __setitem__(self, key, value) -> None:
-> 5371     raise TypeError("Index does not support mutable operations")


TypeError: Index does not support mutable operations
from pandas import DataFrame
paints={"字画名称":["旭日东升","富水长流","招财进宝","鸿运当头"],
        "字画底价":[2860,498,1068,598],
        "字画拍卖加价":[1000,2000,500,1500]}
goods_in=DataFrame(paints,index=[["第一拍卖现场","第一拍卖现场","第二拍卖现场","第二拍卖现场"],
                                 ["第一幅","第二幅","第一幅","第二幅"]])
print(goods_in)
            字画名称  字画底价  字画拍卖加价
第一拍卖现场 第一幅  旭日东升  2860    1000
       第二幅  富水长流   498    2000
第二拍卖现场 第一幅  招财进宝  1068     500
       第二幅  鸿运当头   598    1500
from pandas import DataFrame
paints={"字画名称":["旭日东升","富水长流","招财进宝","鸿运当头"],
        "字画底价":[2860,498,1068,598],
        "字画拍卖加价":[1000,2000,500,1500]}
goods_in=DataFrame(paints,index=[["第一拍卖现场","第一拍卖现场","第二拍卖现场","第二拍卖现场"],
                                 ["第一幅","第二幅","第一幅","第二幅"]])
goods_in_indexes=goods_in.index
print(goods_in_indexes)
MultiIndex([('第一拍卖现场', '第一幅'),
            ('第一拍卖现场', '第二幅'),
            ('第二拍卖现场', '第一幅'),
            ('第二拍卖现场', '第二幅')],
           )
from pandas import DataFrame
paints={"字画名称":["旭日东升","富水长流","招财进宝","鸿运当头"],
        "字画底价":[2860,498,1068,598],
        "字画拍卖加价":[1000,2000,500,1500]}
goods_in=DataFrame(paints,index=[["第一拍卖现场","第一拍卖现场","第二拍卖现场","第二拍卖现场"],
                                 ["第一幅","第二幅","第一幅","第二幅"]])
goods_in_second=goods_in.loc["第二拍卖现场"]
print(goods_in_second)
print("--------------------------------------")
goods_in_second_one=goods_in.loc["第二拍卖现场","第一幅"]
print(goods_in_second_one)
     字画名称  字画底价  字画拍卖加价
第一幅  招财进宝  1068     500
第二幅  鸿运当头   598    1500
--------------------------------------
字画名称      招财进宝
字画底价      1068
字画拍卖加价     500
Name: (第二拍卖现场, 第一幅), dtype: object
### 如何在机器学习项目中使用 Pandas 进行数据处理 #### 导入必要库 为了有效地进行数据分析和预处理,在开始任何工作前,先要导入必要的 Python 库。对于大多数涉及结构化表格型数据的任务来说,Pandas 是不可或缺的选择。 ```python import pandas as pd from sklearn.preprocessing import StandardScaler ``` #### 数据获取与初步查看 一旦安装并引入了所需的软件包之后,下一步就是加载待分析的数据集。Pandas 支持从多个源读取数据,比如 CSV 文件、Excel 表格或是 SQL 查询的结果等[^4]。这里展示了一个简单的例子来说明如何通过 `read_csv` 函数载入本地存储的一个逗号分隔值文件: ```python # 从CSV文件加载数据 data = pd.read_csv('data.csv') ``` 完成数据加载后,可以调用 DataFrame 对象的方法快速浏览其基本信息,这有助于理解所面对的数据特性及其潜在质量问题。例如,可以通过如下方式获得前几条记录或统计描述信息: ```python print(data.head()) # 显示头部五行数据 print(data.describe()) # 提供数值列的基本统计数据摘要 ``` #### 缺失值检测及填充策略 实际应用中的原始数据往往存在不完整的情况,即某些观测点可能缺少部分特征值。针对这种情况,Pandas 提供了一系列手段帮助识别并解决这类问题。一种常见的做法是对含有 NaN 的位置采用均值填补法或其他更复杂的插补算法;另一种则是直接删除那些有问题的样本实例。 ```python # 检查是否有缺失值 missing_values = data.isnull().sum() # 填充缺失值 (此处假设用各列平均数代替) filled_data = data.fillna(data.mean()) # 或者选择移除含NA项的整行/列 cleaned_data = data.dropna() ``` #### 特征工程 除了清理异常外,还需要考虑创建新的变量或将现有字段转换成更适合建模的形式。此过程通常涉及到编码分类属性、标准化连续测量单位等工作。下面的例子展示了怎样运用 Scikit-Learn 中提供的缩放器对象对选定列实施零均值正态分布变换。 ```python scaler = StandardScaler() scaled_features = scaler.fit_transform(filled_data[['feature_1', 'feature_2']]) ``` 最后值得注意的是,虽然上述步骤已经涵盖了大部分典型场景下的准备工作,但在具体实践中还需根据实际情况调整方案细节,确保最终得到高质量输入供给后续模型训练环节。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值