文章目录
获取更多数模资料,请关注
公众号:快乐数模
小红书:学数模使我快乐
数据预处理是任何数据分析或机器学习项目中的关键步骤。它涉及各种任务,目的是将原始数据转换为干净可用的格式。正确准备的数据确保更准确、可靠的分析结果,从而做出更好的决策和有效的预测模型。近期的数据预处理章节将涵盖数据准备的关键方面,包括数据格式化、数据清洗、数据转换和数据抽样。
本篇是数据预处理之数据格式化。
一、在Pandas中格式化数据框的浮点列
呈现数据时,按所需的格式显示数据是一个关键部分。有时,值是如此大,以至于我们只想显示其中部分(或按照我们意愿显示固定格式)。
下面是使用 Python 在 Pandas 中格式化数字的各种方法。
1.1 将列值四舍五入到两位小数
代码示例:
import pandas as pd
data = {
'Month': ['January', 'February', 'March', 'April'],
'Expense': [21525220.653, 31125840.875, 23135428.768, 56245263.942]}
dataframe = pd.DataFrame(data, columns=['Month', 'Expense'])
print("Given Dataframe :\n", dataframe)
pd.options.display.float_format = '{:.2f}'.format #将数值设置为显示两位小数的字符串,不使用千位分隔符。
print('\nResult :\n', dataframe)
结果显示
1.2 使用逗号和小数精度的 Pandas DataFrame 格式
下面的代码使用 pandas 创建一个 DataFrame,即“products_dataframe”,其中包含产品名称及其各自的价格。它打印初始 DataFrame,然后用逗号设置“Price”列的格式,并将值四舍五入到两位小数。
import pandas as pd
data = {
'Product': ['Laptop', 'Phone', 'Tablet', 'Desktop'],
'Price': [1200.50, 799.99, 349.75, 1500.25]}
products_dataframe = pd.DataFrame(data, columns=['Product', 'Price'])
print("Given Dataframe :\n", products_dataframe)
pd.options.display.float_format = '{:,.2f}'.format
formatted_products = products_dataframe.copy()
formatted_products['Price'] = formatted_products['Price'].apply(lambda x: '{:,.2f}'.format(x)) #将浮点数转换为带逗号的字符串,保留两位小数,使用千位分隔符。
# Display the formatted DataFrame
print('\nResult :\n', formatted_products