数据分析-day02-numpy-Nan和inf

本文详细解析了在使用NumPy进行数据处理时,如何识别和处理不是数字(NaN)和无穷大(Inf)的情况。文章介绍了NaN和Inf的特性,如NaN与任何值比较都不相等,Inf的产生原因等,并提供了实用的代码示例,包括如何判断、计数、替换或删除这些特殊值。

1.nan(NAN,Nan):not a number表示不是一个数字,当我们读取本地的文件为float的时候,如果有缺失,就会出现nan
2.当做了一个不合适的计算的时候(比如无穷大(inf)减去无穷大)
3.两个nan是不相等的
4.nan与任何值计算都为nan
5.判断数字是否为nan,用np.isnan(x)
6.判断含有nan的个数用np.count_nonzero(e!=e)
7.比如,全部替换为0后,替换之前的平均值如果大于0,替换之后的均值肯定会变小,所以更一般的方式是把缺失的数值替换为均值(中值)或者是直接删除有缺失值的一行


# -*- coding: utf-8 -*-

# @File    : numpy_nan_inf_demo.py
# @Date    :  2019-12-30 19:04
# @Author  : admin
import numpy as np
t=np.arange(24).reshape(4,6)
print(t)
print(type(t))
#表达的意思是:矩阵中的元素如果大于20,则替换成1,否则替换成0,相当于三目运算符
c=np.where(t>20,1,0);
print(c)
print("===================裁切======")
#裁切,表达的意思为:小于10则替换成10,大于等于18,则替换成18
d=t.clip(10,18)
print(d)
print("===================设置nan======")
'''
1.nan(NAN,Nan):not a number表示不是一个数字,当我们读取本地的文件为float的时候,如果有缺失,就会出现nan
2.当做了一个不合适的计算的时候(比如无穷大(inf)减去无穷大)
3.两个nan是不相等的
4.nan与任何值计算都为nan
5.判断数字是否为nan,用np.isnan(x)
6.判断含有nan的个数用np.count_nonzero(e!=e)
7.比如,全部替换为0后,替换之前的平均值如果大于0,替换之后的均值肯定会变小,所以更一般的方式是把缺失的数值替换为均值(中值)或者是直接删除有缺失值的一行
'''
#将元素为10的则替换成nan,否则为1,不改变原矩阵中元素的值,而是另开辟一个矩阵将修改后的结果赋值给它
e=np.where(d==10,np.nan,1)
print(e)
print("判断nan的个数",np.count_nonzero(e!=e))
print("判断nan的个数",np.count_nonzero(e[e!=e]))
#设置为判断数据元素是否为nan,对nan赋值,之间修改原矩阵中元素的值
e[np.isnan(e)]=44
print(e)

print("===================设置inf======")
'''
inf(-inf,inf):infinity,inf表示正无穷,-inf表示负无穷,比如一个数字除以0,(python中直接会报错,numpy中是一个inf或者-inf)

'''
e=np.where(d==10,np.inf,1)
print(e)

 

### Python在校园消费数据分析与行为预测中的应用 #### 使用Python进行校园消费数据分析 Python 是一种功能强大且灵活的语言,在数据科学领域具有广泛的应用。对于校园消费数据分析,可以借助 Pandas NumPy 这样的库来加载、清洗转换数据[^1]。这些工具能够高效地处理大规模的交易记录并提取有意义的信息。 ```python import pandas as pd import numpy as np # 加载校园消费数据 data = pd.read_csv('campus_consumption_data.csv') # 数据预处理:缺失值填充、异常检测等 data.fillna(method='ffill', inplace=True) data.replace([np.inf, -np.inf], np.nan, inplace=True) # 特征工程:创建新的特征用于后续分析 data['day_of_week'] = pd.to_datetime(data['date']).dt.dayofweek ``` #### 基于机器学习的行为预测 为了实现对学生消费行为的预测,可以选择监督学习方法如逻辑回归、随机森林支持向量机 (SVM)[^2]。此外,还可以尝试无监督学习技术比如聚类算法 K-Means 或 DBSCAN 来发现隐藏模式或分组信息。 以下是构建简单线性回归模型的一个例子: ```python from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression from sklearn.metrics import mean_squared_error X = data[['amount_spent_last_month', 'frequency_of_visits']] y = data['next_month_spend'] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) model = LinearRegression() model.fit(X_train, y_train) predictions = model.predict(X_test) mse = mean_squared_error(y_test, predictions) print(f'Mean Squared Error: {mse}') ``` #### 可视化分析结果 Matplotlib Seaborn 库可以帮助生成直观易懂的图表展示趋势变化或者分类分布情况。这一步骤有助于管理者理解复杂的数据关系,并据此制定更有效的营销政策或资源分配方案。 ```python import matplotlib.pyplot as plt import seaborn as sns sns.scatterplot(x=y_test, y=predictions) plt.xlabel('Actual Spend') plt.ylabel('Predicted Spend') plt.title('Comparison of Actual vs Predicted Student Spending') plt.show() ``` #### 结合大数据框架扩展能力 当面对更大规模的数据集时,考虑引入 Spark 等分布式计算环境可能是必要的选择之一。它允许跨多个节点执行任务从而加快运算速度同时保持良好的可伸缩性能[^2]。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值