python用pandas提取行列_python- pandas 不删除符合条件的行和列

博主正在构建一个回归模型,目标是根据评论中的单词预测收视率。他们首先创建了一个词频矩阵,并试图删除出现频率低于50次的列以及Rating值为NaN的行。然而,当前的代码实现存在问题,导致单词只出现一次就被删除。博客内容涉及到数据预处理、特征选择以及处理缺失值的方法。
部署运行你感兴趣的模型镜像

我正在尝试建立一个回归模型,以便根据出现的单词来预测收视率(1-5)(回归本身并不一定表现良好,更多的是关于所采用的方法).

我使用以下代码创建了一个词频矩阵:

bow = df.Review2.str.split().apply(pd.Series.value_counts)

看起来像这样:

fd13c76881782285f0c2062a06f1dffa.png

我现在有兴趣删除在整个评论中很少出现的列(单词).此外,我只想迭代不具有NaN的Rating值的评论(行).

这是我的尝试:

# Delete row if Rating less than 1

for index, row in df.iterrows():

if (df.Rating[index] < 1):

bow.drop(bow.index[index], axis=0, inplace = True)

# Delete column if word occurs less than 50 times

sum1 = bow.sum(axis=0)

cntr = 0

for i in sum1:

if (i < 50):

bow.drop(bow.index[cntr], axis=1, inplace = True)

cntr += 1

这似乎没有用,因为它使单词只出现一次.

编辑:

这是我的稀疏 dataframe ,包含单词的出现.

Col->话;

行->句子(项目的评论)(我有1.5k项,因此有1.5k行)

hi this are just some random words I don t ... zing zingy zingzang

0 1.0 NaN 1.0 1.0 1.0 NaN NaN NaN NaN NaN ... NaN NaN NaN

1 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN

2 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN

3 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN

4 NaN NaN NaN NaN NaN NaN NaN NaN NaN 1.0 ... NaN NaN NaN

评分是我原始数据帧中的一列,其中包含[1,5]范围内的整数或NaN

您可能感兴趣的与本文相关的镜像

Langchain-Chatchat

Langchain-Chatchat

AI应用
Langchain

Langchain-Chatchat 是一个基于 ChatGLM 等大语言模型和 Langchain 应用框架实现的开源项目,旨在构建一个可以离线部署的本地知识库问答系统。它通过检索增强生成 (RAG) 的方法,让用户能够以自然语言与本地文件、数据库或搜索引擎进行交互,并支持多种大模型和向量数据库的集成,以及提供 WebUI 和 API 服务

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值