1. 筛选满足条件的行
# 筛选出pt在指定日期列表中的行
data = data[data['pt'].isin(date_list)]
# 取前50条,keep_col_list指定需要保留的字段
data = data.loc[data['flag'].isin([0,1]), keep_col_list][:50]
# 筛选出pt不在指定日期列表中的行 isnotin
data = data[(~data['pt'].isin(date_list))]
te = data.loc[-data['uid'].isin(tr['uid']), :]
# 保留满足指定条件的行
data = data[data['pt'] == '2020-11-28']
data = data[data['url'].notnull()]
# 多条件筛选用 &、| (选出flag不为0和1 且 score>=0.1的行)
data = data.loc[(~data['flag'].isin([0,1])) & (data['score'] >= 0.1), keep_col_list]
data = data.loc[(~data['flag'].isin([0,1])) & (data['score'] >= 0.1), :]
2. 追加行
# 新建一个DataFrame
result_df = pd.DataFrame(columns=['id', 'tags'])
# 追加一行
result_df = result_df.append([{'id': 11, 'tags': 'haha'}], ignore_index=True)
# 输出表头
print(list(result_df))
print(list(result_df.iloc[:, ].columns))
# ['id', 'tags']
3. 遍历行
# 遍历每行元素
for index, row in result_df.iterrows():
print('id: ', row['id'])
print('tags: ', row['tags'])
# ('id: ', 11)
# ('tags: ', 'haha')
4. 行标签
data.index = ['训练数据', '测试数据', '测试门槛召回数据', '占比', '原始打开用户', '优化打开用户']
5. 获取行
# 获取第一行
df.values[1]
# 获取第一行,第二列
df.values[1][2]
# 统计记录根据某字段去重后的长度
len(df['id'].unique())
博客围绕 Python 进行数据处理时的行操作展开,介绍了筛选满足条件的行、追加行、遍历行、行标签以及获取行等操作,这些操作在数据分析中十分关键,有助于高效处理数据。
1万+

被折叠的 条评论
为什么被折叠?



