RFM模型（扩展）

最新推荐文章于 2024-07-13 16:53:39 发布

原创最新推荐文章于 2024-07-13 16:53:39 发布 · 920 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#数据分析 #数据挖掘 #AARRR #RFM #python

Python 专栏收录该内容

67 篇文章

订阅专栏

知识一：df.map() 方法

我们先来看一下下面这个问题。

现在想继续处理第 6 题中的某男子私立大学三名延毕学生数据，因为学校有规定挂科次数和旷课次数加起来超过 50 次的会开除学籍。

现在我们不想看到总次数，而是想把大于 50 次的次数换成开除，其他的换成延毕，如下图：

我们可以用 df.replace() 方法解决，代码如下：

# 某男子私立大学三名延毕学生数据
df_6 = pd.DataFrame({'姓名': ['零某某', '徐放牛', '文学'],
                    '性别': ['男', '男', '男'],
                    '专业': ['生物信息', '人工智能', '电子竞技'],
                    '挂科次数': ['7', '5', '4'],
                    '旷课次数': [45, 44, 30],
                    '总次数': [52, 49, 34]})
                        
# 把总次数大于50次的值换成“开除”，其他的换成“延毕”
df_6['总次数'] = df_6['总次数'].replace({52: '开除', 49: '延毕', 34: '延毕'})

# 查看数据
df_6

但是当数据量稍微多一点的时候这个方法就有点行不通了，我们可能需要通过其他方法来解决这个问题。

df.map() 方法就是一个不错的选择，我们来看看 df.map() 是怎么解决这个问题的，代码如下：

# 某男子私立大学三名延毕学生数据
df_7 = pd.DataFrame({'姓名': ['零某某', '徐放牛', '文学'],
                    '性别': ['男', '男', '男'],
                    '专业': ['生物信息', '人工智能', '电子竞技'],
                    '挂科次数': ['7', '5', '4'],
                    '旷课次数': [45, 44, 30],
                    '总次数': [52, 49, 34]})

# 先定义一个函数
def map_judge(x):
    if x >= 50:
        return "开除"
    else:
        return "延毕"

# 将函数 map_judge 作为参数传入 df.map()
df_7['总次数'] = df_7['总次数'].map(map_judge)

# 查看数据
df_7

df_7['总次数'] = df_7['总次数'].map(map_score) 可以理解为 df.map() 方法将 df['总次数'] 这一列的每个数据作为 x 传入到 map_judge 函数中。

再对每一个数据进行判断、替换。也就是 df.map() 方法可以使用自定义函数按条件批量替换数据，比起 df.replace() 方法更加灵活。

# 某男子私立大学三名延毕学生数据
df_8 = pd.DataFrame({'姓名': ['零某某', '徐放牛', '文学'],
                    '性别': ['男', '男', '男'],
                    '专业': ['生物信息', '人工智能', '电子竞技'],
                    '挂科次数': ['7', '5', '4'],
                    '旷课次数': [45, 44, 30],
                    '总次数': ['开除', '延毕', '延毕']})

# 先定义一个函数
def map_amount(x):
    if x>=40:
        return '多'
    else:
        return '少'

# 将函数作为参数传入df.map()
df_8['旷课次数'] = df_8['旷课次数'].map(map_amount)

# 查看数据
df_8