机器学习:利用朴素贝叶斯根据人员姓名预测性别及拉普拉斯平滑处理

这篇博客介绍了如何使用朴素贝叶斯算法根据人员姓名预测性别,通过拉普拉斯平滑处理零概率问题,提高预测准确性。首先,博主展示了数据集的结构,并导入相关模块。接着,数据被读取并按性别分类。然后,计算每个汉字在男性和女性名字中出现的概率。最后,应用拉普拉斯平滑解决零概率问题,从而实现更准确的性别预测。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本篇博客利用朴素贝叶斯根据人员姓名来作性别预测,代码实现并不复杂。

准备

  1. 使用的数据集结构(共120000条数据):
    . 在这里插入图片描述
    该数据集已上传至优快云https://download.youkuaiyun.com/download/smile_shujie/11051825

  2. 导入模块:

    import pandas as pd
    import math
    from collections import defaultdict

读取数据

train=pd.read_csv('train.txt') 
train.head(5)

这里只展示出前五条,效果:
在这里插入图片描述

根据性别进行分类

names_female=train[train['gender']==0]
names_male=train[train['gender']==1]
print(names_female.head(2
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值