本篇博客利用朴素贝叶斯根据人员姓名来作性别预测,代码实现并不复杂。
准备
-
使用的数据集结构(共120000条数据):
.
该数据集已上传至优快云:https://download.youkuaiyun.com/download/smile_shujie/11051825 -
导入模块:
import pandas as pd
import math
from collections import defaultdict
读取数据
train=pd.read_csv('train.txt')
train.head(5)
这里只展示出前五条,效果:
根据性别进行分类
names_female=train[train['gender']==0]
names_male=train[train['gender']==1]
print(names_female.head(2