作者:alert or einyboy
摘要:贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文通过对男,女姓名集进行训练,利用贝叶斯分类器实现对给定姓名的姓名识别。
一、 问题提出
请问“张飞、赵云、关羽”是男是女的?“西施、貂蝉、王昭君、杨玉环”是男是女呢?我想有点文化的人都知道上面的答案。那么“张靓、林勇、林兰”的性别呢?显然多数人会是下面的答案:
张靓、木兰是女性。
林勇是男性。
人得出上面的答案并不用思考太久,这是一种普通共识行为。
那给计算机一个人的姓名,计算机能不能回答出这个人的性别呢?
二、 问题数学模型化
对于“那给计算机一个人的姓名,计算机能不能回答出这个人的性别呢?
”这样的问题我们先符号化,用N表示姓名,S表示性别,M代表男,F代表女。那么数学化为求下列两个条件概率的可能性:
P(S=M|Name) = ? P(S=F|N) = ?
那么这个人的性别为上面概率最大的一个。
怎么计算上面的概率呢?由贝叶斯定理得:
P(S=M|N),P(S=F|N)称为后验概率.
通过姓名训练集可以计算出下面的概率:
P(N|S=M),P(N|S=F),P(S=M),P(S=F)
P(S=M)=训练集中的男性姓名频数。
P(S=F)=训练集中的女性姓名频数。
三、 模型的进一步改进
上面的模型要多大的训练集才具有统计意义呢?这个问题只能通过实验数据进行验证。我们知道中国人的多数姓名有下面的规律:
1. 姓是家族相关的,对性别分类没有太多的帮助
2. 中间的名一般是家族一代的标识,也对性别分类没有太多的指导意义。
3. 名的最后一个字则是带了阴阳的,对分类有足够的意义
用LN代表姓名最后一个字,那么上面的模型变为:
四、 算法流程
1. 统计各姓名中最后一个字出现在男性集的概率P(LN|S=M)和出现在女性集的概率P(LN|S=F)
2. 计算男性姓名概率P(S=M)和女性姓名概率
3. 计算后验概率P(S=M|LN),P(S=F|LN)
4. 如果P(S=M|LN)>>P(S=F|LN) 则为男性,否则为女性
程序说明:
Male.txt是男性姓名集
Female.txt是女性姓名集
Statistics.txt 为相应的统计数据
相关程序:http://download.youkuaiyun.com/detail/huandaohack/3631175