这是我上课学到的,算是完成度比较高,所以想分享出来
这是自然语言技术的文本分类,我用的是斗罗大陆的语料,用了jieba进行分词,使用了贝叶斯模型进行拟合
import jieba
import pandas as pd
import numpy as np
#导入数据
raw = pd.read_table('E:\\斗罗大陆.txt',names=['txt'])
print(len(raw))
raw
#章节判断用变量预处理
def m_head(tmpstr):
return tmpstr[:1]
def m_mid(tmpstr):
return tmpstr.find('章 ')
raw['head'] = raw.txt.apply(m_head)
raw['mid'] = raw.txt.apply(m_mid)
raw['len'] = raw.txt.apply(len)
raw.head(50)
#章节判断
chapnum = 0
for i in range(len(raw)):
if raw['head'][i] == '第' and raw['mid'][i]>0