一、文本预处理
1.格式问题,比如删空格,删换行符等。
2.用 jieba 模块进行分词
二、建立向量空间模型
1.加载商品标题,把每一个标题都作为一个分类。
2.建立tf-idf模型,输入到模型进行训练,
贝叶斯算法
3.代码实现
def load_bot(self): # 加载商品标题
sql = "select question,answer from robot"
self.result = MySQL.mysql_test(sql)
# print(len(self.result))
if len(self.result) > 0:
try:
x_cut_data = []
self.y_cut_data = []
i = 0
while i < len(self.result):
# print(self.result[i])
content = jieba.cut(self.result[i][0])
x_cut_data.append(" ".join(content))
self.y_cut_data.append(i)