
数据挖掘
文章平均质量分 63
saohuoxiong
这个作者很懒,什么都没留下…
展开
-
机器学习模型评估与选择
机器学习模型评估与选择一下内容纯属个人理解,欢迎指正!一、误差与过拟合/欠拟合“误差”:学习器(模型)的实际预测输出与样本的真实输出之间的差异;分类问题:离散,0/1,他们的差异为预测输出与真实输出不同时为0或者1;用 错误率=输出不一致样本数/总输入样本数 衡量,反过来,也可以用 准确率= 一致样本数/总样本数 = 1-错误率回归问题:连续,[a,原创 2017-07-17 16:27:24 · 671 阅读 · 0 评论 -
从安卓手机ROOT提取微信聊天记录到利用Python进行词云分析全过程
从安卓手机ROOT提取微信聊天记录到利用Python进行词云分析全过程刚刚来到了2018年,正值女票生日将近。想想这一年来我俩的聊天记录也不少(导出后一看十个月的微信文字聊天记录将近8万条 ^-^),于是就有了将我们的聊天记录导出来制作成词云,或者分析一下她说的最多的一句话是什么?还打算做个预测模型,输入一个句子然后让模型预测下是她说的还是我说的,哈哈,想想还有点小激动呢。其中的一个难点在于微原创 2018-01-06 13:07:39 · 12657 阅读 · 5 评论 -
玩转聊天记录之利用朴素贝叶斯来预测某句话是谁说的
玩转聊天记录之预测某句话是谁说的上一篇介绍了如何导出微信聊天记录到制作词云的全过程,刚好最近学了朴素贝叶斯的词袋模型,于是,突发奇想,能否用朴素贝叶斯建模来预测:当输入一句话时,判断是我说的还是女票说的。1. 准备工作我和女票的聊天记录Python环境:pandas、jieba、numpy2. python代码实现首先说明一下,这里的朴素贝叶斯是自己实现的,灵活性原创 2018-01-07 15:06:23 · 1030 阅读 · 1 评论