
机器学习
文章平均质量分 63
x_bessie
这个作者很懒,什么都没留下…
展开
-
python 长文本分析——testrank
python 文本分析功能:摘取文章词语,重点短语,重点句子环境: pyhton3.6工具库:textrank``jieba``numpy方法介绍(重点):testrank 的算法来自于pagerank说人话就是,先把文章的句子拆分,然后对每一句都标注,对每一句生成一个无向图,然后无向图会有一个相似度的打分,也就是说两个句子有相似性,那么认为这两个句子对应的节点之间存在一条无向有...原创 2018-12-03 16:55:06 · 1982 阅读 · 2 评论 -
NLP之word2vec用法
NLP之word2vec用法导入词向量模型,并查找词的相关性import gensim# 导入模型 #谷歌3.4G#model_path='GoogleNews-vectors-negative300.bin'#斯坦福0.94Gmodel_path='glove.twitter.27B.200d.bin'model = gensim.models.KeyedVectors.loa...原创 2018-12-13 16:44:46 · 332 阅读 · 0 评论 -
统计学习基本三要素----基础知识
统计学习三要素方法=模型+策略+算法模型:1.决策函数的集合2.参数空间3.条件概率的集合4.参数空间策略:损失函数风险函数O-1损失函数平方损失函数绝对损失函数对数损失函数损失函数的期望经验风险提醒:经验风险最小化与结构风险最小化当样本容量很小时,会有过拟合。结构风险最小化,防止过拟合提出的策略。等价于正则化。最优模型就是求解最优化问题。算法:如果最优化...原创 2019-05-20 11:46:42 · 1013 阅读 · 0 评论