
机器学习
文章平均质量分 92
IAMYDK
进军的coding
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
智源&计算所-互联网虚假新闻检测挑战赛
赛题的分析(Task 1): 1、任务:给定一个新闻事件的文本,判定该事件属于真实新闻还是虚假新闻。 2、方法:训练一个二分类器,判别新闻是真还是假。 一、数据预处理: a、样本数据观察: 训练集有38471条数据,每条数据有id、text、label三个字段,其中1代表正例 (真),0代表负例(假) b、数据清洗: 1、生成训练词向量的数据 2、去掉训练样本里的无意义的噪音,例如:url...原创 2019-10-19 10:04:50 · 3467 阅读 · 10 评论 -
机器学习算法——决策树
决策树算法理论篇 1、决策树直观理解: 假设,已知10人房产、婚姻、年收入以及能否偿还债务的样本,那么第11个人来,知其房产、婚姻、以及年收入情况,问他是否能偿还债务? 2、前置知识: 理解决策树,我们必须知道一下概念: 信息熵:描述系统的不确定度,熵越高,代表系统越混乱,包含的信息量也就越多,其公式: 例(计算前10个样本能否还债y的信息熵):-0.7log2(0.7)- 0.3log2(0...原创 2019-03-26 13:25:02 · 398 阅读 · 0 评论 -
基于SVM+LR的新闻的情感分析(完整的一个项目流程)
一、数据来源: 爬取了新浪财经的新闻数据,大约30万篇文章(很遗憾全是未标记数据) 二、数据标记:原创 2019-07-28 10:54:04 · 3316 阅读 · 3 评论