
Machine Learning
文章平均质量分 68
sunfoot001
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
深入理解KNN算法
1. KNN是个"消极"算法, y = f(x1,x2,........xp, x),其中x1,x2,........xp是训练数据,x是待分类或回归查询实例,y是分类或回归结果. 整个过程中没有建立任何数学模型. 2. 与"积极"算法的一个关键差异: KNN可以为不同的待分类查询实例建立不同的目标函数逼近.3. KNN的唯一假设,函数f是平滑的.4. KNN算法的理论上限:原创 2016-09-11 10:47:08 · 2419 阅读 · 0 评论 -
CRF++学习
CRF有几个开源实现:pocketcrf, flexcrf 和crf++,目前感觉crf++在易用性,稳定性和准确性等综合方面的表现最好。CRF++到主页是“CRF++: Yet Another CRF toolkit”。我下载了 CRF++-0.54 source code, 根据主页到指示, 在Ubuntu下build 和 install.关于如何训练和测试CRF++,主页里有详细原创 2016-09-22 21:29:35 · 563 阅读 · 0 评论 -
Kaggle/Titanic python分析和建模
Titanic是Kaggle入门项目,本文跟随https://www.kaggle.com/startupsci/titanic/titanic-data-science-solutions学习。1.Workflow stages完整的流程分7步;当然,Kaggle已经提供了第1和第2步了;绝大部分都是数据整理工作,即所谓的“特征工程”,其中,通过画图来探索数据是必备技能。 其原创 2017-07-29 21:28:21 · 1082 阅读 · 0 评论 -
结构化数据上的机器学习大杀器XGBoost
转自: http://geek.ai100.com.cn/2017/05/26/1640XGBoost是一个机器学习算法工具,它的原理本身就并不难理解,而且你并不需要彻底搞懂背后的原理就能把它用得呼呼生风。它的威力有多强?自从2014年9月份在 Kaggle 的希格斯玻色子机器学习大赛中夺魁以来,XGBoost 与深度学习两个算法垄断了 Kaggle 大赛的大部转载 2017-07-31 23:09:07 · 398 阅读 · 0 评论 -
《Mining Text Data》阅读笔记---第1章 An Introduction to Text Mining
这是一本关于文本挖掘的很厚的英文电子书,看英文大部头,很容易边看边忘记。1.An Introduction to Text Mining1.1 介绍文本挖掘的三个问题:a. 主要的算法模型是什么?与其他数据挖掘的区别?b. 有哪些可用的工具和技术?(模型是形而上的,技术是形而下的)c. 有哪些关键的应用领域?文本挖掘的特点:a. 文本数据的高维度和稀疏性原创 2017-08-17 21:57:01 · 1129 阅读 · 0 评论 -
Machine Learning 务实----Applying deep learning to real-world problems
1. Pre-tuning method 在现实世界里应用ML,得到大量精确标注的数据是昂贵的。 如果只有少量精确标注的数据,pre-tuning method可以帮助提升最后训练模型的精度[1]。 First pre-tuning on cheap large datasets on related domain. Then fine-tuning on expensive well-l...原创 2018-07-14 19:51:26 · 332 阅读 · 0 评论