
Data Mining & Machine Learning
文章平均质量分 79
蓝色枫魂
一个做音乐的程序员,欢迎关注公众号【比特猫BitTom】,聊聊音乐、技术和人生~
展开
-
特征选择与稀疏学习(Feature Selection and Sparse Learning)
本博客是针对周志华教授所著《机器学习》的“第11章 特征选择与稀疏学习”部分内容的学习笔记。在实际使用机器学习算法的过程中,往往在特征选择这一块是一个比较让人模棱两可的问题,有时候可能不知道如果想要让当前的模型效果更好,到底是应该加还是减掉一些特征,加又是加哪些,减又是减哪些,所以借着对这一章内容的学习,希望可以在文末解决这个疑惑。子集搜索与评价子集搜索subset search子集评价subs原创 2017-12-21 17:33:40 · 5921 阅读 · 0 评论 -
支持向量机(Support Vector Machine)
前言最优化目标Optimization Objective最大化边界的直觉Large Margin Intuition最大化边界分类的数学原理Mathematics Behind Large Margin Classification核Kernel前言相比logistic regression和neural network,SVM作为一种可以学习到复杂非线性模型的学习算法,也是效果非常强大的原创 2017-12-03 20:51:49 · 582 阅读 · 0 评论 -
图片OCR(Optical Character Recognition)
Photo OCR问题描述滑动窗口Sliding Windows获得大量数据和人工数据Getting Logs of Data and Artificial Data瓶颈分析需要攻克的环节Ceiling AnalysisWhat Part of the Pipeline to Work on NextPhoto OCR问题描述随着网络上的图片的数量越来越多,读取图片上的文字成为了一个日益增强的原创 2017-11-28 10:48:17 · 2672 阅读 · 0 评论 -
大规模机器学习(Large Scale Machine Learning)
在大数据集上进行学习Learning with Large Data Sets随机梯度下降Stochastic Gradient Descent小堆梯度下降Mini-Batch Gradient Descent保证随机GD的收敛与学习速率的选择在线学习Online LearningMap Reduce 和 数据并行化在大数据集上进行学习(Learning with Large Data S原创 2017-11-27 21:55:52 · 1067 阅读 · 0 评论 -
推荐系统(Recommender Systems)
基于内容的推荐Content-based recommendation问题表述问题范式协同过滤collaborative filtering问题引入最优化算法协同过滤的最优化目标协同过滤算法低阶矩阵因式分解Low Rank Matrix Factorization均值标准化Mean Normalization基于内容的推荐(Content-based recommendation)原创 2017-11-25 23:46:03 · 4068 阅读 · 0 评论 -
使用sklearn做单机特征工程(Performing Feature Engineering Using sklearn)
本文转载自使用sklearn做单机特征工程目录目录特征工程是什么数据预处理1 无量纲化11 标准化12 区间缩放法13 标准化与归一化的区别2 对定量特征二值化3 对定性特征哑编码4 缺失值计算5 数据变换6 回顾特征选择1 Filter11 方差选择法12 相关系数法13 卡方检验2 Wrapper21 递归特征消除法3 Embedded31 基于惩罚项的特转载 2017-12-25 18:33:46 · 607 阅读 · 0 评论 -
基于java版jieba分词实现的tfidf关键词提取
基于java版jieba分词实现的tfidf关键词提取文章目录基于java版jieba分词实现的tfidf关键词提取为了改善我的个性化新闻推荐系统的基于内容相似度的推荐算法效果,我尝试找寻关键词提取效果可能优于本来使用的ansj的tfidf的其它库,花了一番功夫后,发现tfidf算法本身并不复杂,但是训练tfidf的语料库可能才是性能的瓶颈,所以我找到了很有名的中文分词库jieba分词的语料库...原创 2018-10-21 23:04:00 · 6243 阅读 · 2 评论