
Machine Learning
海天一树
信息学奥赛研究。
展开
-
机器学习中的梯度下降法
机器学习中的大部分问题都是优化问题,而绝大部分优化问题都可以使用梯度下降法(Gradient Descent)处理,那么搞懂什么是梯度,什么是梯度下降法就非常重要。 提到梯度,就必须从导数(derivative)、偏导数(partial derivative)和方向导数(directional derivative)讲起,弄清楚这些概念,才能够正确理解为什么在优化问题中使用梯度下降法来优化目标函...原创 2018-04-17 18:33:27 · 254 阅读 · 0 评论 -
Kaggle泰坦尼克号船难--逻辑回归预测生存率
一、题目https://www.kaggle.com/c/titanic二、编程环境准备(一)操作系统:Win 10(二)编程语言:Python 3.6 Win 10安装Python 3.6(三)需要的库:numpy + pandas + matplotlib + sklearn Win 10安装numpy、pandas、scipy、matplotlib和skle...原创 2018-05-13 17:04:34 · 4681 阅读 · 0 评论 -
LDA文档主题生成模型入门
一、LDA简介LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。 LDA是一种非监督机器学习技术,可以用来识...原创 2018-05-22 11:46:07 · 3524 阅读 · 2 评论 -
结巴中文分词介绍
Python中分分词工具很多,包括盘古分词、Yaha分词、Jieba分词、清华THULAC等。它们的基本用法都大同小异,这里先了解一下结巴分词。一、安装pip install jieba若使用PyCharm,从左上角的File–>Setting–>Project:工程名–>Project Interpreter,点击右侧的“+”,在弹出界面的搜索栏中输入“ji...原创 2018-05-24 09:48:58 · 39609 阅读 · 1 评论 -
使用scikit-learn计算文本TF-IDF值
一、TF-IDF介绍(一)术语介绍TF-IDF(Term Frequency-InversDocument Frequency)是一种常用于信息处理和数据挖掘的加权技术。该技术采用一种统计方法,根据字词的在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。它的优点是能过滤掉一些常见的却无关紧要本的词语,同时保留影响整个文本的重要字词。计算方法如下面公式所...原创 2018-05-30 22:08:36 · 4471 阅读 · 1 评论 -
LDA处理文档主题分布
这篇文章主要是讲述如何通过LDA处理文本内容TXT,并计算其文档主题分布。 在了解本篇内容之前,推荐先阅读相关的基础知识: LDA文档主题生成模型入门 结巴中文分词介绍 爬取百度百科5A景点摘要并实现分词 使用scikit-learn计算文本TF-IDF值一、完整程序from sklearn import feature_extractionfrom sklearn.f...原创 2018-05-31 18:37:09 · 7178 阅读 · 5 评论 -
决策树
一、 决策树简介决策树是一种特殊的树形结构,一般由节点和有向边组成。其中,节点表示特征、属性或者一个类。而有向边包含有判断条件。如图所示,决策树从根节点开始延伸,经过不同的判断条件后,到达不同的子节点。而上层子节点又可以作为父节点被进一步划分为下层子节点。一般情况下,我们从根节点输入数据,经过多次判断后,这些数据就会被分为不同的类别。这就构成了一颗简单的分类决策树。二、 相关知...原创 2018-08-03 22:31:44 · 374 阅读 · 0 评论 -
决策树实现鸢尾花三分类
一、 数据集Iris(鸢尾花)数据集是多重变量分析的数据集。 数据集包含150行数据,分为3类,每类50行数据。 每行数据包含4个属性:Sepal Length(花萼长度)、Sepal Width(花萼宽度)、Petal Length(花瓣长度)和Petal Width(花瓣宽度)。可通过这4个属性预测鸢尾花卉属于三个种类(Setosa,Versicolour,Virginica)中的哪一...原创 2018-08-06 13:28:47 · 5119 阅读 · 1 评论 -
Precision, Recall, F-score, ROC, AUC
一、正样本和负样本正样本就是使系统得出正确结论的例子,负样本相反。 比如你要从一堆猫狗图片中检测出狗的图片,那么狗就是正样本,猫就是负样本;反过来你若是想检测出猫的图片,那么猫就是正样本,狗就是负样本。二、FN, FP, TN, TPFN:False Negative,被判定为负样本,但事实上是正样本。也叫假阴性。 FP:False Positive,被判定为正样本,但事实上是...原创 2018-08-03 10:15:43 · 934 阅读 · 0 评论 -
某公司自然语言处理算法笔试题
1 请列出几种文本特征提取算法答:文档频率、信息增益、互信息、X^2统计、TF-IDF2 简述几种自然语言处理开源工具包答:LingPipe、FudanNLP、OpenNLP、CRF++、Standord CoreNLP、IKAnalyzer3 简述无监督和有监督算法的区别答: (1)有监督学习:对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进...原创 2018-04-02 22:59:57 · 4820 阅读 · 0 评论 -
Kaggle-Digit Recognizer kNN解决方案
一、题目https://www.kaggle.com/c/digit-recognizer二、kNN算法请参考https://www.jianshu.com/p/dddd1c348553三、代码编程语言使用python 3.6from numpy import *import operatorimport csvimport pdbdef toInt(...原创 2018-04-02 11:56:16 · 362 阅读 · 0 评论 -
深度学习框架TensorFlow的基本介绍和安装
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl原创 2017-09-08 20:04:34 · 813 阅读 · 0 评论 -
机器学习(二):有监督学习、无监督学习和半监督学习
一、基本概念1 特征(feature) 数据的特征。举例:书的内容2 标签(label) 数据的标签。举例:书属于的类别,例如“计算机”“图形学”“英文书”“教材”等。3 学习(learning) 将很多数据丢给计算机分析,以此来训练该计算机,培养计算机给数据分类的能力。换句话说,学习指的就是找到特征与标签的映射(mapping)关系。这样当有特征而无标签的未知数据输入时,我们就可以通过已有的原创 2017-09-10 23:55:52 · 20927 阅读 · 3 评论 -
用Tensorflow实现卷积神经网络CNN
一、数据准备实验数据使用MNIST数据集。 MNIST 数据集已经是一个被”嚼烂”了的数据集, 很多教程都会对它”下手”, 几乎成为一个 “典范”。在很多tensorflow教程中,用下面这一句下载mnist数据集:mnist = input_data.read_data_sets('MNIST_data', one_hot=True) 但实际运行时根本无法通过网络下载,解...原创 2018-04-08 10:10:25 · 414 阅读 · 0 评论 -
用机器学习方法从症状预测疾
一、编程环境Win10 Python3.6 Jupyter Notebook Graphviz (简介和安装请参考https://www.jianshu.com/p/b559dc689b7f)二、数据源http://people.dbmi.columbia.edu/~friedma/Projects/DiseaseSymptomKB/index.html 把这个网址里的数据...原创 2018-08-18 22:35:31 · 1103 阅读 · 0 评论