- 博客(16)
- 收藏
- 关注
原创 NLP中的语言模型
NLP中的语言模型 语言模型是自然语言处理领域非常重要的模型,简单来讲,就是用来计算句子概率的模型。那么句子概率又是怎么算的呢?我们知道词构成句。在自然语言处理中,通常以词作为基本单位,把句子称为由词按照一定的规则组成的词的序列。不妨设一个句子为: 这样,这个句子便是由n个词组成的词序列。那么这个句子的概率,可以表示如下: 这就是n-gra...
2018-03-03 11:24:12
1032
原创 sql server搭建神经网络模型
sql server搭建神经网络模型 在前面的几篇博文中,已经介绍了决策树和朴素贝叶斯模型,这两类模型在机器学习中具有非常重要的地位,属于经典的机器学习十大算法中的内容,今天介绍的算法是神经网络模型,这里对于原理不再介绍,读者可以了解其它博文,这里只介绍它在sql server中如何搭建。神经网络模型是目前比较火的深度学习的基础,而在sql server中神经网络模型所用到的算法是反...
2018-03-03 08:12:35
1766
1
原创 zipf定律与相似性度量
zipf定律与相似性度量 Zipf定律指出,在文本中,标识符出现的频率与其在排序列表中的排名或位置成反比。这个定律描述了标识符在文本中是如何分布的,即一些标志符出现的频次很大,另一些出现的频次较低,还有一些基本不出现。它是自然语言处理中,非常重要的一个定律,它的数学语言可以这样描述:在给定的语料库里,对于任意的一个term,它的频度f与这个频度在语料库中的排名r的乘积近似一个常数。即...
2018-03-02 19:17:13
1971
原创 sql server 创建bayes模型
sql server 创建bayes模型 本文介绍用sql server 创建bayes模型来对上次的数据进行分析,关于数据,请参见博文http://blog.youkuaiyun.com/WQ963369/article/details/79386603。好了话不多说,直接搞起。 首先在"sql server BI"中建立项目,建立数据源,如果不会创建,请参见博文http://blog.csdn.n...
2018-03-01 10:16:03
943
原创 sql server 建立决策树模型
sql server 建立决策树模型 在之前的系列中,介绍了如何导入数据源,不论是excel文件还是其它的数据源,都可以作为我们的数据来源来导入,那么,本文就根据之前导入的数据在sql server 建立决策树模型,并且对测试数据进行结果预测,原理部分,请参看其他博文,和前面一样,仍然采用截图的方式来描述过程。 在"BI"里面建立一个决策树项目,在”视图“选项下打开”解决...
2018-02-28 11:47:16
3940
2
原创 sql server 导入excel数据表
sql server 导入excel数据表 之前谈到过在sql server中对用户的购买记录做过关联分析,数据来源是来自sql server数据库,但有的时候,数据源来自于其他文件,比如excel文件,这时候要想对数据作分析(这里指的是利用sql server BI工具)就需要把我们的excel数据表导入到sql server中,只有这样,在我们创建数据源的时候,才能够从数据库中获...
2018-02-27 13:43:36
7921
原创 通俗理解HMM
通俗理解HMM HMM是隐马尔可夫模型(Hidden Markov Model)的简写,隐马尔可夫模型是一种非常重要的机器学习模型,它以概率为背景,在科学研究与工程实践方面有着非常重要的地位,尤其是在自然语言处理领域。在自然语言处理领域,常用于标注问题,它描述由隐藏的马尔可夫链随机生成观测序列的过程,是一种生成模型,而且,它不仅可以用于自然语言处理领域,对于机器学习其他领域的应用也是...
2018-02-26 17:15:39
1671
原创 利用SQL Server进行关联分析
利用SQL Server进行关联分析 前一节介绍了数据仓库的构建,本节介绍如何利用SQL Server数据库进行关联分析,数据仍然采用上次构建数据仓库时所使用的数据,讲述方式仍然采取截图的方式,之前作者已经在word中有所记录,因此本文直接截图,同样本文不作原理的介绍,相对原理有所了解,可以看作者相关的博文,话不多说,直接开始。接上节第四个需求分析结果:这便是采用SQL Server数...
2018-02-26 10:35:24
5227
1
原创 sql server下的数据仓库的构建
SQL Server2008/R2 下的数据仓库的构建 本文详细介绍在SQL Server下如何做数据仓库的构建和如何利用数据仓库进行有效的分析,假设读者已经具备相关的理论知识,由于在SQL Server上都是实践过程,因此主要以截图来展示,这样做的好处是读者可直接按照该步骤进行操作,由于之前作者是写在word中的,因此直接截图,好了,话不多说,直接开始。 上面的全部内容是利用数据仓库...
2018-02-26 10:08:55
16054
9
原创 linux ubuntu16.04下安装wps
linux ubuntu16.04下wps的安装 在linux下有自带的办公软件,但是很多人习惯使用wps,因此,本文介绍linux下wps的安装。 首先进入wps官网社区,下载好wps安装包,在这里我下载的是wps-office_10.1.0.5672~a21_amd64.deb,下载完后,进入文件所在位置,做如下操作,便可安装: 安装完之后,打开软件会弹出一个...
2018-02-25 15:51:05
1884
原创 NLP Learn Practice(二)
NLP Learn Practice(二) 在上一次,学习了nltk的基本安装与使用,而且也介绍了对一个文本text做基本的分句,分词。那么在实际中对文本的处理远不止分句,分词,一个文本内容,我们感兴趣的词只是部分,对于一些词,由于介绍的是nltk,这里仍然以英文分词为例,比如人称代词"I、me、my等等,标点符号以及一些常见的动词,虚词之类的,对于我们对文本的内容的分析作用并不大,...
2018-02-24 23:03:19
377
原创 NLP learn practice(一)
NLP learn practice(一) 在自然语言处理领域,NLTK是以一个非常有名的自然语言处理工具包,因此,作为自然语言处理的研究者,这个工具的掌握是很有必要的。 首先,先介绍下NLTK这个工具包,NLTK全名Nature Language Toolkit,它是由宾夕法尼亚大学计算机和信息科学系开发。这个工具包有下面几个特点: ...
2018-02-24 15:43:51
369
原创 决策树之可视化windows与linux两个版本
决策树可视化决策树的编程实战使用鸢尾花卉数据集训练一棵决策树,并绘制出来:程序如下:'''使用鸢尾花卉数据集来训练决策树'''fromsklearn.datasetsimportload_irisfromsklearnimporttreeiris=load_iris()clf=tree.DecisionTreeClassifier()cl
2018-01-31 00:05:07
1088
原创 NLP初见
NLP简述自然语言语言处理(简称NLP)是目前应用最广的领域,从大的方面来看包括语音识别、语音合成、机器翻译、词性标注、实体识别、情感分析、推荐系统、信息检索、数据挖掘、文本分类、文本挖掘等领域。目前NLP技术的应用包括两种,一种是传统的机器学习技术,现在最新的技术是采用各种算法集成的技术;另一种是目前比较火的深度学习技术。比如在机器翻译(MT)方面,在最开始就利用的是传统的机器学习技术,
2018-01-26 15:59:20
403
原创 tensorflow可视化
tensorboard的使用 在tensorflow中,tensorflow是一种基于计算图的深度学习框架,但是在用tensorflow进行开发的过程中,尽管逻辑清晰,但是在程序的编写过程中,直观性并不怎么强,幸好,在谷歌团队开发tensorflow的同时,开发了其相应的可视化具:tensorboard,tensorboard极大的方便了程序设计人员对于机器学习算法逻辑的可再
2018-01-24 21:42:48
501
原创 监督学习之kNN原理解析
kNN算法原理剖析 一、kNN算法介绍 kNN算法是由著名学者Cover和Hart在1968年提出来的,是个相对其他算法来讲,比较早的算法,它的工作原理可以这样来理解:对于给定一个训练数据集,对于新的输入实例,在训练数据集中找到与这个新的实例最近的k个邻居,在这k个邻居中,有多数实例属于某个已知的类,那么把这个已知的类作为这个新实例所属的类别。也就是利用投票法(少数服从多
2017-11-10 20:22:02
1891
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人