自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 hashMap的遍历

今天写的一个算法中用到了hashMap,于是将其学习一下普通HashMap的遍历View Code含有HashMap的value是ArrayList时View Code

2015-08-26 16:06:36 447

原创 Java文件处理

Java中读取文件,去除一些分隔符,保存在多维数组里面View Code Java中读取写入到excel文件中去1.首先下载jxl.jar或者POI压缩包,将其解压,加入到classPath中(直接在工程文件上右击,点击build Path,选择add external architecture)import jxl.*import jxl.write.*首先是写入Excel文件中首先是创建可写的

2015-08-26 16:03:47 604

原创 ID3算法

ID3是数据挖掘分类中的一种(是一种if-then的模式),其中运用到熵的概念,表示随机变量不确定性的度量H(x)=-∑pi *log pi信息增益是指特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差g(D,A)=H(D)-H(D|A)其中H(Y|X)=∑pi H(Y|X=xi)Pi=P

2015-08-26 16:00:23 544

原创 数据挖掘之CART剪枝

与上篇文章中提到的ID3算法和C4.5算法类似,CART算法也是一种决策树分类算法。CART分类回归树算法的本质也是对数据进行分类的,最终数据的表现形式也是以树形的模式展现的,CART与ID3,C4.5所采用的分类标准是不同了。下面列出了其中的一些不同之处:1、CART最后形成的树是一个二叉树,每个节点会分成2个节点,左孩子节点和右孩子节点,于是这就要求CART算法在所选定的属性中

2015-08-26 15:59:09 1845

原创 Word2Vec之Deep Learning in NLP (一)词向量和语言模型

转自licstar,真心觉得不错,可惜自己有些东西没有看懂这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领域中应用的理解和总结,在此分享。其中必然有局限性,欢迎各种交流,随便拍。  Deep Learning 算法已经在图像和音频领域取得了惊人的成果,但是在 NLP 领域中尚未见到如此激动人心的结果。关于这个原因,引一条我比较赞同的微博。@王

2015-08-26 15:56:49 1491

原创 文本深度表示模型Word2Vec

文本深度表示模型Word2Vec简介Word2vec 是 Google 在 2013 年年中开源的一款将词表征为实数值向量的高效工具, 其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为 K 维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。Word2vec输出的词向量可以被用来做很多 NLP 相关的工作,比如聚类、找同义词、词性分析等等。如果换

2015-08-26 15:55:34 785

转载 自然那语言处理之深度学习word2vec笔记之应用篇

好不容易学了一个深度学习的算法,大家是否比较爽了?但是回头想想,学这个是为了什么?吹牛皮吗?写论文吗?参加竞赛拿奖吗?不管哪个原因,都显得有点校园思维了。站在企业的层面,这样的方式显然是不符合要求的,如果只是学会了,公式推通了,但是没有在工作中应用上,那会被老大认为这是没有产出的。没有产出就相当于没有干活,没有干活的话就……呃……不说了。下面就给大家弄些例子,说说在互联网广

2015-08-26 15:52:24 804

原创 数据挖掘之数据归一化处理

数据归一化和两种常用的归一化方法 数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是两种常用的归一化方法:一、min-max标准化(Min-

2015-08-26 15:51:10 1044

转载 数据挖掘之用户价值分析

谁在使用我的网站——用户忠诚和价值分析 前面介绍的都是一些用户的行为指标和用户细分,这里要介绍的是基于每个用户行为的综合性的分析和评定,主要包括用户的忠诚度和用户的价值。“以用户为中心”的理论要求网站不断优化改善用户的体验,进而提升用户的满意度,当用户的预期不断被满足时,用户就会喜欢上这个网站,进而发展成为网站的忠诚用户,同时不断地为网站输出价值。忠诚用户不但自身为网站创造价值

2015-08-26 15:47:45 9456

原创 数据挖掘之主题模型-LDA浅析

(一)LDA作用        传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。        举个例子,有两个句子分别如下:                “乔布斯离我们而去了。”                “苹果价格会不会

2015-08-26 15:45:51 2875

原创 Java之m2eclipse插件安装

一、给Eclipse安装maven的插件 m2eclipse 1 打开eclipse 2 Help -->Eclipse MarketPlace,在打开的界面搜索框中输入maven查找m2eclipse插件,出现如下图3、直接点击Install,选择Maven Integration for Eclipse,选择后confirm,选择I accept

2015-08-26 15:42:38 499

原创 数据挖掘之随即森林

随即森林的特点

2015-08-26 15:40:43 599

原创 word2vec的艰难成长史

自然语言处理的Python实现注意事项

2015-08-26 15:35:53 479

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除