- 博客(15)
- 资源 (15)
- 收藏
- 关注
原创 hive之分析窗函数(二)
这次介绍几个序列函数NTILE,ROW_NUMBER,RANK,DENSE_RANK 注意序列函数不支持WINDOWS字句,即rows between1.数据准备 参考上一篇文章,下面是结果: cookie1 2015-04-10 1cookie1 2015-04-11 5cookie1 2015-04-12
2017-08-16 00:40:22
484
原创 hive之分析窗函数
hive提供很多的分析函数,用于完成统计分析,之前一直没学习,最近有用到,特意来学习一下。其中感谢很多博客,提供了很多知识和信息。1.数据准备 drop table if exists table tmp.lxw1234;CREATE EXTERNAL TABLE tmp.lxw1234 ( cookieid string, createtime s
2017-08-15 19:31:54
699
转载 进化算法 遗传算法与粒子群算法之间的比较
转自: http://hanwangwang1989.blog.163.com/blog/static/168259017201431103649613/ 遗传算法(GA)作为一种经典的进化算法,自 Holland提出之后在国际上已经形成了一个比较活跃的研究领域. 人们对 GA 进行了大量的研究,提出了各种改进算法用于提高算法的收敛速度和精确性. 遗传算法采用选择,交叉,
2016-12-01 18:47:30
22533
1
转载 机器学习系列--LDA与PCA
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com。前言: 第二篇的文章中谈到,和部门老大一宁出去outing的时候,他给了我相当多的机器学习的建议,里面涉及到很多的算法的意义、学习方法等等。一宁上次给我提到,如果学习分类算法,最好从线性的入手,线性分类器最简单的就是LDA,它可以看做是简化版的SVM,如果想理
2016-11-04 10:39:24
781
原创 排序(2)-选择排序
1.基本思想对一个长度为i的数组进行i遍的遍历,第一遍遍历出最小的元素并将其与数组的第一个元素进行交换,然后再来进行第二遍遍历,再把次最小的元素与第二个元素交换,如此遍历n遍之后,就会将所有的元素从小到大排序出来了。2.举例这里举个简单的例子。5768 59 52 72 2896 33 24 19step1:找出最小的元素与第一个元素(57)交换,从68
2016-10-19 15:23:10
467
转载 K-means聚类
转自博客:http://blog.youkuaiyun.com/skyline0623/article/details/8154911#comments算法代码 Github传送门:K-MeansCluster@skyline0623数据聚类是对于静态数据分析的一门技术,在许多领域内都被广泛地应用,包括机器学习、数据挖掘、模式识别、图像分析、信息检索以及生物信息等。聚类是把相似的对象通
2016-10-16 15:55:50
1073
原创 NLP学习资料
目前开始做自然语言处理(Nature Language Processing,NLP),真的是小白一个呀,从最简单的开始总结。1.入门书籍(其实我不是都知道,也只是把别人的总结一下,为了自己以后能系统的学习)1)数学之美---吴军2)自然语言处理简明教程--冯志伟3)自然语言处理综论--Diniel Jurafsky4)自然语言处理的形式模型--冯志伟5)统计自然语言处理-
2016-10-10 20:42:51
1010
转载 深度学习 VS 传统的机器学习
原文地址:http://blog.youkuaiyun.com/u010167269/article/details/52642562由于和笔者的想法比较相同,特转载,以作记录,也供跟多人讨论自从 MIT Technology Review(麻省理工科技评论) 将 深度学习 列为2013 年十大科技突破之首。加上今年 Google 的 AlphaGo 与 李世石
2016-10-08 21:22:22
16543
原创 排序(1)-冒泡排序
1.基本概念 根据在排序过程中待排序的记录是否全部被放置在内存中,将排序分为内部排序和外部排序。内部排序是在排序整个过程中,待排序的所有记录全部 放置在内存中;外排序是由于排序的记录个数太多,不能同时放置在内存中,整个排序过程需要 在内外存之间多次交换数据才能进行。2.八大排序 下面讲述的八大排序,都是属于内部排序。具体如下图
2016-10-08 11:23:19
519
原创 svm的学习
1. 概述支持向量机(supportvector machine,svm)是一种被认为是效果最好的现成可用的分类算法之一。这个“现成”很重要,因为他在学术界和工业界都混得很好(而不同于有些算法,在抽象出来的模型里面很完美,但是在实际问题效果很差。)2. 间隔(几何间隔)对于上面第一个图,它们已经分的足够开,因此可以很容易在图中画出一条直线将2组数据分开,
2016-10-06 12:40:33
1730
原创 Trie树的学习
所写内容,是对自己所学知识的一个记录罢了。1.简介最近在做中国人名识别的时候,看到一篇文章是基于角色的人名识别,而角色字典中有2个角色是用双数组Tire树来建立的,当时没有看懂,于是来先学习Trie树。Trie树,又称字典树,单词查找树或者前缀树等,是一种快速 检索的多叉树结构。比如,英文字母的字典树是一个20叉树,数字的字典树是一个10叉树。字典树(Trie)可以保存一些字符串-
2016-10-06 11:22:32
674
support vector method for function approximation...
2015-12-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人