yezi_1026-优快云博客

原创 hive之分析窗函数(二)

这次介绍几个序列函数NTILE,ROW_NUMBER,RANK,DENSE_RANK 注意序列函数不支持WINDOWS字句，即rows between1.数据准备参考上一篇文章，下面是结果： cookie1 2015-04-10 1cookie1 2015-04-11 5cookie1 2015-04-12

2017-08-16 00:40:22 484

原创 hive之分析窗函数

hive提供很多的分析函数，用于完成统计分析，之前一直没学习，最近有用到，特意来学习一下。其中感谢很多博客，提供了很多知识和信息。1.数据准备 drop table if exists table tmp.lxw1234;CREATE EXTERNAL TABLE tmp.lxw1234 ( cookieid string, createtime s

2017-08-15 19:31:54 699

原创 java解析json数据

java解析json

2017-02-03 18:21:13 893

转载进化算法遗传算法与粒子群算法之间的比较

转自： http://hanwangwang1989.blog.163.com/blog/static/168259017201431103649613/ 遗传算法(GA)作为一种经典的进化算法，自 Holland提出之后在国际上已经形成了一个比较活跃的研究领域. 人们对 GA 进行了大量的研究，提出了各种改进算法用于提高算法的收敛速度和精确性. 遗传算法采用选择，交叉，

2016-12-01 18:47:30 22533 1

原创排序（3）--快速排序

快速排序

2016-11-15 19:42:08 462

原创逻辑回归及相关问题的总结

逻辑回归

2016-11-10 21:39:01 2622 1

转载机器学习系列--LDA与PCA

2016-11-04 10:39:24 781

原创排序（2）-选择排序

1.基本思想对一个长度为i的数组进行i遍的遍历，第一遍遍历出最小的元素并将其与数组的第一个元素进行交换，然后再来进行第二遍遍历，再把次最小的元素与第二个元素交换，如此遍历n遍之后，就会将所有的元素从小到大排序出来了。2.举例这里举个简单的例子。5768 59 52 72 2896 33 24 19step1:找出最小的元素与第一个元素（57）交换，从68

2016-10-19 15:23:10 467

转载 K-means聚类

转自博客：http://blog.youkuaiyun.com/skyline0623/article/details/8154911#comments算法代码 Github传送门：K-MeansCluster@skyline0623数据聚类是对于静态数据分析的一门技术，在许多领域内都被广泛地应用，包括机器学习、数据挖掘、模式识别、图像分析、信息检索以及生物信息等。聚类是把相似的对象通

2016-10-16 15:55:50 1073

原创 NLP学习资料

目前开始做自然语言处理（Nature Language Processing，NLP）,真的是小白一个呀，从最简单的开始总结。1.入门书籍（其实我不是都知道，也只是把别人的总结一下，为了自己以后能系统的学习）1）数学之美---吴军2）自然语言处理简明教程--冯志伟3）自然语言处理综论--Diniel Jurafsky4）自然语言处理的形式模型--冯志伟5）统计自然语言处理-

2016-10-10 20:42:51 1010

原创如何防止过拟合？与如何特征选择？

过拟合

2016-10-08 22:08:03 6317

转载深度学习 VS 传统的机器学习

原文地址：http://blog.youkuaiyun.com/u010167269/article/details/52642562由于和笔者的想法比较相同，特转载，以作记录，也供跟多人讨论自从 MIT Technology Review（麻省理工科技评论）将深度学习列为2013 年十大科技突破之首。加上今年 Google 的 AlphaGo 与李世石

2016-10-08 21:22:22 16543

原创排序（1）-冒泡排序

1.基本概念根据在排序过程中待排序的记录是否全部被放置在内存中，将排序分为内部排序和外部排序。内部排序是在排序整个过程中，待排序的所有记录全部放置在内存中；外排序是由于排序的记录个数太多，不能同时放置在内存中，整个排序过程需要在内外存之间多次交换数据才能进行。2.八大排序下面讲述的八大排序，都是属于内部排序。具体如下图

2016-10-08 11:23:19 519

原创 svm的学习

1. 概述支持向量机（supportvector machine，svm）是一种被认为是效果最好的现成可用的分类算法之一。这个“现成”很重要，因为他在学术界和工业界都混得很好（而不同于有些算法，在抽象出来的模型里面很完美，但是在实际问题效果很差。）2. 间隔（几何间隔）对于上面第一个图，它们已经分的足够开，因此可以很容易在图中画出一条直线将2组数据分开，

2016-10-06 12:40:33 1730

原创 Trie树的学习

所写内容，是对自己所学知识的一个记录罢了。1.简介最近在做中国人名识别的时候，看到一篇文章是基于角色的人名识别，而角色字典中有2个角色是用双数组Tire树来建立的，当时没有看懂，于是来先学习Trie树。Trie树，又称字典树，单词查找树或者前缀树等，是一种快速检索的多叉树结构。比如，英文字母的字典树是一个20叉树，数字的字典树是一个10叉树。字典树（Trie）可以保存一些字符串-

2016-10-06 11:22:32 674