- 博客(15)
- 资源 (1)
- 收藏
- 关注
原创 HIVE 自定义UDF并上传
HIVE 自定义UDF并上传 最近在做一些ABtest的 统计分析时,由于用户分组一般采用CRC32,或者MD5加密,然后进行均匀分组。采取这些方式分组时,能很好的随机分组,但是给后期的统计带来不便,一般要先拿device_id,然后写一个脚本,不太方便,尤其当数据量很大时,跑得十分缓慢。 HIVE的自定义UDF开发,能很好的解决这个问题。如下是自定义UDF开发及永久上传的
2016-05-20 19:20:05
1433
原创 数据挖掘与机器学习关系与区别
数据挖掘与机器学习关系与区别ps:本篇文章主要阐述最近在数据挖掘、机器学习等方面的学习心得,或许不太全面,仅供自己归纳总结。主要参照 周志华老师的:机器学习与数据挖掘 一文。有兴趣的可以自行百度,其文对人工智能、数据挖掘、机器学习等演变历程,有详细介绍。一、概念定义机器学习:广泛的定义为 “利用经验来改善计算机系统的自身性能。”,事实上,由于“经验”在计算机系统中主要是以数据的形式
2016-01-07 15:36:22
14368
1
转载 数据挖掘 学习路线(转)
ps:最近准备着手学习一下数据挖掘相关的知识,这篇文章是一个引子,仅供参考。学习一门技术要和行业靠拢,没有行业背景的技术如空中楼阁。技术尤其是计算机领域的技术发展是宽泛且快速更替的(十年前做网页设计都能成立公司),一般人没有这个精力和时间全方位的掌握所有技术细节。但是技术在结合行业之后就能够独当一面了,一方面有利于抓住用户痛点和刚性需求,另一方面能够累计行业经验,使用互联网思维跨界让你更容易取
2015-11-02 18:49:39
1788
原创 python基础知识整理
python基础知识整理(点滴积累) 最近在做的事情,主要是一些线上的书籍处理过滤、书籍推荐等定时功能,需要用到hive,MR等处理数据,于是轻量级的python脚本成为不二选择,从新手入门,此文作为一个知识的积累,供自己以后查阅 ,也欢迎大家指正。1.入门简单教程 网上关于python的简明教程还是非常多的
2014-12-22 21:37:45
1158
转载 解释和编译的区别
计算机并不能直接地接受和执行用高级语言编写的源程序,源程序在输入计算机时,通过"翻译程序"翻译成机器语言形式的目标程序,计算机才能识别和执行。这种"翻译"通常有两种方式,即编译方式和解释方式。编译方式是指利用事先编好的一个称为编译程序的机器语言程序,作为系统软件存放在计算机内,当用户将高级语言编写的源程序输入计算机后,编译程序便把源程序整个地翻译成用机器语言表示的与之等价的目标程序,然后计算机再执
2014-09-17 12:16:41
1469
原创 Hadoop拓扑感知-个人学习
Hadoop机架感知基础1.1 拓扑感知HDFS运行在一个具有树状网络拓扑结构的计算机集群上。在一个集群中可能有多个数据中心,在每个计算中心部分分布着很多为计算需求而设置的机架。在网络拓扑结构中,每个叶子结点代表一个DataNode,而不同机架间的路由选择由InnerNode内部类表示。1.1.1拓扑感知功能通过拓扑结构,Hadoop能清晰地知道每台机器所在的机架。通过
2014-05-07 21:28:03
2329
转载 Java String类型基础
最近在找工作,基本都是java开发的方向,很多笔试、面试题都是围绕String类对象展开的,花样很多,但是万变不离其中,掌握了基本的原理,无论怎么变,实质都是一样的。下面总结一下关于String的基本知识点:(一)String是final的 可能我们很多人遇到过这个问题final关键字有什么作用,其中一个回答就是final修饰类表示不可继承。大家有没有仔细想过为什么呢?我也曾花了一
2014-05-07 21:04:04
5506
转载 java 集合比较
Vector和ArrayList1、vector是线程同步的,所以他也是线程安全的,而ArrayList是线程异步的,是不安全的。如果不考虑到线程的安全因素,一般用ArrayList效率较高。2、如果集合中的元素的数目大于目前集合数组的长度时,Vector增长率为目前数组长度的100%,而ArrayList增长率为目前数组长度的50%.如果在集合中使用数据量比较大的数据,用vect
2014-05-07 16:28:51
872
转载 TCP三次握手及四次挥手详细图解
相对于SOCKET开发者,TCP创建过程和链接折除过程是由TCP/IP协议栈自动创建的.因此开发者并不需要控制这个过程.但是对于理解TCP底层运作机制,相当有帮助. 而且对于有网络协议工程师之类笔试,几乎是必考的内容.企业对这个问题热情之高,出乎我的意料:-)。有时上午面试前强调这个问题,并重复讲一次,下午几乎每一个人都被问到这个问题。 因此在这里详细解释一下
2014-05-07 14:47:29
563
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人