- 博客(10)
- 资源 (1)
- 收藏
- 关注
转载 决策树
分类算法之决策树(Decision tree) 在前面两篇文章中,分别介绍和讨论了朴素贝叶斯分类与贝叶斯网络两种分类算法。这两种算法都以贝叶斯定理为基础,可以对分类及决策问题进行概率推断。在这一篇文章中,
2017-12-04 16:50:04
604
转载 Spark性能优化指南——基础篇 (转自美团)
Spark性能优化指南——基础篇 前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经
2017-12-04 15:32:01
528
转载 机器学习中的数据清洗与特征处理综述(转)
转自:https://tech.meituan.com/machinelearning-data-feature-process.html 背景 随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向。目前在美团的团购系统中大量地应用到了机器学习和数据
2017-11-29 10:39:55
628
转载 Spark性能优化指南——高级篇 (转自美团)
转自:https://tech.meituan.com/spark-tuning-pro.html 前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能
2017-11-23 10:20:18
504
原创 PostgreSQL 窗口函数复习笔记
在总结hive之前特地回去复习了一下,以前PostgreSQL的窗口函数(MySQL目前还没有支持),以下基于版本9.3实验。我们都知道在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数.在深入研究Over
2017-11-02 15:09:47
2237
原创 spark 常用算子 详解
Spark算子可以分成两大类: 1.Transformation类算子 2.Action类算子。 转换(转化操作)算子,这类转化操作为懒执行,不会触发提交作业,从而也不会处理中间过程。Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。 行动算子,这类算子会触发SparkC
2017-10-05 17:00:42
3115
原创 spark 算子combineByKey 详解
combineByKey 作为spark 的核心算子之一,有必要详细了解。reduceByKey 和groupByKey 等健值对算子底层都实现该算子。
2017-10-05 12:22:57
767
原创 数据库字段数据(昵称)排序,规则: 数字>英文字母>汉字首字母 兼容简繁体排序
数据库字段数据(昵称)排序,规则: 数字>英文字母>汉字首字母 兼容简繁体排序 在日常运用中我们经常会遇到要对数据进行排序,特别是对昵称的排序。最近被要求对昵称排序,刚拿到手的时候开始还觉得挺简单的,因为数据库有order by ,但实际情况不仅此而已,具体如下:(环境:win7_64 , postgresql9.4,UTF8)创建测试用表:create table u
2016-04-21 14:24:13
21849
mapreduce 设计模式
2017-08-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人