_独钓寒江雪-优快云博客

转载决策树

分类算法之决策树(Decision tree) 在前面两篇文章中，分别介绍和讨论了朴素贝叶斯分类与贝叶斯网络两种分类算法。这两种算法都以贝叶斯定理为基础，可以对分类及决策问题进行概率推断。在这一篇文章中，

2017-12-04 16:50:04 640

转载 Spark性能优化指南——基础篇（转自美团）

Spark性能优化指南——基础篇前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经

2017-12-04 15:32:01 567

转载机器学习-KMeans聚类 K值以及初始类簇中心点的选取

机器学习-KMeans聚类 K值以及初始类簇中心点的选取 - 潘的博客 - 博客园

2017-12-03 20:29:01 1357

转载机器学习中的数据清洗与特征处理综述（转）

转自：https://tech.meituan.com/machinelearning-data-feature-process.html 背景随着美团交易规模的逐步增大，积累下来的业务数据和交易数据越来越多，这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘，不仅能给美团业务发展方向提供决策支持，也为业务的迭代指明了方向。目前在美团的团购系统中大量地应用到了机器学习和数据

2017-11-29 10:39:55 654

转自：https://tech.meituan.com/spark-tuning-pro.html 前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能

2017-11-23 10:20:18 540

原创 PostgreSQL 窗口函数复习笔记

在总结hive之前特地回去复习了一下，以前PostgreSQL的窗口函数（MySQL目前还没有支持），以下基于版本9.3实验。我们都知道在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数.在深入研究Over

2017-11-02 15:09:47 2277

原创 spark 常用算子详解

Spark算子可以分成两大类： 1.Transformation类算子 2.Action类算子。转换（转化操作）算子，这类转化操作为懒执行，不会触发提交作业，从而也不会处理中间过程。Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Action 操作的时候才会真正触发运算。行动算子，这类算子会触发SparkC

2017-10-05 17:00:42 3179

原创 spark 算子combineByKey 详解

combineByKey 作为spark 的核心算子之一，有必要详细了解。reduceByKey 和groupByKey 等健值对算子底层都实现该算子。

2017-10-05 12:22:57 808

原创数据库字段数据（昵称）排序，规则：数字>英文字母>汉字首字母兼容简繁体排序

数据库字段数据（昵称）排序，规则：数字>英文字母>汉字首字母兼容简繁体排序在日常运用中我们经常会遇到要对数据进行排序，特别是对昵称的排序。最近被要求对昵称排序，刚拿到手的时候开始还觉得挺简单的，因为数据库有order by ，但实际情况不仅此而已，具体如下：（环境：win7_64 , postgresql9.4，UTF8）创建测试用表：create table u

2016-04-21 14:24:13 22041

mapreduce 设计模式

书中主要介绍编程模式，即如何利用MapReduce框架解决一类问题，重在提供解决问题的方法和思路。作者花大量篇幅介绍各种模式的原理及实现机制，并给出相应的应用实例，让读者对每种模式能有更直观的理解。　

2017-08-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

qq_28745235的博客