烟酒和尚-优快云博客

原创集成方法stacking的简单阐述

在西瓜书有介绍到一种名为stacking的集成学习方法，在这里简单阐述下，大家一起学习，相互进步。在此我们把个体学习器称为初级学习器，用于结合的学习器称为次级学习器。Stacking先从初始数据集训练出学习器，然后生成一个新数据集用于训练次级学习器，在这个新数据集中，初级学习器的输出被当做样例输入特征，而初始样本的标记仍被当作样例的标记。在训练阶段，次级训练集是利用初级学习器产生的，若

2017-12-10 16:15:55 2503 2

原创 scikit中pipeline的作用

pipeline为方便处理数据，提供了两种模式：串行化和并行化1、串行化，通过Pipeline类实现通过steps参数，设定数据处理流程，格式为('key','value'),key为这一step设定的名称，value是对应的处理类。通过list将这些step传入。前n-1个step必须为transform函数，最后的step可有可无，一般为模型，pipeline继承了最有一个

2017-12-10 16:02:24 11386

转载矩阵的奇异值分解过程

矩阵的奇异值分解（singular value decomposition，简称SVD）是线性代数中很重要的内容，并且奇异值分解过程也是线性代数中相似对角化分解（也被称为特征值分解，eigenvalue decomposition，简称EVD）的延伸。因此，以下将从线性代数中最基础的矩阵分解开始讲起，引出奇异值分解的定义，并最终给出奇异值分解的低秩逼近问题相关的证明过程。1 线性代数中的矩

2017-08-04 17:58:29 8651

转载 Hbase rowkey 设计原则

HBase是三维有序存储的，三维指的是：RowKey(行健)、column key(columnFamily和qualifier)、TimeStamp(时间戳)，通过这三个维度我们可以对HBase中的数据进行快速定位。下面我们主要来讨论RowKey的设计原则：HBase中RowKey可以唯一标识一条记录，在HBase查询的时候，我们有两种方式，第一种是通过get()方法指定RowKey条件

2016-10-07 17:06:53 1877

转载布隆过滤器(Bloom Filter)详解

布隆过滤器［1］（Bloom Filter）是由布隆（Burton Howard Bloom）在1970年提出的。它实际上是由一个很长的二进制向量和一系列随机映射函数组成，布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率（假正例False positives，即Bloom Filter报告某一元素存在于某集合中，但是实际上

2016-10-07 16:23:09 901

原创二叉树宽度

public static int getMaxWidth(TreeNode root) {if (root == null) return 0;Queue queue = new ArrayDeque(); int maxWitdth = 1; // 最大宽度queue.add(root); // 入队while (true) { int le

2016-10-06 22:34:02 538

转载 sqoop使用中文手册

Sqoop中文手册8,038浏览 1条回复子猴：Sqoop在我们的实际工作中有一些应用，为了对Sqoop的使用有个更全面的了解，于是我花了一些时间将Sqoop的使用整理成了一份中文手册，我自认还是非常全面的，覆盖到了Sqoop所有的方面。虽然对每一个用法，我都是尽可能地先经过测试然后再得出结论，但可能难免会有谬误，不过总的来说希望能对使用Sqoop的朋友有点帮助吧。

2016-10-06 20:41:54 655

转载 Spark性能优化指南——高级篇

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据

2016-10-06 20:03:15 688

转载 Spark性能优化指南——基础篇

调优概述Spark性能优化的第一步，就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优，就是要让大家了解以下一些Spark基本开发原则，包括：RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中，时时刻刻都应该注意以上原则，并将这些原则根据具体的业务以及实际的应用场景，灵活地运用到自己的Spark作业中。原则一：避免创建重复的RDD

2016-10-06 19:30:15 756

转载 hashmap冲突的解决方法以及原理分析

在Java编程语言中，最基本的结构就是两种，一种是数组，一种是模拟指针(引用),所有的数据结构都可以用这两个基本结构构造，HashMap也一样。当程序试图将多个 key-value 放入 HashMap 中时，以如下代码片段为例：HashMap m=new HashMap(); m.put("a", "rrr1"); m.put("b", "tt9"); m.put("c",

2016-10-06 19:23:43 37252 1

转载 java lock的底层实现原理

关于java lock的底层实现原理，讲的有点深，转载学习！Lock完全用Java写成，在java这个层面是无关JVM实现的。在java.util.concurrent.locks包中有很多Lock的实现类，常用的有ReentrantLock、ReadWriteLock（实现类ReentrantReadWriteLock），其实现都依赖java.util.concurrent.Ab

2016-10-06 19:08:39 4164

转载 java 虚拟机垃圾回收器原理和使用总结

垃圾回收常用算法1、引用计数引用计数算法很简单，对于一个对象A，只要有一个对象引用了A则的引用计数加1，当引用失效则引用计数减1，只要对象A的引用计数为0，则对象A即可被列为回收的对象。引用计数的实现也很简单，只要为对象配置一个整形的计数器即可，但引用计数有一个严重的问题就是无法处理循环引用的情况，因此在java的垃圾回收器中没有用这种算法。2、标记清除标记-清

2016-10-06 16:32:19 595

人工智能artificial intelligence，AI是科技研究中最热门的方向之一。像 IBM、谷歌、微软、Facebook 和亚马逊等公司都在研发上投入大量的资金、或者收购那些在机器学习、神经网络、自然语言和图像处理等领域取得了进展的初创公司。考虑到人们对此感兴趣的程度，我们将不会惊讶于斯坦福的专家在人工智能报告中得出的结论：“越来越强大的人工智能应用，可能会对我们的社会和经济产生深远的积

2016-10-06 16:19:02 35356 1

转载 YARN ResourceManager调度器的分析

转自: http://tech.uc.cn/?p=1438 YARN是Hadoop新版中的资源控制框架。本文旨在深入剖析ResourceManager的调度器，探讨三种调度器的设计侧重，最后给出一些配置建议和参数解释。本文分析基于CDH4.2.1。调度器这个部分目前还在快速变化之中。例如，CPU资源分配等特性在不就的将来就会加入。为了方便查阅源代码，原代码位置使用[

2016-10-06 16:09:37 2815

转载 hadoop作业调优参数整理及原理（整个mapreduce运行流程都讲的清楚，一步一步优化）

1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算，并产生中间数据时，其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂，并且利用到了内存buffer来进行已经产生的部分结果的缓存，并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示，每一个map都会对应存在一个内存buffer（MapOut

2016-10-06 15:35:25 586

深度学习花书

《深度学习》由全球知名的三位专家IanGoodfellow、YoshuaBengio和AaronCourville撰写，是深度学习领域奠基性的经典教材。全书的内容包括3个部分：第1部分介绍基本的数学工具和机器学习的概念，它们是深度学习的预备知识；第2部分系统深入地讲解现今已成熟的深度学习方法和技术；第3部分讨论某些具有前瞻性的方向和想法，它们被公认为是深度学习未来的研究重点。　　《深度学习》适合各类读者阅读，包括相关专业的大学生或研究生，以及不具有机器学习或统计背景、但是想要快速补充深度学习知识，以便在实际产品或平台中应用的软件工程师。

2017-11-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

亦行

原创集成方法stacking的简单阐述

原创 scikit中pipeline的作用

转载矩阵的奇异值分解过程

转载 Hbase rowkey 设计原则

转载布隆过滤器(Bloom Filter)详解

原创二叉树宽度

转载 sqoop使用中文手册

转载 Spark性能优化指南——高级篇

转载 Spark性能优化指南——基础篇

转载 hashmap冲突的解决方法以及原理分析

转载 java lock的底层实现原理

转载 java 虚拟机垃圾回收器原理和使用总结

转载 15 个开源的顶级人工智能工具

转载 YARN ResourceManager调度器的分析

转载 hadoop作业调优参数整理及原理（整个mapreduce运行流程都讲的清楚，一步一步优化）

深度学习花书

空空如也

深度学习 花书

空空如也

深度学习花书