- 博客(15)
- 资源 (1)
- 收藏
- 关注
原创 集成方法stacking的简单阐述
在西瓜书有介绍到一种名为stacking的集成学习方法,在这里简单阐述下,大家一起学习,相互进步。在此我们把个体学习器称为初级学习器,用于结合的学习器称为次级学习器。Stacking先从初始数据集训练出学习器,然后生成一个新数据集用于训练次级学习器,在这个新数据集中,初级学习器的输出被当做样例输入特征,而初始样本的标记仍被当作样例的标记。在训练阶段,次级训练集是利用初级学习器产生的,若
2017-12-10 16:15:55
2445
2
原创 scikit中pipeline的作用
pipeline为方便处理数据,提供了两种模式:串行化和并行化1、串行化,通过Pipeline类实现通过steps参数,设定数据处理流程,格式为('key','value'),key为这一step设定的名称,value是对应的处理类。通过list将这些step传入。前n-1个step必须为transform函数,最后的step可有可无,一般为模型,pipeline继承了最有一个
2017-12-10 16:02:24
11284
转载 矩阵的奇异值分解过程
矩阵的奇异值分解(singular value decomposition,简称SVD)是线性代数中很重要的内容,并且奇异值分解过程也是线性代数中相似对角化分解(也被称为特征值分解,eigenvalue decomposition,简称EVD)的延伸。因此,以下将从线性代数中最基础的矩阵分解开始讲起,引出奇异值分解的定义,并最终给出奇异值分解的低秩逼近问题相关的证明过程。1 线性代数中的矩
2017-08-04 17:58:29
8486
转载 Hbase rowkey 设计原则
HBase是三维有序存储的,三维指的是:RowKey(行健)、column key(columnFamily和qualifier)、TimeStamp(时间戳),通过这三个维度我们可以对HBase中的数据进行快速定位。下面我们主要来讨论RowKey的设计原则:HBase中RowKey可以唯一标识一条记录,在HBase查询的时候,我们有两种方式,第一种是通过get()方法指定RowKey条件
2016-10-07 17:06:53
1845
转载 布隆过滤器(Bloom Filter)详解
布隆过滤器[1](Bloom Filter)是由布隆(Burton Howard Bloom)在1970年提出的。它实际上是由一个很长的二进制向量和一系列随机映射函数组成,布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率(假正例False positives,即Bloom Filter报告某一元素存在于某集合中,但是实际上
2016-10-07 16:23:09
870
原创 二叉树宽度
public static int getMaxWidth(TreeNode root) {if (root == null) return 0;Queue queue = new ArrayDeque(); int maxWitdth = 1; // 最大宽度queue.add(root); // 入队while (true) { int le
2016-10-06 22:34:02
508
转载 sqoop使用中文手册
Sqoop中文手册8,038浏览 1条回复子猴:Sqoop在我们的实际工作中有一些应用,为了对Sqoop的使用有个更全面的了解,于是我花了一些时间将Sqoop的使用整理成了一份中文手册,我自认还是非常全面的,覆盖到了Sqoop所有的方面。虽然对每一个用法,我都是尽可能地先经过测试然后再得出结论,但可能难免会有谬误,不过总的来说希望能对使用Sqoop的朋友有点帮助吧。
2016-10-06 20:41:54
626
转载 Spark性能优化指南——高级篇
前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据
2016-10-06 20:03:15
631
转载 Spark性能优化指南——基础篇
调优概述Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中,时时刻刻都应该注意以上原则,并将这些原则根据具体的业务以及实际的应用场景,灵活地运用到自己的Spark作业中。原则一:避免创建重复的RDD
2016-10-06 19:30:15
712
转载 hashmap冲突的解决方法以及原理分析
在Java编程语言中,最基本的结构就是两种,一种是数组,一种是模拟指针(引用),所有的数据结构都可以用这两个基本结构构造,HashMap也一样。当程序试图将多个 key-value 放入 HashMap 中时,以如下代码片段为例:HashMap m=new HashMap(); m.put("a", "rrr1"); m.put("b", "tt9"); m.put("c",
2016-10-06 19:23:43
36975
1
转载 java lock的底层实现原理
关于java lock的底层实现原理,讲的有点深,转载学习!Lock完全用Java写成,在java这个层面是无关JVM实现的。在java.util.concurrent.locks包中有很多Lock的实现类,常用的有ReentrantLock、ReadWriteLock(实现类ReentrantReadWriteLock),其实现都依赖java.util.concurrent.Ab
2016-10-06 19:08:39
4117
转载 java 虚拟机 垃圾回收器原理和使用总结
垃圾回收常用算法1、引用计数引用计数算法很简单,对于一个对象A,只要有一个对象引用了A则的引用计数加1,当引用失效则引用计数减1,只要对象A的引用计数为0,则对象A即可被列为回收的对象。引用计数的实现也很简单,只要为对象配置一个整形的计数器即可,但引用计数有一个严重的问题就是无法处理循环引用的情况,因此在java的垃圾回收器中没有用这种算法。2、标记清除标记-清
2016-10-06 16:32:19
572
转载 15 个开源的顶级人工智能工具
人工智能artificial intelligence,AI是科技研究中最热门的方向之一。像 IBM、谷歌、微软、Facebook 和亚马逊等公司都在研发上投入大量的资金、或者收购那些在机器学习、神经网络、自然语言和图像处理等领域取得了进展的初创公司。考虑到人们对此感兴趣的程度,我们将不会惊讶于斯坦福的专家在人工智能报告中得出的结论:“越来越强大的人工智能应用,可能会对我们的社会和经济产生深远的积
2016-10-06 16:19:02
34870
1
转载 YARN ResourceManager调度器的分析
转自: http://tech.uc.cn/?p=1438 YARN是Hadoop新版中的资源控制框架。本文旨在深入剖析ResourceManager的调度器,探讨三种调度器的设计侧重,最后给出一些配置建议和参数解释。本文分析基于CDH4.2.1。调度器这个部分目前还在快速变化之中。例如,CPU资源分配等特性在不就的将来就会加入。为了方便查阅源代码,原代码位置使用[
2016-10-06 16:09:37
2779
转载 hadoop作业调优参数整理及原理(整个mapreduce运行流程都讲的清楚,一步一步优化)
1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示,每一个map都会对应存在一个内存buffer(MapOut
2016-10-06 15:35:25
564
深度学习 花书
2017-11-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人