不羁之心-优快云博客

原创 Kettle(PDI-Pentaho Data Integration)7.1安装与性能测试

Windows环境安装安装版本：7.1基础环境：JDK1.8u144下载路径：https://sourceforge.net/projects/pentaho/files/Data Integration/解压缩即可使用，绿色无污染SqlServer连接下载路径http://www.microsoft.com/zh-cn/download/details.aspx?id=11774，解...

2019-02-12 15:00:54 1699

原创关于数据仓库设计中的那些事儿——数据与数据预处理

非系统性的阐述一些思想，拍个爪先！数据与原始数据数据挖掘领域，一般针对的是文本类的数据，通俗的来说就是广义上的数字（含日期）和文字。但我更想以更广泛的范围讨论数据挖掘的范畴，所以把图片、视频等数据也涵盖其中了。对于工程而言，一般以数据的传输形式，即离线和实时两个大类别进行划分。传输的内容可能是文件（实时视频数据可以看做分段文件）或是字段等形式。其来源可能是移动端、也可能是数据库；既可能是别人...

2018-12-06 22:54:55 1280

原创关于《损失模型》的一点笔记——第二部分精算模型-1随机变量与分布函数

一般的精算模型尝试表现出未来不确定的支付流，不确定性包括事件是否会发生、发生的时间以及损失量。一些概念： 1. 现象是指可以观测到的发生。 2. 试验是指在一定条件下对某给定现象的一个观测。 3. 一次试验的最终观测称为结果。 4. 事件是一个或多个结果的集合。 5. 随机现象是指试验可能会有一个以上的结果。 6. 具有随机现象的事件称为不确定结果。 7. 概率是对一个事件的结果...

2018-08-25 11:51:05 4195 3

原创关于《损失模型》的一点笔记——第一部分引言

一直想找关于建模类的书籍，了解了一圈儿大家推荐看一下《损失模型——从数据到决策》这本书。据说是保险精算的圣书。所以趁着年轻还保有一头秀发的时候，研究一下。先厘清一些基本的认知： 1. 模型是对现实简化的模型表达。 2. 通过分析数据与模型的差异度来度量模型和数据的适应性：即模型的拟合度与简单程度。 3. 建模过程这个图是直接从书里截取的，简单的理解各个阶段的概念第1阶段：根据...

2018-08-13 09:56:09 1423

原创基于内存的分布式文件存储系统Alluxio

如果是只有字段缓存的话，redis应该是够用了。但是如果涉及到大量文件，尤其是用hdfs作为底层存储结构的，建议用alluxio升级一下。一方面有利于spark资源控制，另一方面也可以统一入口便于扩展。本文只涉及集群环境下一个简单小集群的搭建，详细用法见官方文档http://www.alluxio.org/docs/master/cn/Running-Alluxio-on-a-Cluster....

2018-07-26 14:43:05 2521

原创 Spark一些基础原理——Cache

lv0cache是Spark程序设计中比较重要的一环，是对RDD的中间结算结果进行持久化，截断RDD的血统，这种持久化一般是多副本形式存在的。在Task发生调用RDD的compute计算时，其通过iterator进行计算，它会识别是否有缓存数据可以调用，如果没有则通过RDD继续计算；如果有则BlockManager从Local或者Remote获取数据，没获取到再检查checkpoint中的数据...

2018-07-24 14:45:18 520

原创 Spark一些基础原理——资源调度

自学知识：RDD的生命周期，DAG任务调度lv0在Spark中，资源调度是Master负责管理的，Worker通过注册的形式在Master注册相关资源。而在执行过程中，是通过sc即Driver向Master申请计算资源（Master根据集群设置启动不同的Driver，对于Standalone而言Driver是在提交任务的本地环境，而对于Cluster而言是由Master分配到某一个Work...

2018-07-23 16:12:43 278

原创 Spark一些基础原理——Job

背景知识：Spark基本工作原理、RDDlv0一个典型的Job是由以下过程组成：从数据源（Data blocks）加载生成RDD（每个数据分片Partition一般是128M，最后一条记录横跨2个blocks），后将RDD经过一系列转换（包括基本类型转换和洗牌）最终得到计算结果（result），再将结果汇总到driver端。往往由Action触发，每个Action对应一个Job。(后接1-...

2018-07-23 15:13:27 1283

原创 Spark一些基础原理——Shuffle

自学背景知识：Spark基本工作原理Job、Task、Stage、MapReducelv0Shuffle（洗牌）是介于MapReduce框架的中间阶段，Map负责实现其写入，Reduce实现其读取。大致过程就是将Map在内存中的缓存进行分区、排序、溢出到磁盘的数据进行抓取合并以重新持久化到磁盘与内存中，便于执行Reduce任务。（后接lv1-1）其任务执行过程是在Stage阶段判断是否...

2018-07-20 16:03:08 541

原创 Spark一些常用的数据处理方法-3.MLlib的模型（还没写完）

因为mllib属于基础库，且本系列主要作为普及性文章，所以我不打算更新相关原理及其数学关系，有兴趣自学的童鞋可以去网上翻，基本原理都是一样的。3.1 什么叫模型我理解的模型，就是对现实业务的一种数字化抽象。它既可以是一套数学公式的各种参数组合，也可以是一种多维向量的数字化呈现，就是特征与数量的关系。3.2 MLlib模型转为PMML模型PMML模型就相当于数据库中的csv文件之类的东西，所有支持标准

2017-12-25 09:15:19 1006

原创 Spark一些常用的数据处理方法-2.MLlib基础统计方法

SparkMLlib中会经常对RDD用到统计方法，其用法如下1.1 基础加载包 //向量 import org.apache.spark.mllib.linalg.Vector //向量集 import org.apache.spark.mllib.linalg.Vectors //稠密向量 import org.apache.spark.mllib.linalg.DenseVecto

2017-12-22 16:35:55 804

原创 Spark一些常用的数据处理方法-1.RDD计算

在Spark实际应用中，会用到很多数值处理方法，我将一些比较常用的方法写在这里，供新手向的学习参考一下。RDD的计算1.1 读取文件至RDD var rdd = sc.textFile("文件路径") var rddfromhdfs = sc.textFile("hdfs://hadoop-master-001:9000/hdfs文件路径") 这个当中有很多方法，比较常用的是 //返

2017-12-21 15:29:59 1674

原创 SparkMLlib稀疏矩阵

SparkMLlib中关于矩阵的东西还是比较好理解的，不过在本地矩阵中，有个东西叫稀疏矩阵在理解方面可能会有些问题，所以单独提出来一下。1.什么是稀疏矩阵？这个东西我觉得百度说的挺清楚了，尤其是下面这张图很容易理解左边这个叫稀疏矩阵，右边这个叫密集矩阵简单的理解，就是0在矩阵中的数量是多还是少的事情。2.Spark中的稀疏矩阵SparkMLlib中的稀疏矩阵写法是这样的 val sm:

2017-12-21 11:03:39 2353

原创 Scala函数式编程课后习题答案（第六章）

Scala函数式编程课后习题答案（第六章）

2017-05-23 16:43:50 1464

原创 Scala函数式编程课后习题答案（第五章）

Scala函数式编程课后习题答案（第五章）没有按题目细分，比较杂乱。

2017-05-23 14:42:18 1005

原创 Scala函数式编程课后习题答案（第四章）（更新ing）

Scala函数式编程课后习题答案（第四章）（更新ing）练习4.1trait Option[+A] { case object None extends Option[Nothing] case class Some[+A](value:A) extends Option[A] def map[B](f: A => B): Option[B]= this match { case

2017-05-15 15:01:26 1206

原创 Scala函数式编程课后习题答案（第三章）（更新ing）

Scala函数式编程课后习题答案（第三章）

2017-05-11 14:12:33 3108 1

转载 Java链接Mongodb

Java链接Mongodb首先下载Jar包官方下载链接：http://mongodb.github.io/mongo-java-driver/ 选择左侧Installation Guide，依次下载directly,bson,mongodb-dirve-core 2.导入3个jar包到项目中，然后按照如下Text程序实现增删改查/** * test */ pr

2017-01-17 14:11:41 353

dlke03的博客