- 博客(18)
- 资源 (2)
- 收藏
- 关注
原创 Kettle(PDI-Pentaho Data Integration)7.1安装与性能测试
Windows环境安装安装版本:7.1基础环境:JDK1.8u144下载路径:https://sourceforge.net/projects/pentaho/files/Data Integration/解压缩即可使用,绿色无污染SqlServer连接下载路径http://www.microsoft.com/zh-cn/download/details.aspx?id=11774,解...
2019-02-12 15:00:54
1699
原创 关于数据仓库设计中的那些事儿——数据与数据预处理
非系统性的阐述一些思想,拍个爪先!数据与原始数据数据挖掘领域,一般针对的是文本类的数据,通俗的来说就是广义上的数字(含日期)和文字。但我更想以更广泛的范围讨论数据挖掘的范畴,所以把图片、视频等数据也涵盖其中了。对于工程而言,一般以数据的传输形式,即离线和实时两个大类别进行划分。传输的内容可能是文件(实时视频数据可以看做分段文件)或是字段等形式。其来源可能是移动端、也可能是数据库;既可能是别人...
2018-12-06 22:54:55
1280
原创 关于《损失模型》的一点笔记——第二部分精算模型-1随机变量与分布函数
一般的精算模型尝试表现出未来不确定的支付流,不确定性包括事件是否会发生、发生的时间以及损失量。一些概念: 1. 现象是指可以观测到的发生。 2. 试验是指在一定条件下对某给定现象的一个观测。 3. 一次试验的最终观测称为结果。 4. 事件是一个或多个结果的集合。 5. 随机现象是指试验可能会有一个以上的结果。 6. 具有随机现象的事件称为不确定结果。 7. 概率是对一个事件的结果...
2018-08-25 11:51:05
4195
3
原创 关于《损失模型》的一点笔记——第一部分引言
一直想找关于建模类的书籍,了解了一圈儿大家推荐看一下《损失模型——从数据到决策》这本书。据说是保险精算的圣书。所以趁着年轻还保有一头秀发的时候,研究一下。先厘清一些基本的认知: 1. 模型是对现实简化的模型表达。 2. 通过分析数据与模型的差异度来度量模型和数据的适应性:即模型的拟合度与简单程度。 3. 建模过程 这个图是直接从书里截取的,简单的理解各个阶段的概念 第1阶段:根据...
2018-08-13 09:56:09
1423
原创 基于内存的分布式文件存储系统Alluxio
如果是只有字段缓存的话,redis应该是够用了。但是如果涉及到大量文件,尤其是用hdfs作为底层存储结构的,建议用alluxio升级一下。一方面有利于spark资源控制,另一方面也可以统一入口便于扩展。本文只涉及集群环境下一个简单小集群的搭建,详细用法见官方文档http://www.alluxio.org/docs/master/cn/Running-Alluxio-on-a-Cluster....
2018-07-26 14:43:05
2521
原创 Spark一些基础原理——Cache
lv0cache是Spark程序设计中比较重要的一环,是对RDD的中间结算结果进行持久化,截断RDD的血统,这种持久化一般是多副本形式存在的。在Task发生调用RDD的compute计算时,其通过iterator进行计算,它会识别是否有缓存数据可以调用,如果没有则通过RDD继续计算;如果有则BlockManager从Local或者Remote获取数据,没获取到再检查checkpoint中的数据...
2018-07-24 14:45:18
520
原创 Spark一些基础原理——资源调度
自学知识:RDD的生命周期,DAG任务调度lv0在Spark中,资源调度是Master负责管理的,Worker通过注册的形式在Master注册相关资源。而在执行过程中,是通过sc即Driver向Master申请计算资源(Master根据集群设置启动不同的Driver,对于Standalone而言Driver是在提交任务的本地环境,而对于Cluster而言是由Master分配到某一个Work...
2018-07-23 16:12:43
278
原创 Spark一些基础原理——Job
背景知识:Spark基本工作原理、RDDlv0一个典型的Job是由以下过程组成:从数据源(Data blocks)加载生成RDD(每个数据分片Partition一般是128M,最后一条记录横跨2个blocks),后将RDD经过一系列转换(包括基本类型转换和洗牌)最终得到计算结果(result),再将结果汇总到driver端。往往由Action触发,每个Action对应一个Job。(后接1-...
2018-07-23 15:13:27
1283
原创 Spark一些基础原理——Shuffle
自学背景知识:Spark基本工作原理Job、Task、Stage、MapReducelv0Shuffle(洗牌)是介于MapReduce框架的中间阶段,Map负责实现其写入,Reduce实现其读取。大致过程就是将Map在内存中的缓存进行分区、排序、溢出到磁盘的数据进行抓取合并以重新持久化到磁盘与内存中,便于执行Reduce任务。(后接lv1-1) 其任务执行过程是在Stage阶段判断是否...
2018-07-20 16:03:08
541
原创 Spark一些常用的数据处理方法-3.MLlib的模型(还没写完)
因为mllib属于基础库,且本系列主要作为普及性文章,所以我不打算更新相关原理及其数学关系,有兴趣自学的童鞋可以去网上翻,基本原理都是一样的。3.1 什么叫模型我理解的模型,就是对现实业务的一种数字化抽象。它既可以是一套数学公式的各种参数组合,也可以是一种多维向量的数字化呈现,就是特征与数量的关系。3.2 MLlib模型转为PMML模型PMML模型就相当于数据库中的csv文件之类的东西,所有支持标准
2017-12-25 09:15:19
1006
原创 Spark一些常用的数据处理方法-2.MLlib基础统计方法
SparkMLlib中会经常对RDD用到统计方法,其用法如下1.1 基础加载包 //向量 import org.apache.spark.mllib.linalg.Vector //向量集 import org.apache.spark.mllib.linalg.Vectors //稠密向量 import org.apache.spark.mllib.linalg.DenseVecto
2017-12-22 16:35:55
804
原创 Spark一些常用的数据处理方法-1.RDD计算
在Spark实际应用中,会用到很多数值处理方法,我将一些比较常用的方法写在这里,供新手向的学习参考一下。RDD的计算1.1 读取文件至RDD var rdd = sc.textFile("文件路径") var rddfromhdfs = sc.textFile("hdfs://hadoop-master-001:9000/hdfs文件路径") 这个当中有很多方法,比较常用的是 //返
2017-12-21 15:29:59
1674
原创 SparkMLlib稀疏矩阵
SparkMLlib中关于矩阵的东西还是比较好理解的,不过在本地矩阵中,有个东西叫稀疏矩阵在理解方面可能会有些问题,所以单独提出来一下。1.什么是稀疏矩阵?这个东西我觉得百度说的挺清楚了,尤其是下面这张图很容易理解 左边这个叫稀疏矩阵,右边这个叫密集矩阵 简单的理解,就是0在矩阵中的数量是多还是少的事情。2.Spark中的稀疏矩阵SparkMLlib中的稀疏矩阵写法是这样的 val sm:
2017-12-21 11:03:39
2353
原创 Scala函数式编程课后习题答案(第四章)(更新ing)
Scala函数式编程课后习题答案(第四章)(更新ing)练习4.1trait Option[+A] { case object None extends Option[Nothing] case class Some[+A](value:A) extends Option[A] def map[B](f: A => B): Option[B]= this match { case
2017-05-15 15:01:26
1206
转载 Java链接Mongodb
Java链接Mongodb首先下载Jar包 官方下载链接:http://mongodb.github.io/mongo-java-driver/ 选择左侧Installation Guide,依次下载directly,bson,mongodb-dirve-core 2.导入3个jar包到项目中,然后按照如下Text程序实现增删改查/** * test */ pr
2017-01-17 14:11:41
353
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人