
Spark
wengyupeng
在等待中爆发
展开
-
pentaho源码分析
Pentaho项目主要分三个部分:ü pentaho引擎(这部分以后基本很少变动)ü pentaho-solution(解决方案,也就是以后根据不同的需求重点建设的部分)ü pentaho-style(这是一个独立的应用,专职负责显示的样式)Pentaho首页研究笔记(Home.jsp) 首页的模板是 ${soluti原创 2008-07-16 11:55:00 · 4758 阅读 · 1 评论 -
scala _ 下划线 占位符语法
1、 例子 object UnderScore { def main(args:Array[String]){ val numList = List(1,2,3,4,5,6,7,8,9,10) var numAdd = numList.map(_ + 2) numAdd.foreach (println) }} 运行结果:345...原创 2016-10-18 10:48:26 · 2662 阅读 · 0 评论 -
如何打印Spark RDD中的内容
一、方法2种方式: 1 rdd.collect().foreach {println}2 rdd.take(10).foreach { println } //take(10) 取前10个 二、例子 val logData = sparkcontext.textFile(logFile, 2).c...原创 2016-10-13 17:25:58 · 34224 阅读 · 1 评论 -
Scala IDE 搭建Spark 2开发环境和运行例子
在widow上用Scala IDE 创建Spark 2.0 的开发环境 1、创建 maven Project 2、 修改pom.xml 花了很多时间在这里修改pom.xml, 可以参考如maven repository和Github的pom.xml 最后我的pom.xml如下: <project xmlns="http://maven.apac...原创 2016-10-13 16:37:06 · 5623 阅读 · 0 评论 -
scala => 用法 匿名函数
1. => 什么意思=> 匿名函数(Anonymous Functions),表示创建一个函数实例。比如:(x: Int) => x + 1 和如下JAVA方法表示的含义一样:public int function(int x){ return x+1;}可以这么理解:=>左边 是输入参数,:后面int 是参数类型=>右边 当作函数体,...原创 2016-10-13 15:32:09 · 12414 阅读 · 0 评论 -
Could not calculate build plan Maven设置代理
一、问题 搭建spark环境 , 创建Maven 新项目的时候,一直报错: Could not calculate build plan: Plugin org.apache.maven.plugins:maven-resources-plugin:2.6 or one of its dependencies could not be resolved: Failed to...原创 2016-09-27 14:22:54 · 810 阅读 · 0 评论 -
安装Scala开发环境以及运行HelloWorld
1、安装JAVA JDK http://www.oracle.com/technetwork/java/javase/downloads/index.html 2、安装Scala SDK http://www.scala-lang.org/download/ 3、安装Intelij idea http://www.scala-lang...原创 2016-09-25 00:14:38 · 3792 阅读 · 2 评论 -
Mac 查找Scala 安装路径
时间长了,找不到以前Scala 安装的路径了 方法1. 打开终端(launchpad->其它-》终端),执行: MacBook-Air:~ eng$ sudo find / -name scala/Users/eng/Downloads/spark/scala-2.11.8/bin/scala 方法2. 如果之前已经用Intelij...原创 2016-09-24 23:27:02 · 7722 阅读 · 0 评论 -
pull access denied for frolvlad/alpine-oraclejdk8, repository does not exist or may require '
一、问题 Step 1/6 : FROM frolvlad/alpine-oraclejdk8:slimERROR: Service 'config-server' failed to build: pull access denied for frolvlad/alpine-oraclejdk8, repository does not exist or may require 'dock...原创 2019-02-23 22:17:22 · 7234 阅读 · 1 评论 -
hive:command not found in ubuntu /hdfs: command not found /hadoop:command not found
1、问题 hive:command not found in ubuntu hdfs: command not found hadoop:command not found2、解决方法# echo $SHELL/bin/bash#添加红色变量到.bashrcvi ~/.bashrcexport HIVE_HOME=/usr/local/...原创 2019-05-13 18:12:34 · 929 阅读 · 0 评论 -
Cannot create directory /tmp/hive/root/xxx. Name node is in safe mode
1. 问题 Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.SafeModeException): Cannot create directory /tmp/hive/root/153df88d-1ef5-401b-bd81-d3026412e732. Name ...原创 2019-05-13 18:17:55 · 688 阅读 · 0 评论 -
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask
1. 问题hive> LOAD DATA LOCAL INPATH '/root/data/cities.csv' OVERWRITE INTO TABLE cities;Loading data to table default.citiesFailed with exception Unable to move source file:/root/data/cities.cs...原创 2019-05-13 18:28:24 · 15222 阅读 · 2 评论 -
shell 下python/PySpark 代码高亮和 自动提示 代码补全
1. 用法1. pip install "ptpython==0.41"#默认最新版本 ptpython-2.0.4 有bug, 自动提示不起作用。0.41的没问题#pip版本(pip --version),决定你装的库基于python2 还是3.2. export PYSPARK_DRIVER_PYTHON=ptpython;...原创 2019-06-04 16:56:23 · 1300 阅读 · 0 评论 -
spark:pyspark shell python tab自动提示
1. home dir 下创建.pythonrc ~> vi .pythonrcimport rlcompleter, readlinereadline.parse_and_bind('tab: complete')2. 在shell的启动文件添加.pythonrc 查看是那种shell。 如果是csh , startup file是.cshr...原创 2019-06-04 16:23:22 · 758 阅读 · 0 评论 -
通过mongo-hadoop(pymongo_spark)从PySpark保存数据到MongoDB
一、背景PySpark to connect to MongoDB via mongo-hadoop二、配置步骤 (注意版本作相应调整,spark-2.4.3,hadoop2.7,Scala2.11)1. # Get the MongoDB Java Driver#PROJECT_HOME 自定义的项目根目录,下面存放spark等mkdir -p $PR...原创 2019-07-12 17:58:16 · 1209 阅读 · 0 评论 -
MapReduce简介——分布式运算技术
1、MapReduce概述 MapReduce作为一种分布式运算技术,最先由Google提出的分布式计算软件构架,是云计算的核心技术,也是简化的分布式编程模式。它用于大规模数据集(大于1TB)的并行运算,用来处理大量数据的分布式运算。 2、MapReduce思想 MapReduce思想主要体现在Map(映射)和Redu...原创 2009-12-27 00:30:00 · 2704 阅读 · 0 评论 -
spark: ERROR Shell: Failed to locate the winutils binary in the hadoop binary path
一、问题 下载spark-2.0.0-bin-hadoop2.7.tgz 后,在C:\spark\bin 运行spark-shell.cmd 时, 报错 ERROR Shell: Failed to locate the winutils binary in the hadoop binary pathjava.io.IOException: Could not l...原创 2016-09-20 14:32:14 · 7659 阅读 · 1 评论 -
创建时间维
CREATE TABLE [dbo].[time_dimension] ( [time_id] [int] IDENTITY (1, 1) NOT NULL , [the_date] [datetime] NULL , [the_day] [nvarchar] (15) NULL , [the_month]原创 2008-07-23 10:40:00 · 909 阅读 · 1 评论 -
Pentaho Metadata Editor指南
Wengyupeng00. 术语元数据(Metadata Terminology)原创 2008-08-07 15:03:00 · 7394 阅读 · 5 评论 -
JPivot入门 展示数据
先从最基础的JPivot开始,JPivot可以说是Mondrian的姊妹项目,是基于Java的数据仓库表现层工具。这个项目的主页在http://jpivot.sourceforge.net/,那里除了JPvoit之外,还有一个比较有用的东西,据说是Mondrian的EClipse插件,上一篇文章中我是手工撰写schema的,这个插件应该有类似MS的图形化设计界面吧,以后再研究这个插件吧,言归正传原创 2008-07-02 09:31:00 · 5827 阅读 · 4 评论 -
Mondrian入门 提取数据
在网上查了一下,发现了Mondrian。Mondrian是基于JAVA的数据仓库引擎,可以集成到web项目中,这一点最吸引我。另外与他搭配的表现层的方案也有不少选择,Jpivot是元老,pentaho,openi看起来是后起之秀。不管怎样,还是先研究一下modrian吧 网上的中文资源比较少,在csdn上找了一下,只发现了两篇比较有用的http://dev.youkuaiyun.com/dev转载 2008-07-02 09:41:00 · 3016 阅读 · 0 评论 -
JPivot改进
改了不少JPivot/mondrian代码,还修正了jpivot一个bug。 对JPivot的jfreechart和drillthrough显示做了增强,终于可以拿出去给人用了。先说说性能问题: 先是找了一台闲置的IBM X445 PC Server,4×2GHZ CPU,8G内存,2×146G硬盘,操作系统 windows 2000 , 开启AWE 3G参数。然后装Oracle 10g,转载 2008-07-04 09:18:00 · 5793 阅读 · 3 评论 -
JFreeReport生成 html、pdf文件中文乱码的解决办法
用pentaho 的自定义报表adhoc,生成中文的html、pdf时产生乱码,折腾了很久发现了设置字符编码的地方。(注意 你的字体一定要符合你的编码,在使用报表生成器、和元数据生成器时) 1、html 产生页面是gb18030编码,中文是乱码 解决办法 在org/jfree/report/jfreereport.propertie原创 2008-10-16 15:18:00 · 3476 阅读 · 2 评论 -
pentaho Adhoc 分析
Adhoc 技术分析 1. 汉化页面页面所有的信息都在两个js的资源包:/webContent/adhoc/js/common/ui/messages/nls/message_strings.js/webContent/adhoc/js/ui/messages/nls/message_strings.js 汉化需要在/webCont原创 2008-10-08 15:06:00 · 2598 阅读 · 0 评论 -
Tuple 元组 的解释
Tuple 元组 关系表中的一行称为一个元组。元组可表示一个实体或实体之间的联系。 数据库里面的一些专业词汇 英中对照 · 数据仓库(Data Warehouse)一个数据仓库就是一个自带数据库的商业应用系统。利用现有的数据资源,把数据转换为信息,从中挖掘出知识,提炼成智慧,创造出效益。 · 数据发掘(Data Mining)数据发掘可帮助商业用户处理大量存在的原创 2008-10-29 17:22:00 · 9645 阅读 · 1 评论 -
jpivot : javax.servlet.jsp.JspException: An error occurred while evaluating custom action attribute "test" with value "${query01
jpivot 1.3出现下列异常:javax.servlet.jsp.JspException: An error occurred while evaluating custom action attribute "test" with value "${query01.result.overflowOccured}": An error occurred while getting pr原创 2008-11-18 09:57:00 · 7761 阅读 · 0 评论 -
mondrian drill through表头的汉化
1、找到jpivot-源码 ,修改MondrianDrillThroughTableModel.java类我用的jpivot-1.8.0-080927 路径:com/tonbeller/jpivot/mondrian/MondrianDrillThroughTableModel.java在175行左右 columnTitles[i] = md.getC原创 2008-11-18 15:33:00 · 2059 阅读 · 0 评论 -
windows下配置crontab JasperETL定时调度的使用
JasperETL ( Talend) JasperETL定时调度的使用,解决方案有两种 : 1、windows下配置crontab 这样可以像在unix/linux里面一样,使用crontab命令的功能 2、job发布成pojo,这样里面会生成.bat文件,然后用windows提供的计划任务功能 在win原创 2009-02-03 13:14:00 · 2676 阅读 · 1 评论 -
kettle 两字符串作笛卡尔积
1、问题 有两列数据 a,b 具体如下,要得到列c,c是a和b的笛卡尔积 a 01 02 03 ....09 10 11 12 ..99 (两位数) b 001 002 003 ... 010 ..011 999 (三位数) c 01001 01002 01003 ...原创 2009-08-07 16:00:00 · 4825 阅读 · 0 评论 -
世界三大统计分析软件sas splus spss
SAS SAS是美国SAS(赛仕)软件研究所研制的一套大型集成应用软件系统,具有比较完备的数据存取、数据管理、数据分析和数据展现的系列功能。尤其是它的创业产品—统计分析系统部分,由于具有强大的数据分析能力,一直是业界中比较著名的应用软件,在数据处理方法和统计分析领域,被誉为国际上的标准软件和最具权威的优秀统计软件包,SAS系统中提供的主要分析功能包括统计分析、经济计量分析、时间序列分析、决策转载 2009-06-11 21:23:00 · 4950 阅读 · 2 评论 -
BW知识点总结
转自: http://www.cnblogs.com/omygod/archive/2011/09/09/2172103.html 1. Bw中数据存储的最小单位是什么?他分为哪几种。哪一个用来存放主数据,主数据分类?最小单位:infoobject分类:特征和关键值,特征存放主数据,分为属性,文本和层级。 2. 什么是bw星形结构,与传统星形结构有转载 2012-03-08 15:40:40 · 7644 阅读 · 0 评论 -
Python(pyspark) only supports DataFrames and not RDDs
一、背景用Mongo Spark Connector 来连接 python(pyspark)和MongoDB:二、问题报下面错误:Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.saveAsNewAPIHadoopFile.: java.l...原创 2019-07-12 16:34:16 · 282 阅读 · 1 评论