
hadoop
文章平均质量分 83
dazheng
从上大学就喜欢数据库,07年开始一直做数据仓库,期间做过一些大大小小的项目,也在五位数、个位数人数的公司打拼过,期间用过oralce、db2、hadoop,打算继续做大数据这块,希望能真正做出些有用的东西。坚信少即是多,一分耕耘一分收获。
展开
-
ETL SparkSQL实现
SparkETLSparkETL主要用SQL方式实现数据仓库ETL,并保持spark的原生多功能、灵活性。采用java对spark功能进行简单封装,对于数据源、目标都是关系型数据库的,从数据抽取、转换、加载完全采用SQL方式,对于SQL不满足的场景,再用spark相关功能实现。SparkETL是ETL的一个参考实现,实际使用时,需要根据业务需要及模型设计在此基础上增加、修改。实现背景Spa...原创 2020-04-07 18:09:00 · 3120 阅读 · 1 评论 -
Go连接Hive
经过两天多的资料查找,反复测试从网上找到的多种方案,加上阿里云售后的支持,终于搞定Go语言连接Apache Hive的问题。 测试环境,阿里云E-MapReduce 2.1 中的Hive, Golang 1.7,开发环境win10。 在阿里云hive-site.xml中需要添加: <property> <name>hive.server2.authentication</name>原创 2016-11-05 10:37:46 · 8669 阅读 · 0 评论 -
From scikit-learn to Spark ML
From scikit-learn to Spark MLYoann BenoitPartagerTweeter+ 1E-mailDans un récent billet de blog de Databricks et Olivier Girardot, From Pandas to Apache Spark’s DataFrame, les aut转载 2015-12-03 17:50:42 · 1844 阅读 · 0 评论 -
From Pandas to Apache Spark’s Dataframe
With the introduction in Spark 1.4 of Window operations, you can finally port pretty much any relevant piece of Pandas’ DataFrame computation to Apache Spark parallel computation framework using Spark SQL’s DataFrame. If you’re not yet familiar withSpark’s转载 2015-12-03 15:09:30 · 1664 阅读 · 0 评论 -
Pandarize Your Spark Dataframes
DataFrames are a great abstraction for working with structured and semi-structured data. They are basically a collection of rows, organized into named columns. Think of relational database tables: DataFrames are very similar and allow you to do similar ope转载 2015-12-03 15:16:41 · 761 阅读 · 0 评论 -
Hive常用
主要整理于2011、2012年1、启动server及元数据 nohup hive --service hiveserver2 10000 > /dw/log/hiveserver.log 2>&1 & nohup hive --service metastore 9083 > /dw/log/metastore.log 2>&1 &2、字符集 hive元数据存储用mys原创 2015-08-03 15:05:40 · 768 阅读 · 0 评论 -
Hive介绍
崔雪征cuixuezheng@hotmail.com第1章 Hive基础1.1 Hive基础1.1.1 Hive是什么Hive是基于hadoop开发的数据仓库工具,它提供给用户类似SQL的语言hiveQL进行开发,将其转换成map/reduce执行。同时,用户也可以写map/reduce程序作为hiveql插件运行。Hive针对数据仓库特性做了很多,包括数据的存原创 2015-06-06 10:36:00 · 1253 阅读 · 1 评论 -
rdbms迁移到Impala2.0
Impala特点定位于OLAP分析和hadoop集成,可与hadoop同样方式扩展多种数据文件格式存储 Parquet、text可读写;Avro、RCFILE、SequenceFile可读;都支持gzip、Snappy压缩支持HBase存储与Hive共享元数据MPP引擎迁移数据类型 VARCHAR, VARCHAR2, CHAR, NCHAR, NVARCHAR, CLOB, N原创 2015-07-24 20:43:08 · 855 阅读 · 0 评论 -
impala常用
1、E1010 14:22:41.093611 3181 impalad-main.cc:90] Impalad services did not start correctly, exiting. Error: Duplicate registration of subscriber: slave1:22000 State Store Subscriber did not start up.原创 2015-06-13 12:10:48 · 1987 阅读 · 0 评论 -
hive update delete
Hive 从0.14开始支持事务,即支持update和delete操作。事务操作有严格的要求,在写这篇文章时用的1.1.0有以下限制BEGIN, COMMIT, and ROLLBACK are not yet supported. All language operations are auto-commit. The plan is to support these in a future原创 2015-07-09 14:29:05 · 2100 阅读 · 0 评论