天枢dubhe-优快云博客

原创 Getting Started with Apache Geode

#Apache Geode1、简介Apache Geode是一个数据管理平台，它可以在广泛分布的云架构中提供对数据密集型应用程序的实时、一致的访问。2、源码https://github.com/apache/geodehttp://apache.org/dyn/closer.cgi/geode/1.4.03、主要特性Geode 包含以下特性：高的读写吞吐量低和可预见的延迟高可伸缩性持续可用性可靠的...

2018-04-01 21:43:08 317

原创 nginx安装

#安装编译工具及库文件>yum -y install make zlib zlib-devel gcc-c++ libtool openssl openssl-devel#下载 PCRE 安装包https://sourceforge.net/projects/pcre/files/pcre/#解压pcre>tar zxvf pcre-8.35.tar.gz#进入安装...

2018-11-26 11:46:41 256

原创 spark安装

1、java环境解压，配置环境变量2、scala环境解压，配置环境变量3、部署机器主从复制slaves.template成slavescp slaves.template slaves修改$SPARK_HOME/conf/slaves，添加如下内容：Masterdatanode1datanode24、sshssh 172.16.1.1825、ssh-keygen互通6...

2018-11-26 11:41:23 253

原创 tez安装

tez#简介tez通过允许像Apache Hive和Apache Pig这样的项目运行复杂的任务，Tez可以用来处理数据，这在更早地时候采用了多个MR job，现在可以在一个Tez的执行工作#官网http://tez.apache.org/#特性1、表达数据流定义的api2、灵活的Input-Processor-Output运行时模型3、数据类型不确定4、简化的部署5、在M...

2018-11-26 11:39:47 2505 1

原创 storm安装

大数据实时计算storm#安装指导http://storm.apache.org/releases/2.0.0-SNAPSHOT/Setting-up-a-Storm-cluster.html一、Set up a Zookeeper cluster二、Install dependencies on Nimbus and worker machines1、 8+ (Apache ...

2018-11-26 11:38:43 609

原创 sqoop2安装

Apache Sqoop(TM)是一种用于在Apache Hadoop和结构化数据存储(如关系数据库)之间高效传输大量数据的工具。#官网指导文档http://sqoop.apache.org/docs/1.99.7/index.html#下载地址https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/一、Administrator 指导...

2018-11-26 11:35:31 530

原创 pig安装

官网指导http://pig.apache.org/docs/r0.17.0/start.html#安装1、下载安装包http://www.apache.org/dyn/closer.cgi/pig2、设置环境变量export PATH=/opt/pig-0.17.0/bin:$PATH3、测试安装结果$ pig -help4、运行模式/* local mode */$...

2018-11-26 11:34:38 205

原创 hive安装

一、安装配置1、安装#安装要求java 1.7+ ，建议1.8+Hadoop 2.x #hive下载地址https://hive.apache.org/downloads.htmlhttps://hive.apache.org/downloads.html#解压文件>$ tar -xzvf hive-x.y.z.tar.gz#设置环境变量HIVE_HOME>$ cd...

2018-11-26 11:32:34 325

原创 HBase安装

HBASE英文原文 http://hbase.apache.org/book.html#quickstart中文翻译 http://abloz.com/hbase/book.html一、特性线性和模块化的可伸缩性。严格一致的读写。自动和可配置的分片表区域服务器之间的自动故障转移支持。使用Apache HBase表支持Hadoop MapReduce作业的方便基类。易于使用Ja...

2018-11-26 11:29:20 300

原创 elasticsearch安装

#简介文档搜索引擎https://www.elastic.co/guide/en/elasticsearch/reference/current/_installation.html一、安装配置#####tar包安装1、下载https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.5.0.tar.gz...

2018-11-26 11:23:45 475

原创 Kylin

#简介Apache Kylin™是一个开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。Kylin是为减少在Hadoop上百亿规模数据查询延迟而设计官网：http://kylin.apache.org/cn/安装1：http://blog.youkuaiyun.com/lin...

2018-04-01 21:46:10 281

原创 kafka

kafka分布式消息队列由java与scala编写快速指南地址http://kafka.apache.org/quickstart一、安装1、下载地址https://www.apache.org/dyn/closer.cgi?path=/kafka/2.0.0/kafka_2.11-2.0.0.tgz2、解压> tar -xzf kafka_2.11-2.0.0.tgz&g...

2018-04-01 21:46:00 205

原创 Hue

#简介Hue是一个开源的Apache Hadoop UI系统，由Cloudera Desktop演化而来，最后Cloudera公司将其贡献给Apache基金会的Hadoop社区，它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据，例如操作HDFS上的数据，运行MapReduce Job，执行Hive的SQL语...

2018-04-01 21:45:49 316

转载 HAWQ

# HAWQ简介 HAWQ是一个Hadoop原生大规模并行SQL分析引擎，针对的是分析性应用。和其他关系型数据库类似，接受SQL，返回结果集。但它具有大规模并行处理很多传统数据库以及其他数据库没有的特性及功能。 #参考http://blog.youkuaiyun.com/wzy0623/article/details/55047696...

2018-04-01 21:45:29 208

原创 hadoop安装

hadoop一、分布式大数据存储系统组成 HDFS daemons are NameNode, SecondaryNameNode, and DataNode. YARN daemons are ResourceManager, NodeManager, and WebAppProxy. MapReduce then the MapReduce Job Histor...

2018-04-01 21:45:03 228

转载 Gora

#简介Gora其实是一个类似Hibernate的ORM框架，但是不只是支持关系数据库，更重要支持NoSQL之类大数据的存储。#百科https://baike.baidu.com/item/Gora/8033430?fr=aladdin#官网http://gora.apache.org/...

2018-04-01 21:44:40 247

原创 flask-appbuilder

#简介python web框架#安装>pip install flask-appbuilder#创建项目>mkdir flask-appbuilder-project>cd flask-appbuilder-project#Command Line Managerbabel-compile - Babel, Compiles all translationsbabel-extra...

2018-04-01 21:44:19 1404

翻译 Apache Geode目录

一、开始使用Apache Geode1、关于Apache Geode2、主要特征3、先决条件与安装指南4、在15分钟或更短的时间内使用二、配置和运行集群1、集群配置服务概述2、教程——创建和使用集群配置3、部署应用程序jars到Apache Geode成员4、使用成员组5、导出和导入集群配置6、集群配置文件和故障排除7、将现有的配置文件加载到集群配置中8、基于HTTP或HTTPS使用gfsh管理远...

2018-04-01 21:43:58 317

翻译 Apache Geode配置和运行集群

简要说明使用gfsh命令行实用工具配置Apache Geode集群（也称为“分布式系统”）。集群配置服务持久化集群配置，并将配置分发给集群成员。还有其他几种配置集群的方法。使用gfsh配置区域、磁盘存储、成员和其他Geode对象。还可以使用gfsh启动和停止locator、server和Geode监控工具。当执行这些命令时，集群配置服务持久化配置。当新成员加入集群时，服务将配置分配给新成员。gfs...

2018-04-01 21:43:39 1370

原创 Mesos安装

#简介Mesos是Apache下的开源分布式资源管理框架，它被称为是分布式系统的内核###安装文件http://archive.apache.org/dist/mesos/1.7.0/mesos-1.7.0.tar.gz###官网https://mesos.apache.org/###文档http://mesos.apache.org/documentation/latest...

2018-03-30 10:40:51 738

转载 OLAP

#简介联机分析处理OLAP是一种软件技术，它使分析人员能够迅速、一致、交互地从各个方面观察信息，以达到深入理解数据的目的#参考https://www.cnblogs.com/dqj1024/archive/2012/07/08/2581314.htmlhttp://blog.youkuaiyun.com/burgess_liu/article/details/37808483...

2018-03-30 10:40:43 180

转载 druid

#简介1）一个用于大数据实时处理的开源分布式系统简单介绍:http://www.infoq.com/cn/news/2015/04/druid-data/官网:http://druid.io/#参考http://www.infoq.com/cn/news/2015/04/druid-data/http://yangyangmyself.iteye.com/blog/2320502#官网http:/...

2018-03-30 10:40:33 552

原创 linux所有命令

#简介linux所有命令#所有命令详解http://man.linuxde.net/par/1#查看80端口占用情况lsof -i tcp:80#列出所有端口netstat -ntlp查找当前目录下包含指定字符串的文件find .|xargs grep -ri "2500" -l...

2018-03-30 10:40:13 212

原创图形数据库OrientDB

#简介图形数据库步骤1 – 下载OrientDB二进制设置文件下载地址：http://orientdb.com/download社区版和企业版都可以在任何实现Java虚拟机(JVM)的操作系统上运行。 OrientDB需要1.7或更高版本的Java。步骤2 – 解压并安装OrientDB#以下是为不同操作系统提取和安装OrientDB的过程。在Linux中将orientdb-community-2...

2018-03-30 10:40:01 1221

原创 pip

#简介python 包管理工具#linux 下pip安装>wget https://bootstrap.pypa.io/get-pip.py>python get-pip.py#windows下pip安装utf-8问题导致安装失败#设置cmd编码格式，默认编码GBK（936）#改为UTF-8（65001）>chcp 65001#在Windows的CMD中如何设置支持UTF8编码h...

2018-03-30 10:39:52 153

原创 Presto

#简介Presto是一个开源的分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB字节。Presto是一个开源的分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB字节。#官网http://prestodb-china.com/#源码京东源码 https://github.com/CHINA-JD/presto/官方源码 https://github.com/prestod...

2018-03-30 10:39:23 273

原创 python

#简介python高级解释型语言#10.111.111.242 python安装路径/usr/local/lib/python3.6#教程https://www.liaoxuefeng.com/#主流框架https://www.cnblogs.com/linkenpark/p/5881586.html#python调试参考：https://www.cnblogs.com/bradleon/p/59...

2018-03-30 10:39:13 188

原创 Saiku

#简介loap可视化分析系统，基于mondrain、loapSaiku是一个轻量级的OLAP分析引擎，可以方便的扩展、嵌入和配置。Saiku通过REST API连接OLAP系统，利用其友好的界面为用户提供直观的分析数据的方式，它是基于jQuery做的前端界面.源码：https://github.com/OSBI/saiku/示例：http://www.cnblogs.com/tgzhu/p/613...

2018-03-30 10:39:00 4775 2

转载 web2py

#简介web2py 是一个为Python语言提供的全功能Web应用框架，旨在敏捷快速的开发Web应用，具有快速、安全以及可移植的数据库驱动的应用，兼容 Google App Engine#官网http://www.web2py.com/#文档https://milesm.pythonanywhere.com/wiki/default/index/index...

2018-03-30 10:38:47 1073

原创 Yum

#简介Yum（全称为 Yellow dog Updater, Modified）是一个在Fedora和RedHat以及CentOS中的Shell前端软件包管理器。基于RPM包管理，能够从指定的服务器自动下载RPM包并且安装，可以自动处理依赖性关系，并且一次安装所有依赖的软件包，无须繁琐地一次次下载、安装#教程http://www.runoob.com/linux/linux-y

2018-01-04 10:48:40 227

原创 Webpack

#简介Webpack 是一个前端资源加载/打包工具。它将根据模块的依赖关系进行静态分析，然后将这些模块按照指定的规则生成对应的静态资源。#教程http://www.runoob.com/w3cnote/webpack-tutorial.html#预装环境node.js#安装webpackcnpm install webpack -g#

2018-01-04 10:48:12 279

原创 WebCollector

#简介WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架（内核），它提供精简的的API，只需少量代码即可实现一个功能强大的爬虫。#文档http://www.oschina.net/p/webcollectorhttp://crawlscript.github.io/WebCollector/https://github.com/CrawlScript

2018-01-04 10:47:42 537

转载 web爬虫集

#参考地址http://www.open-open.com/68.htmhttp://www.open-open.com/lib/view/open1414049592856.htmlhttps://www.zhihu.com/question/314278951.nutch地址：apache/nutch · GitHubapache下的开源爬虫程序，功能丰富，文档

2018-01-04 10:47:22 251

原创 superset

#简介python 大数据多维可视化分析工具，以flask appbuilder框架+sqlalchemy为基础曾用名Caravel, Panoramix,一款开源OLAP+数据可视化分析前端工具，支持Druid和Kylin官网; http://airbnb.io/projects/superset/源码：https://github.com/apache/incubator-

2018-01-04 10:45:41 2309

转载 sqlalchemy

#简介python ormThe Python SQL Toolkit and Object Relational Mapper#官网http://www.sqlalchemy.org/#官网文档http://docs.sqlalchemy.org/en/latest/

2018-01-04 10:45:18 180

原创 solr

#简介apache全文搜索引擎#getting startedhttps://lucene.apache.org/solr/guide/7_1/solr-tutorial.html#下载http://lucene.apache.org/solr/downloads.html#解压unzip -q solr-7.1.0.zip#运行cl

2018-01-04 10:44:49 199

原创 scrapy

#简介python 爬虫工具#入门教程http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html#安装pip install Scrapy#查看所有可用命令scrapy -h#创建项目scrapy startproject myproject#

2018-01-04 10:44:13 218

原创 redis

#简介redis内存数据库，可用于缓存#安装makeyum -y install gcc automake autoconf libtool make#安装telentyum -y install xinetd telnet telnet-server#安装locateyum -y install mlocate#测试locate安装

2018-01-04 10:43:09 354

原创 nutch

#简介数据采集工具#官网http://nutch.apache.org/#参考http://blog.youkuaiyun.com/jiutao_tang/article/details/6450137https://www.cnblogs.com/xuekyo/archive/2013/04/18/3028559.html#使用方法1http:

2018-01-04 10:39:49 230

转载 Drill

#简介Drill is an Apache open-source SQL query engine for Big Data exploration. #下载路径http://drill.apache.org/download/#文档http://drill.apache.org/docs/getting-started/#简单使用https:

2018-01-04 10:27:58 419

superset安装遇到的问题

解决invalid LOC header (bad signature)问题

datax支持presto读取

prestoreader.rar

空空如也