
大数据平台
半_调_子
因为热爱
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
apache 软件下载仓库
什么玩意都可以下载:http://archive.apache.org/dist/原创 2021-01-21 13:45:03 · 459 阅读 · 0 评论 -
hadoop的英文书
Mastering Hadoop 3Big Data Analytics with Hadoop 3Apache Hadoop 3 Quick Start GuideHands-On-Beginner-s-Guide-on-Big-Data-and-Hadoop-3Hands-on-Big-Data-Processing-with-Hadoop-3pro-apache-hadooppro-hadoop-data-analyticspro-hadooppractical-hadoop-mig.原创 2020-05-26 20:36:17 · 415 阅读 · 0 评论 -
大数据:hive1
1:什么是hive:由facebook开源的用于解决海量结构化日志的数据统计2:hive是基于hadoop的数据仓库工具,可以将结构化的数据文件映谢成一张表,并提供类SQL查询功能。本质:将Hql转化成mpareduce其基本执行过程: 数据仓库通过sql进行统计分析-------->将SQL语言中常用的操作(select,where,group等)用mapreduc...原创 2020-02-15 14:37:34 · 410 阅读 · 0 评论 -
scala 编程思想--第一部分
scala编译器 有eclipse ,idea ,sumblime等 scalashell 1、变换目录cd2、目录清单 ls3、创建目录mkdir4、移除目录rm5、移除目录rm -r6、重复前一行命令的最后一个参数:liunx !$ 在 powershell $$7、命令行: history8、unzip 安装sc...原创 2020-01-31 11:21:55 · 423 阅读 · 0 评论 -
hadoop故障排除
1:解决与空间相关的问题 2:解决内存问题 3:处理不同类型的故障 4:对Spark作业执行进行故障排除我要继续讲这本书的最后一章,简短而有趣。故障排除是一个广阔的领域,我想让您了解一下您可能在hadoop集群中遇到的一些更有趣的问题。hadoop有很多 配置属性,并且掌握这些属性对于充分利用hadoop集群的投资至关重要。 但是,通...原创 2019-10-15 08:35:54 · 2427 阅读 · 0 评论 -
大数据分析:将大数据转化为巨额资金 前言及第一章
大数据分析:将大数据转化为巨额资金http://www.doc88.com/p-9773645686622.html内容前言什么是数据? 这似乎是一个简单的问题; 然而,根据解释,数据的定义可以是从“记录的东西”到“阳光下的一切”的任何东西。数据可以作为所有经验,无论是来自传感器的机器记录信息,个人拍照, 或由科学家记录的acosmic事件。 换句话说,一切都是数据。然而,记录和保...原创 2018-12-28 23:00:11 · 731 阅读 · 0 评论 -
政务大数据云平台体系及作用
数据采集体系产品及服务:共享交换系统共享交换系统是企业级批量数据处理总线产品。可以快速稳定的实现异地、异构数据库的数交换和整合,确保参建部门之间,参建部门与交换系统之间数据交换过程中的安全,并提供交换审计的管理,对交换流程、交换节点、交换量等进行统一配置和监控等。 治理平台社会治理平台是,用于对政府机构的各种数据源进行标准化采集与管理,并对提供数据源的采集队伍进行全方位督查...原创 2018-12-28 14:33:35 · 7722 阅读 · 0 评论 -
mapreduce 读取mysql
package com.jsptpd.mysqlintolocal;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.ap...原创 2018-11-20 13:44:17 · 828 阅读 · 0 评论 -
windows 开发mapreduce程序的配置
第一:下载所有hadoop二进制包第二:将所有的jar 做成user libary 第三:设置二个环境变量HADOOP_HOME=D:\hadoop-2.7.6HADOOP_USER_NAME=hdfspackage com.jsptpd.test1314;import org.apache.hadoop.conf.Configuration;import org.apa...原创 2018-11-20 08:54:31 · 602 阅读 · 1 评论 -
大数据分析:将大数据转化为巨额资金 第2章和第3章
第2章:为什么大数据很重要了解大数据是什么并了解它的价值是两回事。即使了解大数据分析,信息的价值仍然难以可视化。乍一看,结构化,非结构化和半结构化数据的井似乎几乎是不可思议的,每个桶只是一个不相关的数据元素。找出重要的事项及其重要性是从大数据井中汲取的第一步,也是避免信息淹没的关键。但是,这个问题仍然存在:为什么大数据很重要?对于中小型企业来说似乎很难回答,特别是那些已经避开过商业智...原创 2018-12-29 00:17:25 · 1678 阅读 · 0 评论 -
大数据分析:将大数据转化为巨额资金 第四章和第五章
第4章构建大数据团队 大数据项目最重要的元素之一是一个相当明显但经常被忽视的项目:人。 没有人工参与或解释,大数据分析变得毫无用处,没有任何目的,没有价值。 需要一个团队才能使大数据工作,即使该团队只由两个人组成,它仍然是一个必要的元素。将人们聚集在一起建立一个团队可能是一个艰巨的过程,涉及多个会议,也许是招聘,当然还有人事管理。 需要几种大数据专业技能,这就是团队的定义。 确定...原创 2018-12-29 09:15:56 · 996 阅读 · 2 评论 -
Data Governance
http://www.doc88.com/p-6873899140404.html The Responsive City: Engaging Communities Through Data-Smart Governance http://www.doc88.com/p-0418665567990.html Data Governance原创 2019-01-01 23:01:37 · 615 阅读 · 0 评论 -
数据治理工具
Data Governance Tools - Evaluation Criteria, Big Data Governance,内容: 前言 第一部分:导论: 1:数据治量简介 定义案例分析数据治理的支柱摘要 2:企业数据管理参考架构EDM类别大数据数据治理工具摘要第...原创 2019-01-02 10:43:39 · 6442 阅读 · 4 评论 -
数据可视化产生生产力
数据可视化就是借助于图形化手段,清晰有效地进行信息传达与沟通。许多人会着眼于“可视化”,认为数据可视化就是将一系列看上去很炫、很复杂的图表展示在页面上。其实不然,虽然可视化脱离不了各种图表类型,但并不意味着要以增加用户理解难度为代价去实现复杂的功能;或者为了看上去绚丽多彩而失去其最根本的意义:传达与沟通。数据可视化产生生产力数据可视化之所以会大受欢迎,其原因不仅在于能带给用户良好的的视觉效...转载 2019-04-09 08:57:35 · 840 阅读 · 0 评论 -
spark sql 将数据导入到redis 里面
#coding=utf-8from __future__ import print_functionfrom pyspark.sql import SparkSessionfrom pyspark.sql import Rowimport sysfrom decimal import *from rediscluster import StrictRedisClusterreloa...原创 2018-07-25 10:52:36 · 5090 阅读 · 2 评论 -
https://www.attunity.com/products/
https://www.attunity.com/products/原创 2018-06-09 00:13:14 · 463 阅读 · 0 评论 -
SparkR终极解决方案
问题:Spark支持sparkR需要安装R如果R需要支持强大的内库,就需要安装第三方内库(需要连网)。解决步骤: 第一:安装开发工具集R对操作系统有一定的要求,所以先安装开发工具集,因为里面有c++的编译 配置操作系统yum源(如果不会请百度) 安装开发原创 2017-04-28 14:11:35 · 1388 阅读 · 0 评论 -
HDP Hiveserver2搭建高可用
第一步:添加hiveserver2服务第二步:增加配置项hive.server2.support.dynamic.service.discoverytrue hive.server2.zookeeper.namespacehiveserver2 hive.zookeeper.quorumhadoop1:2181,hadoop0:2181,ha原创 2017-10-19 09:18:04 · 4226 阅读 · 0 评论 -
cdh vm使用
1:注册用户2:下载vm镜像参考资源 https://www.cloudera.com/documentation/enterprise/latest/topics/quickstart_vm_administrative_information.html原创 2017-11-01 12:49:29 · 658 阅读 · 0 评论 -
hive分区表增加字段后,依然查出来为null的处理方式
第一步:备份数据:如以下几个表:为假设uoc_order_tuoc_product_tuoc_source_t查询存储路径:使用语句:desc formatted uoc_order_t;hive>desc formatted intf.uoc_order_t;desc formatted intf.uoc_product_t;desc formatte原创 2018-01-11 14:41:49 · 1167 阅读 · 0 评论 -
Redis cluster proxy 解决方法
Redis Cluster and DockerCurrently Redis Cluster does not support NATted environments and in general environments where IP addresses or TCP ports are remapped.Docker uses a technique called port ma原创 2018-01-31 19:10:49 · 2604 阅读 · 0 评论 -
redis如何分配哈希槽
Redis 集群中内置了 16384 个哈希槽,当需要在 Redis 集群中放置一个 key-value时,redis 先对 key 使用 crc16 算法算出一个结果,然后把结果对 16384 取模,这样每个 key 都会对应一个编号在 0-16383 之间的哈希槽,redis 会根据节点数量大致均等的将哈希槽映射到不同的节点。crc 16 算法转载 2018-01-25 14:08:58 · 3009 阅读 · 0 评论 -
2017年7大开源商务指南平台和报表工具简介
在这篇文章中 , 我们将介绍一些顶级开源商务智能平台( BI ) 和报表工具。 在企业日常经营活动中 , 开放数据和大数据的作用正在不断增加 , 我们将如何分析和呈现我们的数据呢? 该列表覆盖的工具则可以很好解决这个问题。注意 , 这个列表并不包含所有的开源商业智能平台和报表工具, 另外本文将商业智能套件和普通报告工具是放在一起来讲的。TOP 1 BIRTBIRT 是一个开放源码的 Eclipse...原创 2018-03-15 16:07:31 · 521 阅读 · 0 评论 -
R重要的基础信息
.libPaths() 用来查看包文件Search() 可以告诉你哪些包已加载并可使用install.packages(“gclus”) 包的安装:update.packages()包的载入:包的安装是指从某个cran镜像站点下载并将其放入库中的过程,要在library命令载入这个包library(gclus)包的使用方法:载入一个包之后,Help(package=”package_name”) ...原创 2018-02-24 13:45:20 · 355 阅读 · 0 评论 -
开源对象存储方案
CephCeph是一种分布式对象、块和文件存储平台。Ceph的软件库为客户端应用程序提供了这种功能:直接访问基于RADOS对象的存储系统,还为Ceph的一些高级功能提供了基础,包括RADOS块设备(RBD)、RADOS网关和Ceph文件系统。参阅《面向OpenStack的Ceph存储入门介绍》:https://opensource.com/business/15/1/introduction-ce...原创 2018-03-12 14:03:24 · 11139 阅读 · 0 评论 -
kettle支持kerberos认证的hive集群
Kettle对接指南1.1 环境准备1.1.1 Linux平台安装操作系统步骤 1安装CentOS6.5 Desktop。步骤 1禁用防火墙,SELinux。步骤 2添加本地主机名解析,使用vi /etc/hosts添加本地主机名解析。162.1.115.89 kettle----结束步骤 1下载完整客户端,安装至目录“/opt/hadoopclient...原创 2018-04-13 15:58:35 · 8194 阅读 · 4 评论 -
centos 7 设置dns
CentOS7启用了新的dns管理工具nmcli connection show 查看当前启动的连接nmcli con mod eth0 ipv4.dns xxxxxxx 更改dns此时测试无法解析域名nmcli con up eth0 配置生效 ...原创 2018-04-24 08:47:11 · 994 阅读 · 0 评论 -
HBaseShell常用命令
Hbase shell下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下:名称 命令表达式 创建表 create '表名称', '列名称1','列名称2','列名称N' 添加记录 put '表名称', '行名称', '列名称:', '值' 查看记录 get '表名称', '行名称' 查看表中的记录总数 count '...原创 2018-05-05 16:08:44 · 468 阅读 · 0 评论 -
大数据:概念,方法,工具和应用程序
大数据:概念,方法,工具和应用程序目录第1节基本概念和理论本部分通过解决对理解大数据至关重要的基本原则,为此详尽的参考工具奠定了基础。这些页面中的章节提供了将大数据置于信息科学与技术领域的绝佳框架。 解决关于将全球措施纳入大数据的关键问题,同时探索这个领域的关键绊脚石。 本书包含了16章基础部分,读者可以从强化大数据学科的元素理论专家研究汇编中学习和选择第1章:大数据概述第2章:大数据预测和规范分...翻译 2018-05-08 09:54:09 · 1763 阅读 · 0 评论 -
hadoop yarn 资源配置
yarn.scheduler.capacity.default.minimum-user-limit-percent=100yarn.scheduler.capacity.maximum-am-resource-percent=0.2yarn.scheduler.capacity.maximum-applications=10000yarn.scheduler.capacity.node-loca...原创 2018-06-08 14:45:57 · 1251 阅读 · 0 评论 -
hdp hadoop ambari pgserver backup
#!/bin/bash export PGPASSWORD=bigdataBACKUP_PATH=/var/lib/pgsql/backupsLOG_FILE=/var/lib/pgsql/backups/pgbackup.logDATE=$( date +%Y_%m_%d_%k:%M:%S)remote_ip="test15"log(){LEVEL=$1I原创 2016-11-10 12:10:56 · 707 阅读 · 0 评论