
BIG DATA
文章平均质量分 68
0x8g1T9E
0x8g1T9E
展开
-
用Python操作HBase之HBase-Thrift
安装Thrift安装Thrift的具体操作,请点击链接https://blog.youkuaiyun.com/y472360651/article/details/79055875Python操作Hbase安装依赖包pip install thriftpip install hbase-thrift连接与操作代码如下:from thrift.transport import TSocket,TTransportfrom thrift.protocol import TBi...原创 2021-08-25 15:38:10 · 882 阅读 · 0 评论 -
pyflink pyalink pyspark on jupyter docker一键构建
https://hub.docker.com/r/hzchendou/pyalink基于jupyter镜像构建了 阿里开源 算法平台 alink, 地址:https://github.com/alibaba/alinkjupyter 镜像地址:https://hub.docker.com/r/jupyter/datascience-notebookalink 流/批处理框架使用的是 flink, 因此在镜像中配置 jdk 8环境容器运行下载镜像docker pull hzchendo原创 2021-03-11 12:09:07 · 2994 阅读 · 0 评论 -
Jupyter notebook运行Spark+Scala教程
关注公众号:宏睿时空 获取最新最好的资料这篇文章主要介绍了Jupyter notebook运行Spark+Scala教程,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧今天在intellij调试spark的时候感觉每次有新的一段代码,都要重新跑一遍,如果用spark-shell,感觉也不是特别方便,如果能像python那样,使用jupyter notebook进行编程就很方便了,同时也适合代码展示,网上查了一下,试了一下,碰到了很多坑,有些是旧的版本,还有些是版本不同导致错误..原创 2021-03-11 11:36:32 · 4041 阅读 · 0 评论 -
Hadoop 大数据平台常用组件端口号汇总
组件 端口及说明 CDH 7180: Cloudera Manager WebUI端口 7182: Cloudera Manager Server 与 Agent 通讯端口 Hadoop 50070:HDFS WEB UI端口 8020 : 高可用的HDFS RPC端口 9000 : 非高可用的HDFS RPC端口 8088 : Yarn 的WEB UI 接口 8485 : JournalNode 的RPC端口 8019 : ZKFC端口...原创 2021-03-10 17:31:49 · 4124 阅读 · 0 评论 -
hadoop使用docker安装和使用(单节点适合开发环境)
安装环境http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.htmlhttps://hub.docker.com/r/sequenceiq/hadoop-docker/tags?page=1&ordering=last_updated dockerhubcentos7.2docker 18.06.0-ce(这个安装参考我的另外一篇博客https://blog.csdn..原创 2021-03-10 15:34:58 · 3364 阅读 · 0 评论 -
Flink Scala Shell:使用交互式编程环境学习和调试Flink 三种模式 local remote yarn
交互式编程环境:REPL当前最著名的交互式编程环境莫属Jupyter Notebook了,程序员可以启动一个交互的Session,在这Session中编写代码、执行程序、获取结果,所见即所得。交互式编程的优势包括:快速启动一个程序:程序员不需要“编译、打包、执行”这一套复杂过程,只需要开启一个交互Session,敲下代码,直接得到结果,非常适合验证一段代码的结果。 直接获得程序反馈:使用print,可以在交互环境中直接得到程序结果,无需将输出导出到文件或其他位置。程序员敲入几行程序命令...原创 2021-03-08 11:48:30 · 3086 阅读 · 0 评论 -
目前颜值最高的开源BI工具-Superset
没有声音,再好的戏也出不来同样,没有可视化,再好的数据分析也不完美数据可视化是大数据的『最后一公里』简介Superset的Airbnb开源的数据可视化工具,目前属于Apache孵化器项目,主要用于数据分析师进行数据可视化工作 PS,Airbnb在数据方面做的很棒,相关的博客B格也很高,他们的博客名字居然叫『Airbnb Engineering & Data Science』,可见对于数据科学的重视 在github上搜索数据可视化,Superset的star...原创 2021-03-08 11:29:41 · 3198 阅读 · 0 评论 -
Hadoop FS 常用命令详解
1、概述Hadoop文件系统(FS)提供了各种shell命令,与shell命令类似,可用于同分布式文件系统(HDFS)进行交互,以管理HDFS集群中的文件和数据。2、Hadoop FS常用命令(1)创建目录用法:hadoop fs -mkdir <paths>示例:创建单个目录:hadoop fs -mkdir /home/myfile/dir1创建多目录:hadoop fs -mkdir /home/myfile/dir1 /home/myfile/dir2(2.原创 2021-03-08 10:42:22 · 6839 阅读 · 0 评论 -
Spark大型电商项目实战 Spark机器学习库(MLlib)官方指南手册中文版
https://github.com/horysk/SprakProjecthttps://blog.youkuaiyun.com/u012318074/category_6744423.html原创 2021-03-05 11:42:53 · 2642 阅读 · 0 评论 -
Flink 教程 gitbook 从入门到入土(详细教程)
Flink从入门到入土(详细教程)和其他所有的计算框架一样,flink也有一些基础的开发步骤以及基础,核心的API,从开发步骤的角度来讲,主要分为四大部分1.EnvironmentFlink Job在提交执行计算时,需要首先建立和Flink框架之间的联系,也就指的是当前的flink运行环境,只有获取了环境信息,才能将task调度到不同的taskManager执行。而这个环境对象的获取方式相对比较简单// 批处理环境val env = ExecutionEnvironment.ge原创 2021-03-04 14:57:40 · 2858 阅读 · 1 评论 -
mysql查询今天、昨天、近7天、近30天、本月、上一月的SQL语句
这篇文章主要介绍了mysql查询今天、昨天、近7天、近30天、本月、上一月的SQL语句,一般在一些统计报表中比较常用这个时间段,需要的朋友可以参考下mysql查询今天,昨天,近7天,近30天,本月,上一月数据的方法分析总结:话说有一文章表article,存储文章的添加文章的时间是add_time字段,该字段为int(5)类型的,现需要查询今天添加的文章总数并且按照时间从大到小排序,则查询语句如下:代码如下:select * from `article` where date_format(f原创 2021-03-02 16:32:19 · 3127 阅读 · 0 评论 -
mysql 每4小时统计一次数据
select id,FLOOR(id/4) hourGroup, case FLOOR(id/4) when 0 then '00:00~04:00' when 1 then '04:00~08:00' when 2 then '08:00~12:00' when 3 then '12:00~16:00' when 4 then '16:00~20:00' when 5 then '20:00~00:00' .原创 2021-03-02 16:28:32 · 3361 阅读 · 0 评论 -
MySQL查询 每年 每月 每日 订单数和订单金额
mysql函数1. FROM_UNIXTIME()函数时间戳转换时间SELECT FROM_UNIXTIME(1588238359) AS 时间;2. year()获取时间的年份SELECT YEAR('2020-04-30 17:19:19') AS 年;3. month()获取时间的月份SELECT MONTH('2020-04-30 17:19:19') AS 月;4. day()获取时间的日SELECT DAY('2020-04-30 17:19:19'原创 2021-03-02 16:25:09 · 6242 阅读 · 0 评论 -
pandas分组统计 - groupby功能 多列聚合分组 和 MultiIndex取值 DataFrame双重索引取值
数据分组分组统计 - groupby功能① 根据某些条件将数据拆分成组② 对每个组独立应用函数③ 将结果合并到一个数据结构中Dataframe在行(axis=0)或列(axis=1)上进行分组,将一个函数应用到各个分组并产生一个新值,然后函数执行结果被合并到最终的结果对象中。df.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs).原创 2021-03-02 15:58:22 · 4711 阅读 · 0 评论 -
MySQL查询表与表字段的信息
环境:Mysql数据库库名:db_name表名: table_name1 table_name2查询一个里面所有表的信息:use information_scheam;select * from tables where table_schema = "db_name";查询单个表的信息:use information_scheam;select * from tables where table_schema = "db_name" and table_name =...原创 2021-02-26 09:00:10 · 2940 阅读 · 0 评论 -
docker + Druid+ superset及使用
https://hub.docker.com/r/apache/superset dockerhub 地址https://www.apache-druid.cn/GettingStarted/chapter-2.html Druid dockerHow to use this imageStart a superset instance on port 8080$ docker run -d -p 8080:8080 --name superset apac...原创 2021-02-24 17:24:26 · 2666 阅读 · 0 评论 -
docker部署ambari-2.7.3(大数据集群快速搭建)大数据服务组件
之前有使用docker搭建了一套Apache Hadoop版本的大数据平台,整个编写脚本和搭建过程花了很多时间,且灵活性不好。Ambari在大数据集群部署方面有得天独厚的优势,但是集群操作系统安装准备工作以及基础包的安装还是需要花费很多的时间。为了节省大数据集群的部署时间接下来我们用Docker容器化的方案部署Ambari。费话少说,放码出来。让我们开始吧!Ambari的架构从Ambari的架构主要有两个组件:Ambari Server和Ambari Agent。Ambari架构图...原创 2021-02-24 15:48:48 · 4562 阅读 · 1 评论 -
数据中台百家争鸣,到底谁的好?我这里设计了一套指标评估体系
大数据技术如何打造企业数据中台的评估指标体系,一方面指导企业自身的数据中台建设,另一方面为企业间数据中台的比较提供一个参考标准。去年写过一篇文章谈了数据中台的初步评估方法。今天再谈谈落地的细节,即如何打造企业数据中台的评估指标体系,一方面指导企业自身的数据中台建设,另一方面为企业间数据中台的比较提供一个参考标准。1、行业实践参考第一个是DCMM。数据管理能力成熟度评价模型(Data management Capability Maturity Model 简称DCMM)是国家大...原创 2021-02-24 14:46:44 · 3074 阅读 · 0 评论 -
HDFS 监控背后那些事儿,构建 Hadoop 监控共同体
运维开源最佳实践Hadoop 分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。HDFS 能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。在大数据生态圈中,HDFS 是最重要的底层分布式文件系统,它的稳定性关乎整个生态系统的健康。本文介绍了 HDFS 相关的重要监控指标,分享指标背后的思考。HDFS 监控挑战 HDFS 是 Hadoop 生态的一部分,监控方案不仅需适用 HDFS,其他组件如 Yarn、H...原创 2021-02-24 14:43:55 · 4769 阅读 · 0 评论