
BigData: 不止于大
文章平均质量分 90
从理论到实战, 一点点完善
云原生AI百宝箱
行万里路,此处相逢,共话云原生A之道。偶逗趣事,明月清风,与君同坐。已出版《Kubernetes:云原生与容器编排实战》,将出版《A大模型原理与场景应用》
展开
-
Metabase的基本使用:10分钟快速入门
Metabase使用手册初始配置按提示一步步填写相关信息即可,注意第一个创建的账户默认即为管理员账户数据分析接下来就可以正式使用了,右上角各功能如下:下面就以具体场景为例,分别解释各项功能,点击创建问题 --》简单查询,先从简单的开始,走一遍整体流程简单查询假设我要对一张名为train_task_info的实训考试成绩信息做多个维度的分析,表结构与测试记录如下:字段说明User Name: 用户姓名Train Sim Type: 实训考试类型Train Name: 实训考原创 2021-11-18 17:53:31 · 10775 阅读 · 4 评论 -
基于MinIO/Deleta Lake/Dremio和Superset或Metabase搭建简单的数据湖
前言基础环境DockerDocker: 20.10.10访问地址Portainer地址:http://10.0.0.198:9999/#!/home用户名/密码 admin/ admin123MinIO地址: http://10.0.0.198:9009/dashboard用户名/密码 minio/minio123Spark地址: http://10.0.0.198Dremio地址: http://10.0.0.198:90...原创 2021-11-05 13:24:15 · 4132 阅读 · 0 评论 -
基于云原生的大数据实时分析方案实践
1 方案介绍大数据处理技术现今已广泛应用于各个行业,为业务解决海量存储和海量分析的需求。但数据量的爆发式增长,对数据处理能力提出了更大的挑战,同时对时效性也提出了更高的要求。实时分析已成为企业大数据分析中最关键的术语,这意味企业可将所有数据用于大数据实时分析,实现在数据接受同时即刻为企业生成分析报告,从而在第一时间作出市场判断与决策。典型的场景如电商大促和金融风控等,基于延迟数据的分析结果已经失去了价值。另外随着云原生时代的到来,云原生天生具有的高效部署、敏捷迭代、云计算资源成本和弹性扩展等优势,正在加转载 2021-10-25 11:04:54 · 532 阅读 · 0 评论 -
使用 Iceberg on Kubernetes 打造新一代云原生数据湖
文章目录使用 Iceberg on Kubernetes 打造新一代云原生数据湖背景何为 IcebergIceberg on Kubernetes如何构建云原生实时数据湖架构图创建 Kubernetes 集群部署 Hadoop 集群注意集成 Iceberg创建和使用 Iceberg 表总结参考材料使用 Iceberg on Kubernetes 打造新一代云原生数据湖背景大数据发展至今,按照 Google 2003年发布的《The Google File System》第一篇论文算起,已走过17个年头转载 2021-10-20 10:57:41 · 529 阅读 · 0 评论 -
数据湖:存储全量数据,快速实现洞察
“数仓出局,中台已凉,数据湖将称王!”目前,市场上出现了这样一种说法,估计大多数人很难评断真伪。既便是专业人士,也不会武断地做出这样的研判,毕竟数据湖并不是为了取代数仓而生的。同时广大的用户更看重的是应用价值,而不是新名词或者换汤不换药的噱头。毫无疑问,数字经济时代,数据已成为企业的核心资产。数据湖(Data Lake)已经成为继数据库、数据仓库之后敏捷处理数据、提升数据洞察力的又一标志性的技术。摸清家底,搞清方向,应用数据湖才能心里有谱。01数据湖是开疆拓土不是替代既有产品1)数据..转载 2021-10-14 09:53:08 · 748 阅读 · 0 评论 -
Dremio: 将 Minio 配置为分布式存储
Minio 可以用作分布式存储。请注意,Minio 可用作 SSL 和未加密连接的分布式存储。看配置分布式存储 想要查询更多的信息。为 Minio 配置 S3从 Dremio 3.2.3 开始,Minio 作为实验性的S3 兼容插件提供。要在 Dremio UI 中为 Minio 配置 S3 源:在Advanced Options 下,选中Enable compatible mode (experimental)。在高级选项 > 连接属性下,添加fs.s3a.path.style.acce原创 2021-10-13 17:04:28 · 1248 阅读 · 0 评论 -
Dremio: 为 Tableau Desktop 配置 Dremio 连接器
为 Tableau Desktop 配置 Dremio 连接器注意: 对于 Tableau Desktop 2021.2 或更高版本,本机 Dremio 连接器是连接到 Dremio 的推荐方法。下载 Dremio JDBC 驱动程序 并根据你的操作系统将其复制到下面指定的文件夹中。苹果电脑在终端中,运行以下命令将驱动程序下载到~/Library/Tableau/Drivers. 你也可以手动下载驱动程序并将其移动到文件夹中。curl https://download.dremio.com原创 2021-10-13 17:00:34 · 406 阅读 · 0 评论 -
Dremio:使数据分析民主化
文章目录概括数据湖定义及由来让数据湖更简单为什么开放数据对数据湖和湖库很重要数据湖应该具备哪些能力?介绍Dremio核心技术Dremio特点Dremio数据结构Dremio功能Dremio支持的数据湖Dremio支持的数据源产品体验Dremio 在云数据湖上启用 BI可视化集成Tableau使用帮助文档Tableau Public 与其他 Tableau 产品的区别体现在哪些方面?公开共享免费且限制较少完全托管部署教程Linux部署(RPM方式)Docker方式(单节点)Docker镜像单节点部署Docke原创 2021-10-13 16:54:12 · 2012 阅读 · 0 评论 -
数据湖搭建指南——几个核心问题
目录1、什么是数据湖?2、为什么要使用数据湖?数据湖与数据仓库3、如何构建数据湖?4、数据湖技术路线5、应用6、数据湖的挑战7、如何避免数据沼泽1、什么是数据湖?数据湖是一种技术系统,可以大批量并且廉价的分析结构化和非结构化数据资产。其实很简单,数据湖的最大魅力在于可以分析一切类型的数据。自 2010 年首次提出“数据湖”一词以来,采用数据湖架构的组织数量呈指数级增长。 它们支持多种分析功能,从数据的基本 SQL 查询到实时分析,再到机器学习。.转载 2021-10-13 10:02:40 · 1260 阅读 · 0 评论 -
数据湖: 只是一个新名字? 从哪里来, 往那里去
目录基本认识大数据背景?为什么它很大?什么是数据仓库?什么是数据湖?数据湖与数据仓库——主要区别数据湖和数据仓库的对比数据湖 vs 数据仓库数据湖中的价值来自非策划数据的见解新形式的分析企业记忆保留数据集成的新方法数据湖的常见陷阱数据孤岛和集群扩散。缺乏最终用户的采用。有限的商业现成工具。数据访问的冲突目标。开源数据湖架构基本认识据称此术语由James Dixon为了与数据集市对比而提出,当时他是Pent...原创 2021-09-27 10:42:52 · 1373 阅读 · 0 评论