- 博客(50)
- 资源 (5)
- 收藏
- 关注
原创 Atlas Hook 导入 Hive 元数据
Atlas 部署之后就可以导入 Hive 元数据,这部分工作由 Atlas 组件 Hook 来完成。初次导入 Hive 元数据需要通过执行 shell 脚本来完成,然后,Atlas 就可以自动同步增量元数据信息了。下面我介绍一下如何完成这些工作。
2024-01-01 16:04:25
778
1
原创 Atlas 2.2.0 安装部署
Apache Atlas 是一套可扩展、可延伸的核心基础治理服务,使企业能够切实有效地满足 Hadoop 中的合规性要求,并允许与整个企业数据生态系统集成。Apache Atlas 提供开放的元数据管理和治理功能,使企业能够建立数据资产目录,对这些资产进行分类和治理,并为数据科学家、分析师和数据治理团队提供围绕这些数据资产的协作功能。在实际应用中,Atlas 主要用于查看数据血缘,下面我们来看一下 Atlas-2.2.0 的安装部署步骤。
2023-12-31 12:26:25
1210
原创 【已解决】Atlas 导入 Hive 元数据,执行 import-hive.sh 报错
Apache Atlas 执行 import-hive.sh 报错 ClassNotFoundException: org.apache.hadoop.hdfs.HdfsConfiguration 处理
2023-12-17 16:28:48
1014
原创 【已解决】Cannot find project Scala library 2.11.8 for module XXX
在 flink 示例程序调试过程中,reload project 报错。
2023-12-01 20:36:56
1965
原创 【已解决】HBase 2.2.6 集群部署后,从节点未启动 HRegionServer
而启动之前的 HBase 2.4.11 则完成正常,我就有点怀疑是不是 HBase 2.2.6 集群搭建有什么特殊的地方?然后,我就去查 HBase 2.2.6 集群部署的文章,这次我发现了一个点,就是。3、重启启动 HBase 2.2.6 集群,可以看到此时的从节点已经启动了。的配置设置其自己的 hostname,这种情况下主节点的配置中只有一台。今天搭建了 HBase 2.2.6 集群环境,启动之后发现,从节点的。文件中配置的服务器并不是一台,而是所有计划用作。文件配置未所有节点(主节点和从节点)
2023-11-26 18:04:13
1256
原创 zookeeper启动报错Client port found: 2181. Client address: localhost
使用命令bin/zkServer.sh start启动服务,日志无异常。但是使用 jps 命令查看没有看到 QuorumPeerMain 进程。后再次启动,zookeeper 可以正常启动。配置值不能相同,将三台服务器。,集群中的不同服务器,
2023-08-22 18:04:51
2862
原创 大数据处理技术导论(6) | Datawhale组队学习46期
hive 是建立在 hadoop 之上的数仓工具。它将 hadoop 上存储的结构化、半结构化数据文件映射为表,使得可以通过 HiveQL(HQL)对存储于 hadoop 上的大型数据文件进行访问与分析。hive 本身并不存储数据,它只是提供了用户与 hadoop 系统文件之前的连接通道。其核心是将 HQL 翻译成 MapReduce 任务,然后提交至 hadoop 集群中进行执行,并给用户返回处理结果。hive 大幅降低了普通业务人员或者说数据开发(不了解 java 编程)进行大数据分析的门槛。
2023-03-01 20:09:39
665
原创 大数据入门:HDFS API 常规操作
今天看尚硅谷大海哥的hadoop课程,学习了 HDFS API 的常规操作,虽然很简单,但是对于我这个门外汉来说,这些都属于全新的领域,掌握之后感觉非常的开心,特此记录一下。
2022-08-06 20:14:40
786
原创 PAD变量
文章目录PAD变量(1)数字类型PAD变量(2)文本类型PAD变量(3)日期时间类型PAD变量(4)布尔类型PAD变量(1)数字类型SET num1 TO 1SET num2 TO 3.3SET sum TO $'''1 + 2'''SET sum2 TO num1 + num2SET sum3 TO $'''%num1%+%num2%'''SET Textnum TO $'''%'1'%'''SET dif TO 2 - 5SET dif2 TO 1 - difSET mul TO 5
2022-05-29 22:02:51
392
原创 ssh: connect to host localhost port 22: Connection refused
今天本机安装hadoop 时,遇到一个问题,配置 ssh 登录权限失败xxx@yyy:/opt/hadoop$ ssh localhostssh: connect to host localhost port 22: Connection refused百度搜索了好多文章都没能搞定,最后还是通过 bing 搜索(国际版) 搞定的,这里分享一下。1 确认 OpenSSH server 是否安装sudo apt list --installed | grep openssh-server如果有如
2022-02-08 19:52:27
41659
7
原创 Linux实践学习笔记3 | DataWhale组队32期
哈哈哈,我又来参加DataWhale组队学习了,本期是第32期组队学习,具体时间20211213~20211228,学习网址如下:
2021-12-25 16:56:47
626
1
原创 Linux实践学习笔记2 | DataWhale组队32期
哈哈哈,我又来参加DataWhale组队学习了,本期是第32期组队学习,具体时间20211213~20211230,学习网址如下:
2021-12-22 22:31:28
1215
原创 Linux实践学习笔记1 | DataWhale组队32期
哈哈哈,我又来参加DataWhale组队学习了,本期是第32期组队学习,具体时间20211213~20211230,学习网址如下:xxx目录任务1任务2任务3任务1任务2任务3
2021-12-16 21:57:50
508
原创 QGIS小妙招-创建缓冲区
大家熟知的地图软件 mapinfo 被禁止使用之后,开源地图软件QGIS 在通信圈大放异彩,今天分享一下使用 QGIS 创建缓冲区的步骤。1. 坐标系转换我们手上的图层默认是没有坐标系的,制作缓冲区要求我们去选定坐标系 EPSG:32650 - WGS84 / UTM zone 50N 。首先导入图层将图层另存为 shape 格式,具体参考如下图片:2. 制作缓冲区依次打开步骤 1 制作的包含坐标系的 shape 图层,在左侧 图层 工作区,选中线图层(比如高铁、高速线路图层),选中后依
2021-04-28 22:29:18
7223
8
原创 DatawhaleTL24 | Docker Task06:综合实践
本节实践将本地项目部署在 Docker 容器中,以便于 CI/CD (持续集成和持续交付),甚至是协作交付,因为 Docker 更容易进行移植。...
2021-04-23 21:29:21
127
原创 DatawhaleTL24 | Docker Task05:Docker-Compose
`compose` 是 `Docker` 官方的开源项目,用于实现 **`容器集群`** 的快速编排。其定位是:定义和运行多个 Docker 容器的应用。在实际工作中,单个容器很难完成项目,一般需要多个容器配合才能完成。`compose` 专门应对这种需求。...
2021-04-21 22:52:14
157
原创 DatawhaleTL24 | Docker Task01: 简介与安装
工作中有一些虚拟化的应用场景,而 Docker 据说一种良好的解决方案,所以我就参加了本次组队学习。
2021-04-11 16:12:36
149
原创 Python办公自动化 | word 表格转excel
之前写过一篇 Python办公自动化 | 批量word报告生成工具 ,有小伙伴提出了逆向需求,即:从批量word中获取内容并写入excel,需求背景是汇总一些材料,举例:实习鉴定表、个人简历、档案等。实际需求是这样的,现在有如下格式的若干word文档,需要录入标黄信息到excel,手工录入效率太低了,能不能用python实现呢?答案是肯定的安装 docxpip install pothon-docx导入 docxfrom docx import Document读取 word 文件doc=D
2020-07-04 12:06:37
1009
原创 Python办公自动化 | 批量word报告生成工具
有时候我们需要按照某种规则生成一种固定模板的word报告,python能够很好的完成这项工作。本文通过一个小示例说明一下如何通过Python实现自动生成word报告。首先我们需要有一个word报告模板,模板中内置了一些需要修改的关键字,类似这个样子如上图所示,文档中标红的文字都属于关键字,是需要替换的。这里,我们还需要一份excel表格,用来存储报告的关键内容。到这里,准备工作就做好了,可以开始写代码了。处理word需要用到python-docx包,先pip安装pip install pyt
2020-07-04 11:20:30
4047
原创 Python办公自动化 | excel读取和写入
python在办公自动化领域应用广泛,本文学习一下如何使用python读取和写入excel。EXCEL读取和写入可以用到两个包:xlrd 和 xlwt。Excel读取excel几个基本概念:工作簿就是指这个excel文件工作表就是excel文件中的不同sheet单元格就是某个sheet中的某个位置首先在cmd命令行安装 xlrd 包pip install xlrd安装后咱们开始编写代码首先导入xlrd包import xlrd打开工作簿xlsx = xlrd.open_workbo
2020-07-04 11:09:12
475
原创 获取PowerBI账号的几个途径
用过PowerBI的朋友知道,之前用个人邮箱注册的账号是可以web发布的,现在却不行了,这该怎么办呢?下面总结一下我知道的几个途径,欢迎补充1、pbihub. cn免费获取登录 www.pbihub.cn在首页可免费申请2、找业界大佬赠送。3、找我...
2020-05-29 08:21:08
6388
3
原创 利用Python批量合并csv
import pandas as pdimport ospath = input('请输入文件夹路径: ')files = os.listdir(path)csv_list = []for f in files: if os.path.splitext(f)[1] == '.csv': csv_list.append(path + '\\' + f) e...
2020-02-16 22:05:01
832
翻译 10分钟入门pandas-系列2
前文回顾咱们书接上回,继续入门pandas。缺失数据处理pandas默认使用np.nan表示确实数据。重新索引可以在特定的轴上修改、新增和删除索引。他将返回数据的副本。In [9]: import pandas as pd ...: import numpy as np ...: ...: ...: s = pd.Series([1, 3, 5, np.nan,...
2019-12-01 13:40:45
197
原创 10分钟入门pandas-系列1
本文使用pandas最新版本0.25.3验证。pandas安装命令如下:pip install pandas如果不是最新版本,建议升级至最新版本,版本升级命令如下:python -m pip install --upgrade pandas首先导入pandas包,numpy包经常一起使用,一同导入In [1]: import pandas as pdIn [2]: import ...
2019-12-01 09:50:48
286
利用Mapinfo自带Voronoi功能制作TAC、LAC、BSC边界线
2017-02-04
利用Mapinfo自带Voronoi功能制作TAC、LAC、BSC边界
2016-06-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人