
工具合集
文章平均质量分 75
闫哥大数据
终有一天,我会爬上一座高坡,看到不一样的风景,转身,告诉身边的人,我发现了什么。
B站账号:闫哥大数据 资料QQ3 群 :523554921
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
通过github开源软件一键清除无用的微信好友
我使用了一下,感觉还可以,网上有些朋友担心,泄密呀,钱被转走了等。我觉得不大可能,首先这个软件是开源的,开源不等于安全,但相对来讲不至于植入病毒,另外,微信端我相信不会这么容易就再不输入密码的情况下把钱转走,腾讯毕竟也有几把刷子的。进入之后,就很简单了,扫描把你删除的人,拉黑你的人,以及你拉黑的人。最后将删除你的人,打个标签,然后退出这个软件,在微信上退出 pad。于是乎网上学习一下,看到了一个一个好项目,试了一试,感觉还不错,分享出来。下载之后,点击这个服务器,启动,启动之后不要关闭,等待弹出浏览器。原创 2025-04-29 14:50:49 · 346 阅读 · 0 评论 -
高德MCP制作旅游攻略
它是Model Context Protocol的简称,是一种 由Anthropic推出的开放标准,旨在实现大型语言模型(LLM)与 外部数据源和工具之间的无缝集成。MCP通过标准化协议,使AI 模型能够安全地访问和操作本地及远程数据,从而提升AI应用的响应质量和工作效率。MCP 就像是一个 “通用插头” 或者 “USB 接口”,制定了统一的规范,不管是连接数据库、第三方 API,还是本地文件等各种外部资源,目的就是为了解决 AI 模型与外部数据源、工具交互的难题。原创 2025-04-24 11:12:28 · 865 阅读 · 0 评论 -
datax急速入门教程(保姆级)
mysql数据导入hive表,使用sqoop,不需要事先在hive中创建表,而datax需要。这样的话,大大提升了工作量。在咱们的datax中没hiveReader,但是有hdfsreader,所以本质上就是hdfs导出到mysql。hdfswriter 中的columns 类型,一般跟hive 表中的字段 类型保持一致是不会报错的。读取mysql的数据,将数据展示在控制台上。此时的stream其实就是控制台。原创 2025-03-17 21:51:46 · 705 阅读 · 0 评论 -
基于最新的Apache StreamPark搭建指南
官方文档Github地址Apache StreamPark™ 是一个流处理应用程序开发管理框架,旨在轻松构建和管理流处理应用程序,提供使用 Apache Flink® 和 Apache Spark™ 编写流处理应用的开发框架和一站式实时计算平台,核心能力包括不限于应用开发、部署、管理、运维、实时数仓等。为什么要使用 StreamPark 呢?它降低了学习成本和开发障碍,开发人员可以专注于业务逻辑。原创 2024-12-09 18:24:20 · 1604 阅读 · 0 评论 -
手把手教你搭建Redis集群
需要注意的是,Redis集群在实现上是一个相对复杂的系统,需要一些配置和管理的工作。例如,需要设置节点间的通信和复制机制,以及监控和管理集群的状态。因此,在使用Redis集群时,建议参考Redis官方文档或其他相关资源,以确保正确配置和操作集群。小伙伴们大家好,上一次给大家发了一个手把手教你使用哨兵模式搭建redis主从模式之后,收到了很多小伙伴的催更,让我出一个搭建Redis的教程,那么它来了!第九步:创建集群的意思。原创 2024-12-04 22:22:25 · 375 阅读 · 0 评论 -
Neo4J-图数据库入门
Neo4j是一种基于图形数据库模型的开源图形数据库管理系统。它专注于存储和处理图形数据结构,如节点、关系和属性,以提供高效的图形数据查询和分析功能。基于硬盘为什么要使用对数据的需求不在局限于对数据本身的获取,还需要获取数据与数据件的关系(就是连接数据)简单来说,图数据库主要用于存储更多的连接数据。原创 2024-12-04 22:20:47 · 1236 阅读 · 0 评论 -
Python脚本实现datax全量同步mysql到hive
在我们构建离线数仓时或者迁移数据时,通常选用sqoop和datax等工具进行操作,sqoop和datax各有优点,datax优点也很明显,基于内存,所以速度上很快,那么在进行全量同步时编写json文件是一项很繁琐的事,是否可以编写脚本来把繁琐事来简单化,接下来我将分享这样一个mysql全量同步到hive自动生成json文件的python脚本。原创 2024-12-01 19:59:08 · 480 阅读 · 0 评论 -
Maxwell的入门实战
Maxwell 是美国 Zendesk 开源,用Java 编写的 Mysql 实时抓取软件。实时读取 mysql 的二进制日志 Binlog,并生成 JSON 格式的信息,做为 生产者 发送 给 Kafka、Kinesis、RabbitMQ、Redis、Goodle Cloud Pub/Sub、文件 或 其他平台的应用程序。官网:常用的就是,将 MySQL 的数据 同步到 hdfs 上注意:也可以通过 sqoop 编写脚本的方式将 mysql的数据同步的hdfs上 (离线)原创 2024-12-01 19:55:01 · 1301 阅读 · 0 评论 -
一键生成数据库对应的所有DataX的json文件
Datax是一个非常优秀的数据导入导出工具,想必小伙伴们都使用过,但是今天老板说:小张,你把mysql中的所有表都导入到hive的ods层,这该怎么办?一张表对应一个json文件,这不得写一个月?我们可以通过python编写一个脚本来实现,说干就干。原创 2024-12-01 19:53:17 · 507 阅读 · 0 评论 -
impala入门与实践
impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具。impala是参照谷歌的新三篇论文(Caffeine--网络搜索引擎、Pregel--分布式图计算、Dremel--交互式分析工具)当中的Dremel实现而来,其中旧三篇论文分别是(MapReduce)分别对应我们即将学的HBase和已经学过的HDFS以及MapReduce。原创 2024-11-27 20:51:44 · 1780 阅读 · 0 评论 -
搭建单机版dolphinscheduler【实战很强,亲测可用】
但是单机版有一个致命的问题,就是当你重启ds服务之后,H2中的数据就没有了,下一次还需要重新配置,所以我们希望将H2数据库修改为mysql数据库,说干就干!修改配置文件:/opt/modules/ds/apache-dolphinscheduler-3.1.8-bin/standalone-server/conf。这个软件下面有很多的服务,将每一个服务下的common.properties中的内容全部修改一遍。使用laoyan 账户登录,或者修改admin 的租户,并授权项目管理。进程中,并且其中内置了。原创 2024-11-27 08:41:28 · 496 阅读 · 0 评论 -
帆软之FineBI案例分享--银行理财案例分析
视频:数据:制作步骤:导入数据。原创 2024-11-24 22:21:20 · 436 阅读 · 0 评论 -
Flink学习连载第二篇-使用flink编写WordCount(多种情况演示)
使用Flink编写代码,步骤非常固定,大概分为以下几步,只要牢牢抓住步骤,基本轻松拿下:1. env-准备环境2. source-加载数据3. transformation-数据处理转换4. sink-数据输出5. execute-执行。原创 2024-11-21 11:52:18 · 1691 阅读 · 0 评论 -
Flink学习连载文档第一篇--Flink集群的安装
Flink支持多种安装模式。local(本地)——本地模式standalone——独立模式,Flink自带集群,开发测试环境使用standaloneHA—独立集群高可用模式,Flink自带集群,开发测试环境使用yarn——计算资源统一由Hadoop YARN管理,生产环境测试。原创 2024-11-21 09:45:39 · 845 阅读 · 0 评论 -
hadoop集群搭建
web访问:namenode 在哪一台,就访问哪一台。分发mapred-site.xml & yarn-site.xml 到另外两台电脑上。目前有两台,克隆第一台(因为第一台上安装了hadoop), 克隆结束后,进行修复操作。路径:/opt/installs/hadoop/etc/hadoop。1) 修改IP 2) 修改主机名 3)修改映射文件hosts。继续配置:为了防止报AppMaster的错误,需要如下配置。修改完了第一台的配置文件,开始分发到其他两台上去。6、修改linux的⼀个安全机制。原创 2024-11-20 08:45:21 · 748 阅读 · 0 评论 -
虚拟机和远程工具的安装(hadoop集群安装01)
在普通的物理机上,虚拟出来一块资源,安装另一个操作系统,这样的软件就称之为虚拟机。它可以自动的切割一些资源(内存,硬盘,CPU,网络)相当于是模拟器(windows -->模拟器--> 安卓系统-->王者荣耀)远程连接工具非常多:XShell、FinalShell、SSH、Moba双击连接,第一次会出现提示点击:接收并保存,以后就不提示了。如果连接不上,如下进行:1、输入 ip addr 看是否有IP地址,如果没有,重置一下。2、关闭linux的防火墙3、直接重置网卡。原创 2024-11-20 08:43:53 · 836 阅读 · 0 评论 -
Linux设置以及软件的安装(hadoop集群安装02)
快照就是将来可以恢复,以及可以clone(克隆) 的基础,记得先关机, 再克隆。因为我们想将来操作某台服务器,不想通过IP操作,想通过用户名操作。1、创建一个文件夹,用于存放安装包 /opt/modules。假如检查了IP,发现没IP,也没有虚拟网卡,怎么办?点击虚拟机的编辑界面,点击【虚拟网络编辑器】,进入后,将你的hostname 跟 IP 进行一个对应。将软件解压到/opt/installs。思考:为什么号段是从128开始的呢?6、刷新配置文件,让配置文件生效。7、验证配置是否生效。原创 2024-11-20 08:39:59 · 534 阅读 · 0 评论 -
大数据环境已经搭建好的虚拟机的使用(毕设\学习\测试)
1、该虚拟机必须使用 Vmware17 打开,低版本是不可以的。请检查自己的 vmware 版本2、我们的虚拟机使用的 CentOS7.5 mini 版本的。3、虚拟机的 IP 已经设定为 192.168.233.131 这个固定 IP,不要修改4、该 linux 主机的主机名为 shucang5、该虚拟机使用的是 NAT 模式的6、安装的所有软件都在 /opt/installs 下面。原创 2024-11-20 08:33:11 · 635 阅读 · 0 评论 -
Kettle精讲(非常全面,建议收藏慢慢看)
Kettle最早是一个开源的ETL工具,全称为KDE Extraction, Transportation, Transformation and Loading Environment。KDE源于最开始的计划是在K Desktop Environment(www.kde.org)上开发这个软件,但这个计划被取消。原创 2024-11-19 21:56:07 · 2827 阅读 · 0 评论 -
CDH大数据平台搭建
全称Cloudera’s Distribution Including Apache Hadoop。hadoop的版本 (Apache、CDH、Hotonworks版本)在公司中一般使用cdh多一些(收费的)、也有公司使用阿里云大数据平台、微软的大数据平台。国内也有一些平台:星环大数据,一个朋友的公司(优刻得UCloud)ClouderaManager : 简称 CM (CDH的管理界面)。Cloudera Manager是用于管理CDH群集的端到端应用程序。原创 2024-11-19 21:44:54 · 1573 阅读 · 0 评论 -
非常实用的浏览器插件(去广告、解除复制限制、解除下载限制)
给今天看到一个非常不错的几款浏览器插件,分享一次,希望你的浏览器可以所向披靡,无所不能。原创 2024-11-16 22:23:41 · 1375 阅读 · 0 评论 -
后羿采集器(毕设数据爬取神器)
后羿采集器_真免费!导出无限制网络爬虫软件_人工智能数据采集软件介绍:前谷歌技术团队倾力打造,基于人工智能技术,只需输入网址就能自动识别采集内容同类型产品:八爪鱼八爪鱼采集器 - 免费网络爬虫软件_网页大数据抓取工具。原创 2024-11-09 14:33:40 · 2297 阅读 · 0 评论 -
编写简历网站推荐
编写一份漂亮的简历,是找工作的必备环节,今天我将收集到的编写简历的网站分享一下:原创 2024-11-04 17:34:47 · 617 阅读 · 0 评论 -
较大文件相互传输的三个工具
我们在工作过程中,经常会出现需要给别人发送大文件的情况,一般的做法是:1、使用QQ这种方式不仅需要添加好友,而且还传输比较慢2、使用网盘如果你是会员,而对方不是,那么对方下载速度比较慢怎么办呢?今天给大家介绍三款临时传输大文件的三个工具。原创 2024-11-04 15:35:40 · 1946 阅读 · 0 评论