
大数据相关
文章平均质量分 88
roykingw
充满好奇心的技术实用派。B站配套视频:https://space.bilibili.com/628711083。更多信息关注公众号: 老王多指教。
展开
-
使用Redis构架你自己的私有大模型
Redis你通常用来做什么?缓存?分布式锁?数据过滤器?不够不够,这远远不够。之前给大家分享过基于Redis Stack提供的一系列插件,完全可以把Redis作为一个类似于Elastic Search的JSON数据库使用。不光可以存储并操作JSON格式的数据,而且可以实现各种复杂的检索。 而现在到了大模型时代,Redis又有了一个更加重要的用途:。基于向量数据库,可以实现一系列更贴近自然语言的检索功能。这也成了AI大模型应用落地的基石。原创 2025-03-31 09:28:33 · 637 阅读 · 0 评论 -
小白闯AI:Llama模型Lora中文微调实战
小白闯AI,Llama模型Lora中文微调实战。AI大模型应该是一个工具,让你能够更放心去闯的工具,而不应该成为偷懒的工具。而最终会抢掉人类饭碗的,永远是那些跑在你前面的人,而不是一个工具。原创 2025-03-21 14:53:40 · 1206 阅读 · 0 评论 -
程序员的AI五步提示词大法
AI大模型如火如荼,你有没有陷入过AI终将代替人类的终极焦虑? 使用AI大模型,提示词的重要性毋庸置疑。不管是向AI大模型问问题,还是围绕AI大模型构建应用,设计高效的提示词都是其中最重要的一个环节。尤其当你想要在一些具体的业务场景下使用AI大模型时,你不可能真的像聊天一样,慢慢跟大模型软磨硬泡,这时一个高效的提示词就显得尤为重要了。即便像LangChain4j,SpringAI这些纯面向程序员的AI大模型框架,其各种工具的背后,也是通过定制各种各样的提示词,从而让AI大模型帮助实现某种功能。原创 2024-11-26 10:22:55 · 1506 阅读 · 0 评论 -
Kafka3.x核心速查手册三、服务端原理篇-3、Broker故障恢复机制
所有Follower Partition上报后,Leader Partition才能更新HW的值,然后Follower Partition在下次拉取消息时,才能更新HW值。当Leader Partition出现切换,所有的Follower Partition都按照自己的HW进行数据恢复,就会出现数据不一致的情况。所以在很多对性能要求比较高的线上环境,会选择关闭Kafka的这个Leader Partiton自平衡操作,而用其他运维的方式手动进行Leader Partiton自平衡,尽量减少自平衡过程。原创 2022-09-16 19:33:25 · 1491 阅读 · 0 评论 -
Kafka3.x核心速查手册三、服务端原理篇-2、Broker选举机制
而在一个Partition的众多备份中,需要选举出一个Leader Partition,负责对接所有的客户端请求,并将消息优先保存,然后再通知其他Follower Partition来同步消息。 当一个集群内的Kafka服务启动时,就会尝试往Zookeeper上创建一个/controller临时节点,并将自己的brokerid写入这个节点。 选举产生的Controller节点,就会负责监听Zookeeper中的其他一些关键节点,触发集群的相关管理工作。原创 2022-09-16 19:31:06 · 917 阅读 · 0 评论 -
Kafka3.x核心速查手册三、服务端原理篇-1、Zookeeper整体数据
这一部分主要是理解Kafka的服务端重要原理。但是Kafak为了保证高吞吐,高性能,很多具体实现都是相当复杂的。如果直接跳进去学习研究,很快就会晕头转向。所以,找一个简单清晰的主线就显得尤为重要。这一部分主要是从存储的角度来理解Kafka的Broker运行机制。这对于上一章节建立的简单模型,是一个很好的细节补充。 Kafka依赖很多的存储数据,但是,总体上是有划分的。Kafka会将每个服务的不同之处,也就是状态信息,保存到Zookeeper中。原创 2022-09-16 19:28:49 · 800 阅读 · 0 评论 -
Kafka3.x核心速查手册二、客户端使用篇-7、生产者消息事务
快速、系统掌握Kafka生产者消息事务原创 2022-09-07 13:36:42 · 429 阅读 · 0 评论 -
Kafka3.x核心速查手册二、客户端使用篇-6、消息发送幂等性
Kafka消息发送幂等性原创 2022-09-07 13:34:29 · 391 阅读 · 0 评论 -
Kafka3.x核心速查手册二、客户端使用篇-5、发送应答机制
快速理解Kafka的发送应答机制原创 2022-09-07 13:32:41 · 420 阅读 · 0 评论 -
Kafka3.x核心速查手册二、客户端使用篇-4、消息路由机制
快速理解Kafka的消息路由机制原创 2022-09-07 13:30:56 · 514 阅读 · 0 评论 -
Kafka3.x核心速查手册二、客户端使用篇-3、消息序列化机制
快速理解Kafka的消息序列化机制原创 2022-09-07 13:29:02 · 394 阅读 · 0 评论 -
kafka如何保证消息不丢失?半分钟的答案和半个小时的答案有点不一样。
关于Kafka保证消息不丢失的问题,就简单总结到这里,但这其实并不是结束。相反,随着你对Kafka理解得越深,你会发现这个问题会有更多的发散空间。像MQ如何保证消息不丢失?如何不重复消费?如何处理消息积压?等等,这都是一系列非常开放的面试题。对于你是否真正理解了每个MQ产品,是非常好的检验标准。所以,这么好的题目,如果只是简简单单背个八股文,那太可惜了。...原创 2022-08-30 19:47:54 · 8445 阅读 · 0 评论 -
Kafka3.x核心速查手册二、客户端使用篇-2、分组消费机制
Kafka的HighLevel API的重要目的就是想要简化客户端的使用方式,所以对于API的使用,尽量熟练就可以了。对于其他重要的属性,都可以通过源码中的描述去学习,并且可以设计一些场景去进行验证。其重点,是要逐步在脑海之中建立一个Message在Kafka集群中进行流转的基础模型。 其实Kafka的设计精髓,是在网络不稳定,服务也随时会崩溃的这些作死的复杂场景下,如何保证消息的高并发、高吞吐,那才是Kafka最为精妙的地方。但是要理解那些复杂的问题,都是需要建立在这个基础模型基础上的。...原创 2022-08-28 15:57:43 · 670 阅读 · 0 评论 -
Kafka3.x核心速查手册二客户端使用篇-1、从基础的客户端说起
这一部分主要是从客户端使用的角度来理解Kakfa的重要机制。重点依然是要建立自己脑海中的Kafka消费模型。Kafka的HighLevel API使用是非常简单的,所以梳理模型时也要尽量简单化,主线清晰,细节慢慢扩展。...原创 2022-08-28 15:55:05 · 464 阅读 · 0 评论 -
Kafka3.x核心知识速查手册-一、快速上手篇
言简意赅,快速从零开始构建Kafka整体知识体系,有问题回头再来查。原创 2022-08-24 17:05:13 · 1259 阅读 · 0 评论 -
大数据基石-Hadoop3.x学习教程-Hadoop产品了解与快速上手
大数据基石-Hadoop Hadoop3.x版本全系列教程 === 楼兰 ===文章目录一、关于Hadoop1、关于Hadoop产品2、Hadoop课程内容3、Hadoop的主要组件二、Hadoop环境搭建以及快速上手1、Linux环境搭建2、Hadoop集群搭建3、Hadoop快速上手三、上手总结一、关于Hadoop1、关于Hadoop产品 首先,关于Hadoop的重要性 对于Hadoop的重要性,再怎么强调也不过分。他可以说是开源大数据领域的开辟之...原创 2022-04-29 15:23:41 · 653 阅读 · 0 评论 -
大数据基石-Hadoop3.x学习教程-大数据场景介绍
大数据基石-Hadoop Hadoop3.x版本全系列教程 === 楼兰 ===文章目录一、理解大数据1、大数据的特点2、大数据的应用方向3、大数据的工作前景二、大数据课程体系介绍1、大数据前置知识2、大数据课程体系一、理解大数据1、大数据的特点 大数据这个概念已经随着互联网不断融入到了我们生活的方面面中。他即是一片新的业务场景,也代表了一系列极具挑战的技术方向。从这个课程开始,我们就将真正开始进入大数据的世界。后续将有一系列的技术课程与项目实战,带大家系...原创 2022-01-27 13:28:44 · 1522 阅读 · 0 评论 -
Spark远程调试+页面监控--用最熟悉的方式开发Spark应用
Spark远程调试+页面监控-用最熟悉的方式开发Spark应用原创 2021-12-23 13:05:30 · 2272 阅读 · 0 评论 -
最强OLAP分析引擎-Clickhouse快速精通-下
最强OLAP分析引擎-Clickhouse快速精通二==楼兰==文章目录四、集群机制4.1 数据副本4.2 分布式表五、配置优化六、查询优化6.1 查看执行计划6.2 clickhouse内置的语法优化规则6.3 高性能查询优化1、选择合适的表引擎2、建表时不要使用Nullable3、合适的划分分区和索引4、数据变更优化5、使用Prewhere替代where6、指定列和分区7、避免构建虚拟列8、用IN代替JOIN七、生产常见问题1、Clickhouse的数据一致性问题2、多副本表,尽量固定写入的节点3、原创 2021-11-28 15:30:50 · 889 阅读 · 0 评论 -
最强OLAP分析引擎-Clickhouse快速精通-上
最强OLAP分析引擎-Clickhouse快速精通一==楼兰==文章目录一、Clickhouse简介1、什么是Clickhouse2、Clickhouse适用场景。二、Clickhouse环境安装1、线上快速体验2、本地快速部署3、远程连接clickhouse3.1 打开远程连接控制3.2 其他方式访问clickhouse三、Clickhouse使用篇3.1、建库3.1.1 Atomic 库引擎3.1.2 MySQL库引擎3.2、建表3.2.1 数据类型3.2.2 MergeTree 表引擎partit原创 2021-11-28 15:28:24 · 2430 阅读 · 0 评论 -
sqoop快速上手
ETL系列之Sqoop==楼兰==文章目录一、ETL简介1、关于ETL2、大数据与传统关系型数据库的关系3、Sqoop简介二、Sqoop下载三、Sqoop基础使用3.1 前置软件3.2 Sqoop安装3.3 Sqoop基础使用1、查看Sqoop的帮助信息2、单独连接数据库3、导入数据4、导出数据四、详细参数补充**1 常用命令列举****2 命令&参数详解****2.1 公用参数:数据库连接****2.2 公用参数:import****2.3 公用参数:export****2.4 公用参数:hi原创 2021-10-11 09:09:26 · 282 阅读 · 0 评论 -
Flink流式计算从入门到实战五
文章目录八、Flink项目实战1、需求背景2、数据流程设计3、应用实现4、实现效果分析Flink流式计算实战专题五==楼兰八、Flink项目实战 这一个章节,我们来找一个常见的流式计算场景,将Flink真正用起来。1、需求背景 现在网络直播平台非常火爆,在斗鱼这样的网络直播间,经常可以看到这样的总榜排名,体现了主播的活跃度。我们就以这个贡献日榜为例,来设计一个Flink的计算程序。 大家可以思考下这样的业务场景应该要如何实现? 对于贡献日榜 这样的功能,可以理解为是一个典型的流式计原创 2021-10-08 10:48:27 · 638 阅读 · 0 评论 -
Flink流式计算从入门到实战 四
文章目录六、Flink Table API 和Flink SQL1、Table API和SQL是什么?2、如何使用Table API3、基础编程框架3.1 创建TableEnvironment3.2 将流数据转换成动态表 Table3.3 将Table重新转换为DataStream4、扩展编程框架4.1 临时表与永久表4.2 AppendStream和RetractStream4.3 内置函数与自定义函数4.4 基于Connector进行数据流转4.5 Flink Table API&SQL的时间语原创 2021-10-08 10:47:09 · 1364 阅读 · 0 评论 -
Flink流式计算从入门到实战 三
文章目录四、Flink DataStream API1、Flink程序的基础运行模型2、Environment 运行环境3、Source3.1 基于File的数据源3.2 基于Socket的数据源3.3 基于集合的数据源3.4 从Kafka读取数据3.5 自定义Source4、Sink4.1 输出到到控制台4.2 输出到文件4.3 输出到Socket4.4 输出到kafka4.5 自定义Sink5、Transformation5.1 Map5.2 FlatMap5.3 filter 过滤5.4 keyBy5原创 2021-10-08 10:44:02 · 2290 阅读 · 0 评论 -
Flink流式计算从入门到实战 二
文章目录三、Flink运行架构1、JobManager和TaskManager2、并发度与Slots3、开发环境搭建4、提交到集群执行5、并行度分析6、Flink整体运行流程Flink流式计算实战专题二==楼兰三、Flink运行架构这一章重点是分析清楚运行架构以及并行度与slot的分配1、JobManager和TaskManager 从之前的环境搭建过程中,也能够看到, Flink中的节点可以分为JobManager和TaskManager。 JobManager处理器也称为Maste原创 2021-10-08 10:40:53 · 765 阅读 · 0 评论 -
Flink流式计算从入门到实战 一
文章目录一、理解Flink与流计算1、初识Flink2、Flink的适用场景3、流式计算梳理二、Flink安装部署1、Flink的部署方式2、获取Flink3、实验环境与前置软件4、集群搭建5、Standalone模式启动6、Yarn模式提交任务6.1、首先在yarn上启动yarn-session。6.2、提交测试任务6.3 Application Mode 应用模式6.4 Per-job Cluster Mode 单任务模式6.5 Session Mode 会话模式Flink流式计算实战专题一==楼原创 2021-10-08 10:38:25 · 2421 阅读 · 2 评论 -
大数据存储基石-HBase2.4.4全方位解析
大数据存储基石-HBase HBase全解析 === 楼兰 === 只做最纯粹的学习文章目录一、关于HBase1、HBase是什么?2、HBase的数据结构3、HBase的基础架构4、HBase适用场景二、HBase安装1、实验环境与前置软件2、安装Zookeeper2、安装HBase3、搭建HBase集群模式三、HBase基础操作1> 基础指令2> HBase的数据结构四、HBase原理1、HBase文件读写框架2、HBase写数据流程3、...原创 2021-08-11 12:49:31 · 1699 阅读 · 0 评论 -
大数据之数仓基石Hive3.1.2实战
大数据数仓基石-Hive Hive3.1全解析 === 楼兰 ===文章目录一、关于Hive1、Hive是什么2、Hive的适用场景3、Hive的整体架构4、为什么要用Hive而不用关系型数据库?二、Hive安装1、下载地址与版本2、Hive安装部署实验环境安装Hive基本操作使用mysql作为hive的元数据使用JDBC连接远程Hive服务Hive配置总结三、Hive的基础使用1、Hive的数据结构2、Hive的复杂数据结构四、Hive-DDL1、维护数据库2、...原创 2021-06-21 17:41:52 · 561 阅读 · 0 评论 -
机器学习笔记三:经典算法
第三章: 机器学习经典算法机器学习之经典算法第三章: 机器学习经典算法一、KNN算法定义:距离计算公式:适用案例:算法优缺点:特征工程处理:skLearn API:spark API:二、朴素贝叶斯分类算法原理:应用场景:优缺点:API:三、决策树分类原理:API优缺点:四、随机森林原理:API:优缺点:五、线性回归原理:目标:损失函数:最小二乘法优化方法:API:回归性能评估方法:两种线性回归...原创 2019-11-27 17:38:50 · 486 阅读 · 0 评论 -
机器学习学习笔记一:
第一章: 机器学习入门 主要理解机器学习的应用场景,以及如何以机器学习的方式来处理现实问题。一、机器学习发展历程 达特摩斯会议 Dartmouth。 2018图灵奖。二、什么是人工智能 应用场景:传统预测、图像识别、自然语言处理。 人工智能、机器学习、深度学习 。三、机器学习算法分类 样本由特征值和目标值组成,特征值为样本的特征属性,目标值为样本的目标分类。 按照目...原创 2019-03-28 18:12:58 · 214 阅读 · 0 评论 -
机器学习笔记二:特征抽取
机器学习之特征抽取一、使用数据集:API:二、划分训练集与测试集sklearn APIspark三、数据特征抽取四、字典类型特征抽取 : one-hotsklearn API:spark API:五、文本类型特征抽取:CountVectorizersklearn API:spark API:补充:六、文本特征抽取:TfidfVectorizer示例:sklearn API:spark API:七、...原创 2019-04-01 11:53:49 · 777 阅读 · 0 评论 -
Storm编程模型
自己玩玩Storm后的总结Storm简介Storm是Apache的顶级项目,最牛逼的流式计算框架之一,底层是用clojure语言实现。目前最新的稳定版本是1.2.2。也有最新的2.0版本还在SNAPSHOT中。流式计算主要有两种方式,最直观的处理方式是原生流处理。就是像读文件一样,一行一行的读取数据。然后将数据一个一个的处理。不用说,这是最好理解的处理方式。在大数据背景下,要实现这种细粒度的...原创 2019-01-24 17:43:36 · 281 阅读 · 0 评论 -
随便谈谈RabbitMQ与springBoot进行集成。
先说说题外话,本来只想找到一个springBoot快速集成RabbitMQ的例子,用起来就行的。但是百度搜了一大通, 各有各的玩法,但是就是没找到一个自己心仪的方式。最终发现,稍微看看springBoot的jar包,顿时觉得清晰好多。顺便说明一下,这个文章全是我自己总结的,目前是不同于网络上各种转载文的。旨在给有兴趣的朋友共同分享。关于RabbitMQ就不做介绍了。几种消息传递模式官网自有介绍。这里原创 2017-10-31 16:31:29 · 4797 阅读 · 1 评论 -
elasticSearch spark支持
–Note:1、文章摘自elasticsearch官网,因为觉得再费力的总结,总不如官网的说明学习更快。 2、关于elasticSearch-hadoop组件:从目前的版本看(2017年9月26日),从elasticsearch官网下载的elasticsearch_hadoop组件还只能基于scala 2.10.x 版本。而spark的2.1.X版本开始,已经基于scala2.11以上的版本进行开转载 2017-09-26 10:31:11 · 8295 阅读 · 0 评论 -
基于RabbitMQ实现的实时日志监控
实现结果:页面可以实时跟踪平台上所有用户的操作日志。 实现的方式: 使用RabbitMQ的订阅发布模式,日志信息在拦截器中随时广播发布。页面打开监控就开始监听日志,停止监控就不再监听。 与页面的交互采用comet4j的形式, 这样可以避免页面一直进行ajax轮询。关键代码: 1、拦截器中广播发布消息。 [图片] 2、消息发布端工具代码: 比较简单,就一直往rabbitMQ 发消息就行原创 2017-04-21 13:34:43 · 3931 阅读 · 0 评论 -
RabbitMQ官网示例分析
官网地址 http://www.rabbitmq.com/maven 地址 (发布端和消费端maven依赖在一起) The snippet below can be copied and pasted into your build if you’re using Maven:<dependency> <groupId>com.rabbitmq</groupId> <artifactId原创 2017-05-25 17:36:07 · 3566 阅读 · 1 评论