- 博客(610)
- 资源 (2)
- 收藏
- 关注

原创 增强学习和蒙特卡洛树搜索算法详细解析
阿尔法狗(AlphaGo)是谷歌旗下DeepMind开发的一个著名的增强学习算法,它在围棋领域取得了显著的成就。本文主要探讨其中两个重要的算法:增强学习算法和蒙特卡洛树搜索算法。
2023-11-16 14:23:39
991

原创 人工智能:CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的知识梳理
CNN 主要用于处理图像数据,RNN 用于处理序列数据,而 DNN 是一个通用的深度神经网络架构,可以应用于各种不同类型的数据。这些神经网络架构也可以结合使用,以解决复杂的多模态问题。
2023-10-24 17:58:05
8907
6

原创 Hadoop简介之望见数据湖
1 Hadoop概述随着信息化时代的来临,数据信息呈爆炸式增长。IBM的研究称,90%的人类文明数据是近两年产生的,而到了2020年,全球产生的数据量将是今天的44倍。传统的方法已难以应对越来越多的海量数据,因此海量数据的处理方法成为研究热点。大数据技术研究与应用推动互联网产业的快速发展,同时企业也促进了大数据技术的“新陈代谢”。在国外的计算机行业,Yahoo,Linkedin,Fackbook,eBay等企业都着手搭建Hadoop平台,努力推动Hadoop技术的发展并完善Hadoop项目。在国内,随着
2020-09-28 15:09:37
2657
2

原创 Greenplum安装时修改gpssh-exkeys中SSH免密登录端口
SSH免密登录的默认端口号为22,如果需要使用2226端口,可以修改如下地方298 def testAccess(hostname):299 '''300 Ensure the proper password-less access to the remote host.301 Using ssh here also allows discovery of remote host keys *not*302 reported by ssh-keyscan.303...
2020-09-08 14:13:29
3349
2
原创 机器学习之回归
回归分析是机器学习中的基本技术之一,广泛用于预测连续型变量。本文调研了线性回归、多项式回归、岭回归、Lasso回归及弹性网络回归,重点分析其数学原理、算法推导、求解方法及应用场景。
2025-03-24 15:30:50
172
原创 机器学习之条件概率
概率模型在各类机器学习任务中发挥着重要作用。EM算法适用于参数估计,MCMC可用于复杂分布采样,朴素贝叶斯和贝叶斯网络在分类和推理任务中具有优势,CRF和HMM适合序列建模,而最大熵模型则用于信息预测和分类。未来的研究可以结合深度学习进一步优化这些模型的性能。
2025-03-24 14:49:21
505
原创 语言大模型之BERT
BERT 采用 Transformer 编码器(Transformer Encoder),使用。来学习文本中的长距离依赖关系。不同于 LSTM 或传统 RNN,Transformer 允许。在 BERT 之前,许多 NLP 预训练方法(如 Word2Vec、GloVe)都是基于。,显著提升了自然语言理解(NLU)任务的表现。,导致模型无法充分利用句子中的全局信息。学习文本信息,从而更好地理解句子中的每个单词。,在 NLP 领域取得了革命性的突破。BERT 解决了这些问题,通过。
2025-03-21 09:50:05
202
原创 Hadoop 3.x中的zookeeper和JournalNode的作用
在Hadoop 3.x版本中,和的作用有所变化和增强,尤其是在HDFS高可用性(HA)架构和其他Hadoop组件的协作方面。继续在Hadoop 3.x中为集群提供协调服务,尤其是在HDFS的高可用性和YARN资源管理器的管理中,保证了集群节点之间的一致性和故障切换的顺利进行。主要用于为HDFS提供高可用性支持,确保NameNode的操作日志可以高效、可靠地同步和存储,使得在NameNode发生故障时,Standby NameNode能够快速恢复并接管工作。
2025-03-20 18:33:31
131
原创 调研报告:Hadoop 3.x Ozone 全景解析
Hadoop 3.x 中的 Ozone 以其全新的对象存储设计和分布式架构,从根本上解决了传统 HDFS 在处理海量小文件、元数据瓶颈以及云原生环境下的诸多问题。通过引入分布式 OM、容器化存储、数据副本与纠删编码机制,Ozone 不仅实现了高性能、高可用与可扩展性,而且在运维管理、安全性和生态集成方面展现出极大优势。面对未来数据量持续攀升及多样化应用场景的挑战,Ozone 正在不断优化自身设计,并与云原生技术、智能运维手段深度融合,为大数据存储和处理开辟出一条全新的发展路径。
2025-03-20 16:24:24
159
原创 AI大模型之量化
模型量化是指将神经网络中的权重、激活值及计算过程从高精度(如 32-bit 浮点数, FP32)转换为低精度(如 8-bit 整数, INT8),从而减少存储和计算负担,提高推理速度。
2025-03-20 14:53:07
29
原创 AI大模型之知识蒸馏
其核心思想是利用教师模型的知识指导学生模型的训练,以在保持性能的同时大幅减少计算资源需求。未来,随着深度学习技术的发展,知识蒸馏仍将继续发挥重要作用,并与其他模型优化方法结合,实现更高效的 AI 计算。:教师模型的输出通常是一个经过 Softmax 处理的概率分布,而不仅仅是硬标签。:在某些方法中,教师模型的梯度信息也可以作为指导信号,提高学生模型的优化效率。,学生模型),以此来减少模型的计算量和存储需求,同时尽可能保持较高的性能。:学生模型可以学习教师模型的隐藏层表示,以增强其表达能力。
2025-03-20 14:48:43
32
原创 语言大模型,cv大模型用的向量数据库介绍及使用场景
语言大模型(如GPT系列)和计算机视觉大模型(如CLIP、YOLO等)在处理和存储大量高维数据时,通常使用向量数据库。向量数据库能够高效地存储和检索高维向量表示(embeddings),这些向量通常是通过深度学习模型(如BERT、ResNet等)生成的。随着大模型(LLM、VLM)的发展,向量数据库在存储、检索和高效查询嵌入向量方面发挥了关键作用。以下是常见的向量数据库及其在语言和计算机视觉大模型中的使用场景。使用场景:增强搜索引擎的功能,可以同时进行传统的文本搜索和基于向量的相似度搜索。
2025-03-20 09:46:18
30
原创 openai,deepseek等语言大模型,如何完成问答的
语言大模型(如OpenAI的GPT系列,DeepSeek等)完成问答任务的实现流程涉及多个步骤,包括数据处理、模型训练、推理、生成回答等环节。
2025-03-19 11:10:37
24
原创 多模态大模型:将音频向量化
将音频向量化是将音频数据转化为适合机器学习算法处理的向量表示的过程。这个过程通常涉及从原始音频信号中提取特征,并将这些特征转化为数字向量。
2025-03-19 10:57:28
167
原创 深度学习之防止过拟合
过拟合是机器学习中常见的问题,特别是当模型复杂度较高或训练数据量较少时。为了避免模型过度依赖训练数据中的噪声,采取一些有效的防止过拟合的方法非常重要。以下是几种常见的防止过拟合的技术,包括等,并对它们进行详细的介绍与对比。
2025-03-18 11:22:20
643
原创 大模型微调之早停(Early Stopping)
早停(Early Stopping)简介早停是一种正则化技术,目的是在训练过程中避免模型过拟合。过拟合通常发生在模型在训练数据上表现很好,但在未见过的新数据上表现很差的情况。早停可以帮助我们在模型开始过拟合之前停止训练,从而提高模型的泛化能力。
2025-03-18 11:16:52
86
原创 大模型微调之梯度剪裁
梯度剪裁在模型微调中的作用非常重要,它能够帮助我们避免因梯度爆炸导致的不稳定训练过程,尤其是在大规模预训练模型微调中,使用梯度剪裁可以有效提高模型训练的稳定性和收敛速度。
2025-03-18 10:33:27
22
原创 语言大模型之权重衰减
针对语言大模型(如GPT、BERT等)进行微调时引入**权重衰减**(Weight Decay)正则化技术,主要目的是防止过拟合并提高模型在新任务上的泛化能力。对于语言模型的微调,权重衰减可以通过优化模型训练的过程,确保模型不会过度依赖训练数据中的特定模式,尤其是在数据较少的情况下。下面是权重衰减在语言大模型微调中的应用和注意事项。
2025-03-18 10:20:58
18
原创 语言大模型之Tokenization的深入理解
Tokenization(分词)是自然语言处理(NLP)中一个非常重要的步骤,它的目标是将文本转换为模型可以理解的格式。对于像GPT、BERT等大型预训练模型来说,tokenization决定了文本如何转化为数字表示,从而影响模型在不同任务中的表现。接下来我会深入介绍tokenization的过程、不同的tokenization方法,以及它与模型微调(fine-tuning)之间的关系。
2025-03-18 10:05:11
13
原创 语言大模型微调之T5
微调 T5 (Text-to-Text Transfer Transformer) 模型是一个在许多自然语言处理(NLP)任务中非常有效的技术。T5 是由 Google 提出的,它将所有的 NLP 任务都转化为文本到文本的格式,类似于“输入文本 -> 输出文本”的框架。微调 T5 主要是根据特定的任务(例如分类、生成、翻译等)对其进行定制,以提高模型在特定任务上的表现。
2025-03-18 09:49:20
29
原创 语言大模型之langchain
通过灵活的链(Chains)、工具(Tools)和代理(Agents)机制,LangChain使得集成不同的数据源和模型变得更加简单,能够广泛应用于聊天机器人、问答系统、智能搜索、自动化文档处理等领域。链的构建允许你以流水线的方式进行任务的处理,例如,输入文本通过一系列的步骤处理后,最终得到一个输出结果。这些工具可以在链中作为步骤的一部分使用,让语言模型可以与外部系统进行交互,从而增强模型的功能。根据应用的复杂度和需求,你可以选择合适的方式来维护和管理上下文,使得系统能够生成更具相关性和一致性的结果。
2025-03-18 09:45:04
139
原创 多模态学习之BRET
BRET结合了BERT和区域化图像特征的优势,使用Transformer架构有效地处理视觉和文本的联合任务。它适用于多模态任务,尤其是在视觉问答、图像字幕生成等应用中,表现出色。通过区域化的图像特征和强大的文本表示能力,BRET能够实现图像和文本的深度对齐,提升多模态任务的表现。
2025-03-17 18:05:15
601
原创 语言大模型的模型微调方法LoRA
LoRA(Low-Rank Adaptation)是一种高效的模型微调方法,它通过对预训练语言模型的权重矩阵进行低秩分解,仅调整少量的低秩矩阵,从而在保持较高性能的同时,显著降低了计算和内存消耗。它适用于资源有限的场景,尤其是大规模预训练模型的微调,能够加速训练过程并节省计算资源。
2025-03-17 18:03:24
263
原创 AI人工智能之大模型微调
大模型微调(Fine-tuning)方法众多,但在实际应用中,**全参数微调(Full Fine-tuning)、LoRA(低秩适配)、Adapter(适配层)、指令微调(Instruction Fine-tuning)和 RLHF(基于人类反馈的强化学习)**是最常用的技术。一家新闻媒体希望用 AI 生成新闻摘要,适配多种语言(如英文、法文、西班牙文),但不想为每种语言单独微调一个模型。全参数微调后的 GPT-3 能够更准确地总结金融报告,减少歧义,提高摘要质量。全参数微调是最直接、最传统的方法,
2025-03-13 18:33:25
35
原创 深度学习之启发式超参数优化
启发式方法提供了比传统搜索更高效的优化策略,尤其适用于高维、非凸、复杂的搜索空间。在实践中,选择合适的方法(如 GA、PSO 或贝叶斯优化)可以显著提高超参数调优的效率和模型性能。
2025-03-12 15:18:12
118
原创 机器学习之超参数优化(Hyperparameter Optimization)
超参数优化是提升机器学习模型性能的关键步骤,不同的搜索方法适用于不同的任务场景。对于一般的机器学习任务,随机搜索或贝叶斯优化通常是较好的选择;对于深度学习任务,Hyperband 或进化算法可能更适合。
2025-03-12 15:16:58
149
原创 Apache Hudi 性能测试报告
针对亿级数据量,对比 Bulk Insert 和 Upsert 两种写入方式,使用不同索引方式,对COW 和 MOR写入效率表类型写入类型索引类型是否排序是否去重适用数据量适用场景高MOR/COWNNN>1 亿一次性全量入库,但需其他组件保证数据唯一较高MOR/COWBucketYY<5 亿批量入库一般MORUpsertBucketNY<1 亿流式增量入库一般MOR/COWBucketNY<5 亿批量入库较低MORUpsert。
2025-03-11 16:51:19
536
原创 ollama的docker 使用教程
通过 Docker,你可以快速而简洁地运行和管理 `Ollama` 容器化的 AI 模型。无论是开发、测试,还是生产环境,Docker 提供了隔离、灵活的环境来高效地部署 `Ollama` 模型。
2025-02-19 15:28:50
366
原创 ollama操作命令
Ollama 提供了一个强大而简单的命令行工具来管理和运行 AI 模型。通过这些命令,你可以轻松地安装、启动、停止、删除模型,或者与模型进行交互。根据你的需求,可以根据具体命令来执行各种任务。
2025-02-19 15:24:04
237
原创 语言大模型qwen2.5的理解与分析
Qwen 2.5的发布,也显示出阿里巴巴在人工智能、尤其是大语言模型领域的强大实力。它的应用不仅限于基础的自然语言处理,还可以在商业、教育、娱乐等多个领域提供解决方案。
2025-02-11 15:06:24
162
原创 机器学习之AAE(Adversarial Autoencoder,对抗自编码器)生成数据样本
对抗自编码器的结构需要整合自编码器和判别器。编码器的目标是让潜在变量(latent variables)符合预定的分布(如高斯分布),并通过判别器与自编码器共同优化。
2025-02-11 14:49:23
495
原创 机器学习之孤立森林(Isolation Forest)的样本补充
孤立森林是一种强大且高效的异常检测工具,特别适用于大规模、高维数据集。通过构建随机树来“孤立”数据点,它能够有效地检测到偏离正常模式的异常数据。
2025-02-10 15:27:11
298
原创 机器学习之Transformer 模型
Transformer 是一种强大的模型架构,能够高效地捕捉序列中长距离的依赖关系,且支持并行计算。通过将输入向量划分成多个头,分别计算多个独立的注意力得分,再将它们拼接起来,最终得到更加丰富的表示。这些位置编码会和输入的嵌入相加,作为模型的输入。
2025-02-08 15:15:08
404
seatunnel 支持hive jdbc
2023-07-28
dataCollection安装jar包0.07版本
2023-01-16
hbase-manager安装包,已编译
2022-11-14
大数据之湖仓一体,未来如何发展
2024-04-02
TA创建的收藏夹 TA关注的收藏夹
TA关注的人