人工智能
文章平均质量分 83
AIGC相关
DREAM依旧
大道之行也,天下为公。
AIGC
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
vLLM引擎在部署大模型时显存占用较大的原因
vLLM的高显存占用源于其以吞吐量为优先的设计哲学(如预分配机制、连续批处理),以及默认参数对显存资源的保守预留。通过合理调整参数并利用PagedAttention的分块管理特性,可在性能与显存效率间取得平衡。vLLM引擎在部署模型时占用较大的显存是为了换取更高的计算效率和更低的推理延迟。以下是详细的解析:一、提升计算效率。原创 2025-05-12 09:35:40 · 3633 阅读 · 0 评论 -
PaddleX 全流程解析:从底层原理到产业落地示例
三大特性,显著降低深度学习技术落地门槛。其支持从训练到部署的全链路优化,结合飞桨框架的硬件适配能力,可满足工业场景对性能与安全的双重要求。,通过模块化设计简化深度学习模型的开发流程。:实时检测交通监控中的车辆位置与类型。PaddleX 是基于。PaddleX 提供。PaddleX 支持。PaddleX 通过。原创 2025-02-25 08:49:36 · 1041 阅读 · 0 评论 -
大语言模型(LLM)提示词(Prompt)高阶撰写指南
—结构化思维与工程化实践。原创 2025-02-23 14:23:37 · 2367 阅读 · 0 评论 -
主流大模型DeepSeek完爆OpenAI详解
技术演进:从LLM基础架构到等创新,持续优化推理效率与多任务能力。性能优势:中文任务、数学推理、低成本训练为核心竞争力。开源战略:推动技术民主化,成为开源领域SOTA模型。DeepSeek-R1 及其变体支持开源合作和商业使用,包括模型蒸馏。这有助于降低人工智能模型开发的门槛,并促进创新。灵活性:DeepSeek提供了多种使用方式,包括Web访问、API集成和本地部署,满足不同场景的需求。硬件适应性:提供了从大规模模型到轻量级蒸馏模型的不同版本,适应不同的硬件配置。易用性。原创 2025-02-09 09:00:00 · 1262 阅读 · 0 评论 -
2024年12月的“12 Days of OpenAI”活动总结
整个“12 Days of OpenAI”活动不仅展示了OpenAI在AI技术领域的重要进展,还为开发者和企业提供了更多工具,推动AI在实际应用中的广泛落地。通过这些创新,OpenAI致力于提升用户体验、增强模型能力,并推动人工智能技术的发展。原创 2025-01-08 21:05:50 · 525 阅读 · 0 评论 -
知识图谱--知识融合|概念|技术
考虑如下句子:“昨天我买了新的iPhone,它是苹果最新推出的型号。” 在这个例子中,“苹果”指的是科技公司而不是水果。为了正确地理解这句话,我们需要执行实体消歧步骤,将“苹果”链接到正确的实体——即Apple Inc.。原创 2025-01-09 09:00:00 · 1338 阅读 · 0 评论 -
知识图谱--关系抽取|Joint方法详解
在联合解码的模型中,主体、客体和关系的抽取是同步进行的,通过一个统一的模型直接得到SPO三元组。这一部分同样采用了类似于头实体识别的方法,但在解码时不仅考虑了BERT编码后的隐层向量,还结合了识别出来的主体特征,确保了主体-关系-客体的一致性和准确性。CasRel 是一种基于参数共享的联合实体关系抽取方法,首次提出于2020年的ACL会议上,主要解决了关系三元组重叠的问题,如单一实体关系重叠(SEO)和实体对重叠(EPO)。此过程重复头实体识别的逻辑,但额外加入了主体特征的影响,以提高预测精度。原创 2025-01-08 09:00:00 · 1309 阅读 · 0 评论 -
知识图谱---实体抽取|命名实体识别|NER
命名实体识别(Named Entity Recognition, NER),也称作“实体识别”,是一种信息提取方法,其目的是识别文本中的命名实体,并将它们归类到预定义的类别中。例如,在句子“李华在2024年访问了北京。”中,“李华”是人名,“北京”是地名,“2024年”是时间表达式。实体是承载语义信息的基本单元,对于理解文本内容至关重要。常见的实体类别包括但不限于:人名、地名、机构名、时间、日期、货币、百分比等。BiLSTM+CRF是一种流行的序列标注模型,用于解决NER问题。原创 2025-01-06 09:00:00 · 1251 阅读 · 0 评论 -
DeepSeek-V3:引领语言模型新纪元
2024年12月30日,深度求索公司震撼发布了其最新一代大型语言模型——DeepSeek-V3。作为一款基于混合专家(MoE)架构的模型,DeepSeek-V3不仅拥有6710亿参数规模,而且每个token激活的参数量为370亿,这一设计使得它在计算资源利用上更为高效,同时也保证了模型的强大表达能力。随着AI技术的发展和应用领域的不断扩展,DeepSeek-V3以其卓越性能和创新特性,迅速成为业界关注的焦点。原创 2025-01-04 09:00:00 · 954 阅读 · 0 评论 -
隐马尔科夫模型|前向算法|Viterbi 算法
尽管 Viterbi 算法和前向算法都使用了动态规划的思想来有效地解决原本复杂度极高的问题,但它们的应用场景和目标不同。前向算法侧重于评估观测序列的概率,而 Viterbi 算法则致力于找出最有可能的状态序列。理解这两种算法的区别及其具体实现,对于正确选择和应用 HMM 至关重要。原创 2024-12-24 15:59:21 · 1322 阅读 · 0 评论 -
实体抽取的两个任务:命名实体识别 (NER) 和实体链接 (Entity Linking) 的详细探讨
命名实体识别是自然语言处理(NLP)中的一个基础任务,其目的是从文本中自动识别出特定类型的命名实体,并对它们进行分类。这些实体可以包括人名、地名、组织名、日期、货币金额等。原创 2024-12-24 09:00:00 · 1764 阅读 · 0 评论 -
RDF 图与属性图:介绍与对比
RDF图和属性图各有优劣,适用于不同的应用场景。原创 2024-12-22 14:00:00 · 1038 阅读 · 0 评论 -
RAG(Retrieval-Augmented Generation): 检索增强生成的综合介绍
RAG(Retrieval-Augmented Generation)是一种结合了检索系统和生成式模型优点的混合架构,旨在提高文本生成任务的质量。它通过引入外部知识源,在生成过程中利用检索到的相关信息,使得生成的内容更加准确、上下文相关且富有信息量。原创 2024-12-23 09:00:00 · 507 阅读 · 0 评论 -
针对Meta发布的Llama 3.3-70B模型之体验|对比|亮点|架构
Meta发布的Llama 3.3-70B模型代表了当前AI技术发展的最新趋势,即不再单纯追求参数量的增长,而是更加注重效能与资源使用的最优化。这一模型不仅为研究人员和开发者提供了一个强大的工具,也为各行各业带来了新的应用契机。随着技术的不断完善和深入探索,我们有理由期待,像Llama 3.3这样的先进模型将继续推动社会变革,创造更多的价值和便利。同时,也提醒我们在享受技术带来的便捷时,要关注并解决随之而来的潜在风险和社会问题。原创 2024-12-22 09:00:00 · 1807 阅读 · 0 评论 -
模型部署之知识蒸馏:理论、原理与实践
知识蒸馏(Knowledge Distillation)原创 2024-12-20 09:00:00 · 1953 阅读 · 0 评论 -
Llama-3.1-405B-Instruct 开源体验|对比|亮点|使用|总结
最新版本Llama-3.1-405B-Instruct以其惊人的参数规模、卓越的性能和广泛的适用性,在开源社区中引起了巨大反响。本文将深入探讨Llama-3.1-405B-Instruct的特点、与前代模型的对比、亮点、获取方式及使用方法,并对其进行全面评价。总体而言,Llama-3.1-405B-Instruct凭借其广泛的适用性和出色的性能,为科研工作者、开发者以及其他领域专业人士提供了强有力的工具支持,推动了AI技术的发展与创新。原创 2024-12-07 15:00:18 · 1664 阅读 · 0 评论 -
针对阿里大模型Qwen2-72B-Instruct 体验|对比|亮点|使用|总结
阿里云发布的Qwen2系列模型,特别是最新的Qwen2-72B-Instruct版本,以其庞大的参数规模、卓越的性能和广泛的适用性,在开源社区中引起了广泛关注。本文将深入探讨Qwen2-72B-Instruct的特性、与前代模型的对比、亮点、获取方式及使用方法,并对其进行全面评价。总体而言,Qwen2-72B-Instruct作为阿里云新一代大模型的代表作之一,凭借其广泛的适用性和出色的性能,为科研工作者、开发者以及其他领域专业人士提供了强有力的工具支持,推动了AI技术的发展与创新。原创 2024-12-08 09:00:00 · 4535 阅读 · 0 评论
分享