自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(124)
  • 收藏
  • 关注

原创 幻觉抵抗优化大模型:teapotllm

Teapot 是一款高效、轻量的任务专用模型,适合本地部署和精准信息处理,但在通用性上存在限制。

2025-04-04 14:32:17 74

原创 大模型技术应用小结

大模型作为人工智能领域的核心技术,其能力覆盖文本、图像、跨模态及垂直行业场景。

2025-04-04 14:23:48 38

原创 StyleTTS 2:文本到语音(Text-to-Speech, TTS)模型

StyleTTS 2 是目前最先进的文本到语音模型之一,通过风格扩散和对抗训练实现了接近人类水平的语音合成。其在单说话者和多说话者数据集上的卓越表现,以及在零样本语音适配任务中的高效性,使其成为语音合成领域的重要里程碑。未来的研究可以进一步优化说话者相似度和大规模数据集的适配能力,以推动语音合成技术的进一步发展。

2025-04-04 14:22:05 301

原创 openhands-lm-32b-v0.1:新开源的代码生成模型

OpenHands LM 是一个具有里程碑意义的开源代码生成模型,它不仅在性能上接近更大的专有模型,还提供了本地部署的灵活性和开源的透明性。通过 SWE-Gym 的支持,OpenHands LM 在真实世界的软件工程任务中表现出色,并且具有良好的扩展性。团队的未来计划将进一步提升模型的性能和适用性,使其成为软件开发人员的得力助手。

2025-04-03 14:17:53 456

原创 实体识别技术对比

依赖预定义规则模板和实体词典,通过正则表达式、词典匹配实现识别。典型应用如地址识别中的行政区划词典匹配。优势在于对高频实体识别准确率极高(接近100%3),但无法处理未登录词和新实体。

2025-04-03 14:06:27 133

原创 英文命名实体识别:Flair

Flair 通过字符级语言模型和上下文字符串嵌入,在 NER 等序列标注任务中取得了显著的性能提升。字符级建模:处理稀有词和拼写错误。上下文敏感嵌入:捕捉单词的多义性和上下文语义。高效性:字符级模型更容易训练和部署。Flair 的开源框架也为研究人员和开发者提供了一个强大的工具,可以轻松复现实验并应用于其他任务。

2025-04-02 10:34:05 151

原创 细品CLUENER2020中文细粒度命名实体识别

CLUENER2020数据集的发布为中文细粒度命名实体识别提供了一个更具挑战性的基准。实验表明,尽管基于预训练的模型在该数据集上表现出色,但仍有很大的改进空间。未来的研究可以通过数据增强、模型优化和多语言支持等方向进一步提升中文NER技术的性能。希望这篇专业讲解能够帮助你更好地理解CLUENER2020数据集及其在中文NER领域的重要性。

2025-04-02 10:28:58 816

原创 开源:SmolDocling-256M-preview 小模型完成更优的图像文档转换

SmolDocling 通过其紧凑的模型架构和优化的 DocTags 格式,在多模态文档转换任务中展现了卓越的性能和效率。它不仅在多个任务上超越了更大规模的模型,还通过贡献丰富的公开数据集推动了文档理解领域的研究和应用。

2025-04-01 10:24:03 402

原创 常见文本分类算法框架的多维度对比

计算效率:传统算法(如朴素贝叶斯、SVM)和FastText适合实时或低资源场景;深度学习模型(如BERT)需GPU加速,大模型推理速度更慢。数据需求:传统算法和集成学习对小规模数据友好;深度学习需大量标注数据,BERT等预训练模型可通过迁移学习缓解数据不足,大模型仅需少量数据。适用粒度:FastText、TextCNN适合粗粒度分类;BERT、LSTM适合细粒度和复杂语义任务,llm适用于更加复杂的任务。可解释性:决策树、朴素贝叶斯解释性强;鲁棒性:集成学习和深度学习对噪声和特征冗余的容忍度较高。

2025-04-01 10:04:23 152

原创 火热赛道:MCP(Model Context Protocol,模型上下文协议)快速了解

MCP(Model Context Protocol,模型上下文协议)是由Anthropic推出的开放协议,旨在解决AI模型与外部数据源、工具集成时的碎片化问题。

2025-03-31 12:58:16 343

原创 transformer架构与其它架构对比

Transformer通过全局注意力机制突破了传统模型的序列处理限制,成为NLP、CV等领域的通用架构。其核心优势在于并行性、长程建模能力和灵活性,但计算资源消耗较大。未来发展方向将聚焦于效率提升、多模态融合和硬件适配。

2025-03-31 12:47:14 662

原创 将视频m4s文件转换为mp4格式

一般情况:偏大的文件为视频,偏小的文件为音频。

2025-03-31 12:39:19 421

原创 字节开源InfiniteYou:实现更稳定的人脸对齐生成

InfiniteYou是一项具有里程碑意义的研究,展示了扩散变换器在个性化生成任务中的巨大潜力。它不仅解决了现有方法的关键问题,还为未来的研究提供了新的方向。

2025-03-30 15:11:43 894

原创 大模型智力与人类智力的区别

大模型在效率(数据处理速度)、规模(知识覆盖广度)和标准化任务上超越人类,而人类在创造力、伦理判断、动态适应和具身智能上仍具不可替代性。未来趋势可能是“人机协同”,例如大模型辅助人类突破认知边界,而人类解决模型无法处理的复杂系统问题。

2025-03-30 14:52:08 370

原创 为什么大模型能回答问题,感觉有智力?

大模型的“智力”实为数据、算力与算法协同的结果:数据提供知识素材,算力(如GPU集群)支撑训练,算法(如Transformer)实现高效学习。用户感知到的“智力”源于模型对语言流畅性和部分逻辑关联的模仿,而非真正的认知能力。未来需通过知识图谱融合、多模态训练等技术缩小与人类智能的差距。

2025-03-29 22:21:57 147

原创 阿里开源端到端多模态大模型:Qwen2.5-Omni-7B 值得围观

Qwen2.5-Omni在多模态任务中表现出色,不仅在需要集成多种模态的复杂任务中表现出色,而且在单模态任务中也展现了强大的性能。其创新的架构和位置嵌入方法使其在实时交互和语音生成方面具有显著优势。未来,Qwen团队计划进一步提升模型的性能和输出能力,以推动人工通用智能(AGI)的发展。

2025-03-29 15:44:10 307

原创 Ollama部署QwQ-32B模型环境示例参考(requirements.txt)

Ubuntu22.04, Python 3.12, Pytorch 2.5.1,CUDA 12.1, cuDNN 8, NVCC, VNC, QwQ-32b,QwQ-32B模型,Ollama。

2025-03-29 15:17:12 114

原创 意图识别的一些典型方法

意图识别是自然语言处理领域的核心技术,其核心目标是理解用户输入的真实目的。

2025-03-28 10:43:37 369

原创 广告推荐算法:COSMO算法与A9算法的对比

COSMO(Common Sense Knowledge for Marketplace Organization)算法是亚马逊在2024年推出的新一代AI驱动算法,基于大语言模型(LLM)和知识图谱技术,旨在通过理解用户意图和场景化需求,提供更个性化的推荐。技术基础:A9依赖传统规则和关键词匹配,而COSMO基于AI模型动态推理。逻辑焦点:A9关注“产品属性匹配”,COSMO强调“用户意图理解”。应用场景:A9适用于标准化商品搜索,COSMO支持自然语言交互和兴趣电商。

2025-03-28 10:24:20 305

原创 为什么大模型选择Transformer架构而不选择RNN的原因?

Transformer凭借并行性、长程建模、扩展性等优势,成为大模型的核心架构。尽管后续出现RWKV7等改进模型尝试结合RNN的低复杂度与Transformer的全局感知,但其生态成熟度与硬件适配性仍无法撼动Transformer的主导地位。未来,通过线性注意力算法、动态稀疏化等技术进一步降低计算复杂度,将是Transformer持续领跑大模型领域的关键。

2025-03-27 14:04:45 381

原创 中国开源模型DeepSeek-V3再次强力更新,又有什么惊喜?

中国开源模型DeepSeek-V3再次强力更新,又有什么惊喜?

2025-03-27 13:59:06 346

原创 对比一下RNN/LSTM/GRU的区别

对比一下RNN/LSTM/GRU的区别。

2025-03-26 23:39:38 333

原创 yolov5 针对识别中大目标的识别超参调整

修正 YOLOv5 只检测中、大目标。

2025-03-26 11:49:57 155

原创 为什么大模型能顿悟?

架构(如Transformer)提供模式捕捉能力,训练策略(如权重衰减)引导知识提炼方向;这一现象挑战了传统机器学习对“记忆-泛化”的二分法,揭示了模型从量变到质变的学习动态。未来研究需进一步探索顿悟的可控性,以提升模型的可靠性和可解释性。

2025-03-26 10:13:10 131

原创 如何减少或解决大模型的幻觉问题?

可解释AI:揭示模型内部知识存储与推理机制;多模态融合:整合视觉、语音等信号提升上下文理解;伦理框架:建立生成内容的可信度认证体系。

2025-03-25 21:57:47 205

原创 快速了解Transformer与循环神经网络(LSTM/RNN)的区别

快速了解Transformer与循环神经网络(LSTM/RNN)的区别。

2025-03-25 17:52:26 300

原创 pytorch、cuda版本关系与安装命令20250325

参考:https://pytorch.org/get-started/previous-versions/

2025-03-25 14:25:40 124

原创 优快云的一些编辑语法

1个空格(一个字的宽度):2个空格:1个常规空格的宽度:

2025-03-24 20:30:25 180

原创 开源图生视频模型:stable-virtual-camera(1.3B)利用几张照片生成3D视频模型

此模型为“稳定虚拟相机”(SEVA)的通用扩散模型,用于从任意数量的输入视图和目标摄像机生成场景的新视角图像。

2025-03-24 20:28:06 404

原创 yolov5运行所需字体Arial.ttf问题

下载地址:https://github.com/ultralytics/assets/releases/download/v0.0.0/Arial.ttf。字体保存位置:/root/.config/Ultralytics/Arial.ttf。

2025-03-24 17:09:52 201

原创 开源:NVIDIA Isaac GR00T N1 一个机器人多模态行为推理基础模型

研究背景与目的:通用机器人需要兼具多样的身体和智能的大脑。尽管人形机器人硬件平台已取得进展,但要实现通用自主性,还需一个在大规模多样化数据上训练的机器人基础模型,使机器人能够推理新情况、稳健处理现实世界的变化并快速学习新任务。方法与创新点:介绍GR00T N1,一个面向通用人形机器人的开放基础模型。它是一个视觉-语言-行动(VLA)模型,采用双系统架构。视觉-语言模块(系统2)通过视觉和语言指令解释环境,随后的扩散Transformer模块(系统1)实时生成流畅的电机动作。

2025-03-24 10:30:09 978

原创 开源模型StarVector: 从图像和文本生成可缩放矢量图形代码

矢量图形的重要性 :可缩放矢量图形(SVG)因其可缩放性和通用性,在现代图像渲染中占据重要地位。将光栅图像转换为矢量图形的任务具有挑战性,传统方法在语义理解和生成紧凑、精确的矢量图形方面存在不足。研究目标 :提出一种多模态大型语言模型(MLLM),能够直接从图像和文本指令生成可缩放矢量图形代码(SVG),在图像矢量化和文本驱动的 SVG 生成任务中实现更优性能。

2025-03-24 10:08:38 670

原创 字节跳动 InfU框架 解析

开源模型:ByteDance/InfiniteYou。

2025-03-23 14:05:02 264

原创 开源因果模型 EXAONE-Deep-32B、7.8B、2.4B 性能解析

多种规模模型在CSAT 2025数学部分均获最高分:EXAONE Deep的32B、7.8B和2.4B模型在CSAT 2025数学部分均取得了最高分,展现了其在数学推理上的强大实力,优于全球最新的推理模型。EXAONE Deep 32B在高难度数学基准测试中表现突出:在CSAT数学部分获得94.5分,在AIME 2024中获得90.0分,是竞品中表现最高的。在AIME 2025中,其表现与DeepSeek-R1(671B)相当,证明了其在高难度数学问题上的优秀解题能力和逻辑推理能力。

2025-03-23 13:42:12 482

原创 标注数据分布绘图:matplotlib绘制样本标签分布图

标注数据分布绘图:matplotlib绘制样本标签分布图# -*-coding:utf-8-*-import pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltplt.style.use("fivethirtyeight")plt.figure(figsize=(50, 10), dpi=80)data_with_label = pd.read_csv("WholeSentence_Nlpcc2014Train.

2025-03-23 02:33:15 112

原创 hunyuan3D 2.0 扩散3D模型技术要点

模型名称:Hunyuan3D 2.0主要功能:生成高分辨率纹理3D资产架构:包含两个基础组件,分别是大规模形状生成模型Hunyuan3D-DiT和大规模纹理合成模型Hunyuan3D-Paint,以及一个用户友好的生产平台Hunyuan3D-Studio。

2025-03-22 23:19:45 457

原创 SpatialLM 一种 3D 开源大型语言模型(小参数模型)

SpatialLM是一个用于处理三维点云数据并生成结构化三维场景理解输出的大型语言模型,可识别墙体、门、窗等建筑元素及带有语义类别的方向物体边框。它能处理来自不同来源的点云数据,如单目视频序列、RGBD图像和LiDAR传感器等。以下是该项目的详细信息:项目概述。

2025-03-22 22:37:15 367

原创 文本转语音 开原模型 orpheus 让声音更生动

文本转语音 开原模型 orpheus 让声音更生动。

2025-03-21 10:05:20 398

原创 用python记录目录下的结构和文件名到json

用python记录目录下的结构和文件名到json。

2025-03-21 09:52:17 164

原创 Mistral Small 3.1 24B开源大模型来袭,一起来看看都有什么货!

Mistral Small 3.1 24B开源模型来袭,一起来看看都有什么货!

2025-03-20 14:08:53 323

python语言编写的使用cpu进行人脸尺寸计算

语言:python 计算硬件:cpu 功能:计算人脸尺寸

2025-03-12

用bert微调的情感3分类分类模型

适用语言:中文 文本长度:小于等于512 表征维度:768 transformer层数:12 词库数:21128 预训练模型:bert-base-chinese(需自行下载,附网址) 已微调

2025-03-12

批量去除视频水印并将MP4格式视频转换为GIF动态图片

python代码:批量去除视频水印,将MP4格式视频转换为GIF动态图片,允许自定义gif尺寸、帧率参数。

2025-03-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除