- 博客(864)
- 收藏
- 关注

原创 LLM大模型学习:LLM大模型推理加速
文 Mia / 叶娇娇 推理优化部署、推理加速技术是现在,尤其在大模型时代背景之下,消费级 GPU 和边端设备仍为主流的状况下。推理加速是实际工程落地的首要考虑因素之一,今天笔者来聊聊涉及到的可以实现大模型推理加速的技术。
2024-09-08 09:15:00
2153

原创 必备收藏!大模型高频面试题汇总及答案解析
在原始 PLM (Pre-trained Language Model) 旁边增加一个旁路,做一个降维再升维的操作,来模拟所谓的 intrinsic rank。训练的时候固定 PLM 的参数,只训练降维矩阵A与升维矩阵B。而模型的输入输出维度不变,输出时将BA与PLM的参数叠加。用随机高斯分布初始化A ,用0矩阵初始化B,保证训练的开始此旁路矩阵依然是 0 矩阵。
2024-08-09 10:49:42
1420

原创 传统产品经理VS现在AI产品经理,你要学习的太多了,超详细收藏我这一篇就够了
传统产品经理想要转行成为AI产品经理,需要经历一系列的学习和实践过程。下面是一份详细的学习路线图,旨在帮助你顺利转型。学习路线图了解AI基础知识AI概览:阅读《人工智能:一种现代的方法》这样的书籍,以获得对AI领域的整体理解。在线课程:通过Coursera、edX等平台上的课程,学习AI的基础概念,例如机器学习、深度学习等。掌握核心技能编程基础:熟悉Python编程,这是AI开发中最常用的编程语言之一。数据处理:学习如何使用Pandas、NumPy等工具处理数据。
2024-08-01 11:51:04
1231

原创 AI大模型入门宝典:全面知识点解析,新手必备干货大全!
当我们提及大模型时,通常指的是大语言模型(Large Language Model,简称LLM),即文字问答模型,其典型代表便是OpenAI的GPT系列。然而,随着技术的日新月异,大模型已经不单单局限于自然语言处理(Natural Language Processing)领域的发光发热,而是逐渐渗透到了其他多个领域。
2024-07-13 10:41:51
1780

原创 清华博士带你掌握 Llama 大模型 40 节课助你涨薪 120%
可能大家都想学习AI大模型技术,也想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
2024-06-07 17:48:23
1743
原创 掌握RAG原理:从文档搬运工到AI技术专家的蜕变!
看完这8个步骤,RAG 系统的全貌是不是清晰多了它通过文本分块、嵌入生成、向量存储和检索生成这几步,把外部知识和大语言模型的能力完美结合了起来。结果呢?用户不仅能得到答案,还能收获更全面、更贴心的信息。
2025-04-06 01:31:53
426
原创 阿里通义团队LaRA解读:用于评估RAG和长上下文大模型的基准测试
当下有效地将外部知识融入 LLMs,以提升其能力并满足现实世界需求,仍然是一个关键挑战。检索增强生成(RAG)()和长上下文(LC)()LLMs 作为两种重要的方法,受到了广泛关注。为了深入比较这两种方法的优劣,研究人员提出了 LaRA(Long-context and Retrieval-Augmented generation Benchmark)这一新颖的基准测试,旨在为相关研究和应用提供有力支持。
2025-04-06 01:29:10
468
原创 零基础AI产品经理转行指南:从入门到精通,AI产品经理其实就是大模型产品经理
AI产品经理是对AI技术应用和功能落地负责,并为公司带来商业价值的一群人,主要集中在。
2025-04-02 14:52:34
874
原创 国内大模型公司面试终极指南:10万月薪Offer攻略,真实面经与感受分享!
这段时间面试了很多家,也学到了超级多东西。楼主这边背景是做基座预训练算法端为主的,对框架端和RL的内容有一定了解(面试能凑合),对于后端的知识比如ML compiler,kernel,cuda相关的了解就比较浅了(问到觉大概率挂)。硬件几乎不太懂。感觉一圈聊下来几点感悟:大模型这方向真的卷,面试时好多新模型,新paper疯狂出,东西出的比我读的快。Research岗位对工程也有要求,工程端也需要了解模型。感觉比较硬核的岗位,尤其初创公司都是对好几个点都有要求的(应用,模型,框架,底层后端,硬件)。
2025-04-02 14:48:37
856
原创 制造业企业知识库建设指南:DeepSeek + RAG,是否真的适合你?
想象一下,你是制造企业的负责人,每次有新员工入职,总要安排老员工手把手培训;设备坏了,维修人员需要翻厚厚的纸质手册;客户问一个产品参数,业务员却找不到正确的数据……这些场景是不是很熟悉?过去,我们依赖 Excel、微信群、U 盘共享文件,但这些方法效率低、容易丢失信息,关键时刻找不到对的人、对的资料。。:生产标准、设备维修记录、质检报告散落在个人电脑、微信群、邮件附件中,难以统一管理。:老员工掌握的隐性知识无法快速共享,新员工只能“靠师傅带”。
2025-04-02 14:05:58
587
原创 MCP助力大模型:自动批量下载文献,效率提升太香了!
MCP 最近这么火,你还不知道它是啥吗?别慌,动手实战一番就包你明白了。而且,咱这个是真的实战,绝对干货啊,全网少见的干货。我们之前讲了很多建立知识库之类的,新鲜的知识才有意思嘛。问题是新鲜货哪里来呢,徒手去搜索加下载?2025 年了,咱不能这么干了。你有没有想过让大模型自动给我们搜索、下载、解读文献,一条龙服务?即便像 Deep Research 之类的服务也主要是帮你搜索和整合资源,但不给你下载资源对不。实际上,是可以手撸一个智能体帮我们干这项大工程的。
2025-04-02 14:02:45
1009
原创 基于大模型DeepSeek的企业典型AI应用
通过优化架构与针对性硬件配置,大幅降低训练成本。DeepSeek v3仅需558万美元耗时2个月完成训练,资源消耗显著低于行业巨头。无需巨额资金即可开展AI业务,极大降低智能化门槛。推理速度快、资源消耗低,在保证精度同时提升效率。智能客服实时解答客户疑问智能风控快速识别风险高效支持业务运转流程多头潜在注意力无辅助损失的负载平衡策略多标记预测技术于MMLU、MATH-500等基准测试中准确性显著提升中文SimpleQA表现超越GPT-4o代码与数学推理任务达先进水平。
2025-04-02 13:55:09
557
原创 一般人我劝你不要自学大模型,能骂醒一个算一个!【附AI大模型教程完整版】
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
2025-04-01 17:17:16
1359
原创 AI行业年薪百万不是梦!零编程基础也能驾驭的9大AI岗位,一篇文章解锁新未来!
企业对炙手可热的AI人才争夺日趋激烈,除了AI技术人才,能够探索AI应用的人才,将AI工具融入工作流程,以提高生产率、节省时间的人才,以及能够连接技术端与业务端的人才也是很多企业的目标。因此催生了AI领域的全新职位。以下九种与AI相关的岗位无需编程技能即可胜任,岗位具体薪资会根据公司规模及求职者经验有所浮动。
2025-04-01 17:13:25
911
原创 教师必备神器!DeepSeek教学增效全攻略:备课效率提升100%,教学效果立竿见影!
在教育领域的数字化浪潮中,AI 工具正逐渐成为教师们提升教学质量的得力助手。DeepSeek 凭借其强大的智能交互能力,为教师备课带来了全新的变革。今天,就带大家深入探索如何借助 DeepSeek,实现备课效率的飞跃式提升。
2025-04-01 17:11:11
983
原创 向量嵌入Embedding深度解析:一篇文章彻底理解!
一起来开个脑洞,如果诸葛亮穿越到《水浒传》的世界,他会成为谁?武松、宋江、还是吴用?这看似是一道文学题,但我们可以用数学方法来求解:诸葛亮 + 水浒传 - 三国演义 =?文字本身无法直接运算,但是如果把文字转换成数字向量,就可以进行计算了。而这个过程,叫做“向量嵌入”。因为具有语义意义的数据(如文本或图像),人类可以分辨它们的相关程度,但是无法量化,更不能直接计算。例如,对于一组词“诸葛亮、刘备、关羽、篮球、排球、羽毛球”,我们可能会把“诸葛亮、刘备、关羽”分成一组,“篮球、排球、羽毛球”分成另外一组。
2025-04-01 17:08:18
510
原创 香港大学开源革命性AI Agent框架:AutoAgent,全自动且高度自我进化!
AutoAgent 是一个的框架,用户仅需即可创建并部署 LLM Agent。✨🏆AutoAgent 在开源方法中排名,性能可媲美 OpenAI 的。📚AutoAgent 配备原生,超越 LangChain 等行业领先方案。✨AutoAgent 利用轻松构建可直接使用的工具、Agent 和工作流——。🌐AutoAgent多种 LLM(如 OpenAI、Anthropic、DeepSeek、vLLM、Grok、Huggingface...)。🔀支持和交互模式。🤖。
2025-04-01 17:06:37
553
原创 那些想要转行ai赛道的朋友?看过来_看完这篇少走三年弯路!
最近有朋友说,想转行ai赛道,做大模型之类的工作,不知道有哪些岗位。今天就来聊聊,AI大模型有哪些方向,新人怎么转行大模型赛道,让大家少走弯路,早日在AI领域如鱼得水!其实,在招聘网站上搜搜 “大模型”,看看那些招聘要求,就能大概了解大模型工程师都有哪些方向了。主要分为下面这四类:数据治理方向:大模型数据工程师,主要负责爬虫、数据清洗、ETL、Data Engine、Pipeline 这些工作。简单说,就是要把数据整理得妥妥当当,让模型能 “吃” 得好。
2025-03-31 20:57:38
1326
原创 一文读懂大模型的基本概念_看完这篇就足够了_把什么是大模型?
大模型是指具有大规模参数和复杂计算结构的机器学习模型。这些模型通常由深度神经网络构建而成,拥有数十亿甚至数千亿个参数。大模型的设计目的是为了提高模型的表达能力和预测性能,能够处理更加复杂的任务和数据。大模型在各种领域都有广泛的应用,包括自然语言处理、计算机视觉、语音识别和推荐系统等。大模型通过训练海量数据来学习复杂的模式和特征,具有更强大的泛化能力,可以对未见过的数据做出准确的预测。
2025-03-31 20:55:51
1121
原创 公安大模型 + ASR:警务工作智能化变革的强劲引擎
在科技飞速发展的当下,人工智能技术正深度融入各个领域,为工作模式的革新带来了前所未有的机遇。对于公安系统而言,提升警务工作的智能化水平,增强应对复杂治安形势的能力迫在眉睫。其中,公安大模型与自动语音识别(ASR)技术的融合应用,正逐渐成为推动警务工作智能化变革的关键力量。今天,我们就一同深入探讨公安大模型 + ASR 在警务工作中的应用情况与建设水平,为各位领导在优化警务工作方面提供全面且深入的参考。一、公安大模型与 ASR 技术概述(一)公安大模型:警务智能的 “智慧大脑”
2025-03-31 20:41:01
564
原创 大模型入门必看:大模型八本高评分书籍,附上PDF完整版
在AI技术日新月异的时代,掌握大模型开发与应用的技能已成为科研人员与工程师的必备能力。本文为读者精心挑选了8本高评分的书籍,从基础理论到实际操作,为不同层次的学习者提供了全面的学习资源。这些书籍包括对PyTorch深度学习、LLM构建、AIGC基础、大模型应用和技术演进的深入解读,助力读者在大模型时代顺利前行。八本大模型书籍PDF免费领取。
2025-03-30 20:04:37
705
原创 中山大学:从技术突破到场景落地,大模型发展图谱与DeepSeek创新应用|附96页文件下载
本文提供完整版报告下载,请查看文后提示。......文│中山大学。
2025-03-30 19:59:45
397
原创 神器插件解锁:免费使用Claude、Gemini、Grok、GPT、Deepseek等顶级大模型!
DeepSider是一款集成于浏览器侧边栏的AI对话工具,可免费使用所有顶级大模型包括GPT-4o,Grok3,Claude 3.5 Sonnet,Claude 3.7,Gemini 2.0,Deepseek R1满血版等以极简交互与超快的响应速度,完成AI搜索、实时问答、内容创作、翻译、代码生成等复杂任务,适用于谷歌浏览器、微软Edge浏览器。
2025-03-30 19:58:11
552
原创 19.2K星超级Agent震撼登场,性能超越LangGraph 5000倍!
Agno 是一个轻量级的多模态智能体(multi-modal Agent)支持多种数据模态(如文本、图像、音频和视频),并且可以快速创建智能体。提供了内存管理和知识库支持,能够将用户会话和智能体状态存储在数据库中,基于向量数据库实现动态少样本学习。支持多智能体协作,帮助用户实时跟踪智能体会话和性能。纯 Python 实现,开发者可以轻松上手并快速构建高效的智能体应用。
2025-03-30 19:56:29
532
原创 大模型学习路径全解析:零基础入门到精通,大模型学习路线非常详细,收藏这一篇就够!
在掌握机器学习之前,理解支撑这些算法的基本数学概念非常重要。:这是理解许多算法(特别是深度学习算法)的关键。主要概念包括向量、矩阵、行列式、特征值和特征向量、向量空间以及线性变换。:许多机器学习算法涉及到连续函数的优化,这需要理解导数、积分、极限和级数。多变量微积分以及梯度的概念也很重要。:这些知识对于理解模型如何从数据中学习并进行预测至关重要。主要概念包括概率理论、随机变量、概率分布、期望、方差、协方差、相关性、假设检验、置信区间、最大似然估计和贝叶斯推断。
2025-03-29 19:51:10
1146
原创 热点技术解析:DeepSeek+Dify本地知识库,用户好评如潮!
之前我做了个AnythingLLM+DeepSeek去搭建本地知识库的教程,我发现阅读数挺高的,说明大家挺喜欢这个系列。但是我最近又发现 Dify+DeepSeek 去搭建本地知识库才是最牛的,,比德芙还要丝滑~今天这篇文章,纯小白也可以跟着做,不需要有计算机技术基础哦,一起来动手搭建本地最强知识库吧!
2025-03-29 19:48:58
1039
原创 北京大学:DeepSeek应用场景中需要关注的十个安全问题和防范措施 |附101页文件下载
本文主要内容为DeepSeek应用场景中需要关注的十个安全问题和防范措施。文中首先介绍了DeepSeek安全问题具有威胁难以预测、攻防非对称的特点,以及存在数据隐私、知识产权、责任归属、伦理道德等法律问题。然后,文章从内生安全和外延安全描述了安全方案框架,帮助大家对DeepSeek的安全建立整体认知。接着,文章详细介绍了DeepSeek模型自身的5个安全问题,包括DDoS攻击、无限推理攻击、漏洞探测与利用、投毒问题和越狱问题。
2025-03-29 19:46:37
546
原创 72B参数+128K上下文!阿里巴巴Qwen2.5大模型如何重构多模态AI天花板
阿里巴巴Qwen2.5大语言模型以颠覆性姿态强势登场,再次刷新多模态AI的行业标杆。作为国内AI领域的旗舰级产品,Qwen系列不仅实现了语言与多模态能力的深度融合,核心突破开启智能交互新纪元。模型架构全面进化▸ 参数规模覆盖0.5B到72B七级梯度("B"代表十亿参数),同时提供基础版与指令微调版▸ 采用18万亿tokens超大规模预训练("T"代表万亿量级)▸ 上下文窗口扩展至128K tokens,长文本生成能力突破8K tokens核心能力飞跃提升。
2025-03-29 19:44:24
610
原创 一文读懂大模型生态系统:AGI、Prompt、RAG、Agent、...
每次与AI圈内人士聊天,总会听到这些术语:"你听说过这些术语,却不一定搞懂它们到底是什么,它们之间又有什么关系?今天,我们就用最通俗的语言,帮你理清这些概念,看懂大模型智能生态系统的全貌。
2025-03-29 19:42:47
838
原创 多模态RAG与异步调用:提升大模型内容理解的关键技术!
文章探讨了如何利用多模态大模型和工程优化手段提升物流理赔业务效率。核心方案包括:通过多模态RAG技术实现图片查重,结合异步调用方法优化货损识别功能。一. 项目背景和方案架构理赔业务是物流行业经常需要处理的问题,客服需要审核客户上传的受损货物的图片资料,对受损情况做判定,然后给客户提供赔偿金额;整体的流程需要人工操作,效率很低,因此如何用大模型作为切入点为理赔业务提效成为重点关注问题。
2025-03-28 17:49:38
472
原创 AI产品经理技能图谱与入行指南,AI产品经理学习路线,非常详细收藏我这一篇就够了!
回答这个问题前我们首先得理清楚什么是AI产品经理,它和传统的互联网产品经理有什么区别。主要职责一方面是规划如何将成熟的AI技术应用在各个领域不同场景中,提升原有场景的效率或效果等;另一方面是基于业务方的需求如何用现有的AI技术或者AI技术组合予以实现,甚至有可能联合技术团队孵化新的AI软件解决方案或者AI硬件产品。AI产品经理本身也只是产品经理的一种,并没有什么特殊性。只是这些年AI相对比较火,理解AI技术需要一定的技术门槛,和传统的交互产品经理、系统产品经理等对比起来入门门槛更高。
2025-03-28 17:45:05
887
原创 AI大模型实战教程:打造未来客服机器人,让传统智能客服成为历史!
本篇文章,我们重点围绕客服场景,详细介绍如何通过AI 大模型替代传统智能客服系统。传统智能客服系统主要包括知识库、机器人、人工坐席、智能质检、工单管理等核心模块。虽然智能客服已经是一个发展了很多年的成熟领域,但仍然面临非常多的痛点。
2025-03-28 17:42:08
1061
原创 有化大模型安装部署实战:保姆级教程,轻松完成数据投喂!
大模型增强应用,用来做界面化的交互,同时也可以处理文本标记,以及向量数据存储,这样我们就可以给自己部署的大模型投喂数据了。OK,正式开始!
2025-03-28 17:40:06
810
原创 阿里开源超强多模态模型!70亿参数干翻谷歌,看一眼秒出食谱,唠嗑更像人,还能视频聊天
Qwen2.5-Omni-7B一经发布便获得海内外用户的关注,有不少网友已经开启了催更模式,比如增加对小语种的支持、开发千问海外App,或是与智能眼镜等硬件结合。据千问团队介绍,未来,他们还会发布能力更强、速度更快的模型,并扩展其多模态输出能力,涵盖图像、视频和音乐等多种形式。
2025-03-28 17:37:13
907
原创 Nature Communications 2024 | 基于分子视频的科学药物发现基础模型
01 前言药物发现是一个复杂而耗时的过程,涉及潜在药物靶点的识别、化合物的设计和合成,以及化合物疗效和安全性的测试。在传统的药物发现中,药物化学家和药理学家根据知识和经验选择和优化候选化合物,并通过筛选细胞或动物模型进行验证。利用计算和人工智能技术辅助药物开发的计算药物发现为加快这一过程提供了一种有前景的方法。通过利用大型生物和化学信息数据集,这些计算方法,如基础模型,可以快速识别新的药物靶点,设计候选分子,并评估这些候选分子的疗效和特性,这大大减少了传统药物发现和开发的时间和成本。
2025-03-28 17:31:41
1175
原创 20个Deepseek版本全解析,找到最适合你的那一款!
Deepseek官方一共发布了20个R1推理模型的版本,根据参数规模和参数精度,可以将这些模型分为三类:完整版(满血版)、蒸馏版和量化版。“满血版”提供最高的性能,但需要强大的硬件支持;“蒸馏版”在性能和资源需求之间更能取得平衡;“量化版”则适合资源相对受限的场景,但也以牺牲部分精度为代价。每个版本都有不同的部署成本和适应场景,所以选择部署哪个版本,需要根据具体的需求场景,灵活选择。完整版(满血版 671B-FP16)
2025-03-28 17:30:10
850
原创 神仙级AI大模型入门教程(非常详细)_大模型教程_大模型入门
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。学习路上没有捷径,只有坚持。虽然大模型在底层运算上可能不如一些特定的算法快速,但大模型清晰的结构和强大的能力能够解放开发者的大量时间,同时也能方便地与其他技术(如传统机器学习算法)结合使用。包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。
2025-03-27 16:52:17
768
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人