
语言模型
文章平均质量分 86
JackieZhengChina
70'码农,优快云博客专家,信息系统项目管理师,工商管理硕士,CZB政采评审专家,中国采购与招标专家库专家,自驾爱好者,近20年教育类产品研发及管理经历,曾任教育科技公司联合创始人兼产品VP、科技公司产研VP。
职业标签:产品、项目、技术、运营、管理、战略。
展开
-
被骂惨的“现象级”Manus,今天我们来扒一扒它的真实水平!
但值得注意的是,哪怕作为“通用 Agent”,Manus 在大众中的使用门槛也是不低的。据李飞介绍,在使用层面可能出现两种情况:领域专家不用它,因为当前通用 Agent 还没有达到能够解决领域难题的程度;一般使用者不知道该怎么去用,就像我们在去用搜索的时候,提问是一件很难的一件事情。对此,李飞提出,当前很多 Agent 还是被动式的,需要用户以提问形式告诉它怎么做。原创 2025-03-08 13:29:49 · 1683 阅读 · 0 评论 -
用豆包帮你逐篇快速阅读DeepSeek的8篇论文
核心目标:探究语言模型缩放规律,构建并评估 DeepSeek LLM,推动开源语言模型向大规模发展,缩小与前沿模型差距。主要成果:确定新缩放法则与最优缩放策略,依此训练的 67B 模型在多基准测试中表现优异,部分超越 LLaMA - 2 70B 等,开源且为后续研究奠定基础。研究贡献:在缩放规律上取得突破,确定新模型表示和缩放策略;构建高质量数据集和有效训练模型;在多方面评估展示模型优势,为开源语言模型发展提供全面技术支持和实践经验。局限与未来。原创 2025-02-06 22:32:08 · 1216 阅读 · 0 评论 -
用DeepSeek分析总结一下DeepSeek发表过的8篇论文
DeepSeek正在构建一个覆盖语言、代码、视觉的多模态技术矩阵,同时通过开源策略和架构创新解决大模型落地中的成本与效率瓶颈。其强化学习驱动的技术路线可能成为下一代AI系统的差异化竞争优势。原创 2025-02-06 21:21:54 · 3267 阅读 · 0 评论 -
刘润:DeepSeek这把火,为何烧疼了硅谷?
但是,ChatGPT的用户协议里明确写着,不允许用我的模型,来训练新的模型,尤其是训练用来和我竞争的模型。关系到美国国家安全的“小院”(半导体和微电子,量子信息技术,和人工智能等等),对中国建设“高墙”(出口管制,限制签证,和审查投资等等)。这张照片,是只小狗。孩子会根据这种惩罚和奖励的反馈,不断自动调整姿势,直到终于在一个瞬间,就突然会走路了。而对中小企业和个人,可以像用水和用电一样,直接调用DeepSeek的API,使用DeepSeek的云端“智能资源”,然后按“度”(百万token)付费。原创 2025-01-30 16:02:04 · 1050 阅读 · 0 评论 -
谷歌科学家万字长文:《改变你职业生涯的一篇文章,我如何运用人工智能完成工作》
通常,我不是那种轻易相信任何事物的人。比如,尽管我经历了十年前信息安全界的加密货币热潮,我却从未参与撰写任何关于区块链的研究论文。我也从未拥有过任何比特币,因为在我看来,它们除了用于赌博和欺诈之外,没有任何实际价值。我一直持怀疑态度,每当有人向我宣称“某项新技术将改变世界”,我的反应总是冷漠。因此,当第一次有人告诉我人工智能将极大地提升我的工作效率并改变我的日常工作方式时,我同样持保留态度,我的回应是:“见到实际效果我才会信。此外,我是一名安全研究员。原创 2024-09-24 15:28:51 · 777 阅读 · 0 评论 -
李彦宏最新内部讲话曝光,谈大模型三大认知误区:榜单不代表实力,智能体还是非共识
图片来源:百度近半年多来,AI行业在经历飞速增长后开始进入冷静期。业内出现了对AI的担忧声音:大模型技术是否已经接近天花板?大模型之间是否没有技术壁垒?闭源模型相对开源模型的优势是什么?AI应用的发展方向在哪里?这些令人担心的问题甚至引发了AI是否又是一场科技泡沫的舆论。近日,李彦宏的一场内部讲话被曝光。他提出了大模型三大认知误区,涉及了大模型竞争格局、开源模型效能以及智能体发展趋势等备受关注的话题。ZP整理了李彦宏的核心观点和讲话原文。核心观点误区一:大模型之间的能力已经不存在壁垒?打榜不能代表大模型真正原创 2024-09-23 07:48:20 · 1025 阅读 · 0 评论 -
在大模型训练中,为什么GPU 通常比 CPU 更重要
综上所述,在大模型训练中,GPU 通常比 CPU 更重要。GPU 的强大并行计算能力、浮点运算性能、内存带宽以及深度学习框架支持,使得它能够在大模型训练中发挥关键作用。然而,CPU 也不可或缺,它在控制和协调、数据处理和管理等方面发挥着重要作用。在实际应用中,通常会结合使用 GPU 和 CPU,以充分发挥两者的优势,提高大模型训练的效率。然而,这并不意味着 CPU 在大模型训练中就毫无作用。原创 2024-09-22 17:47:50 · 1787 阅读 · 0 评论 -
深度解析LLaMA2模型架构
随着人工智能技术的不断发展,自然语言处理(NLP)领域也取得了巨大的进步。在这个领域中,LLaMA展示了令人瞩目的性能。今天我们就来学习LLaMA2模型。LLaMA 由 Meta AI 公司2022年发布的一个开放且高效的大型基础语言模型,共有 7B、13B、33B、65B(650 亿)四种版本。其数据集来源都是公开数据集,无任何定制数据集,整个训练数据集在 token 化之后大约包含 1.4T 的 token。转载 2024-09-22 10:52:46 · 344 阅读 · 0 评论 -
只要3小时就能训练一个26M的大模型,MiniMind开源了
大语言模型(LLM)领域,如 GPT、LLaMA、GLM 等,虽然它们效果惊艳, 但动辄10 Bilion庞大的模型参数个人设备显存远不够训练,甚至推理困难。此外,卖课付费订阅的营销号漏洞百出的一知半解讲解AI的教程遍地, 让理解LLM的优质内容雪上加霜,严重阻碍了学习者。该项目可以使用极小的数据和计算资源,在3小时内训练出一个26M的模型,使大模型技术使用更加简单。MiniMind 支持单机单卡和多卡训练,兼容多个流行的框架,并提供完整的代码和文档支持,帮助初学者和研究者快速上手并进行定制和扩展。原创 2024-09-20 08:57:52 · 1069 阅读 · 0 评论 -
62页PPT,初步看懂人工智能!
o人工智能的定义●英文全称: artificial intelligence (人工的、人造的智能),简称AI。●定义:人工智能,是研究、开发用于模拟、延伸和扩展人的智能行为的理论、方法、技术及应用系统的一门综合性科学。●目的:使计算机系统具备执行“通常需要人类智能才能完成的任务”的能力。原创 2024-08-26 09:42:01 · 802 阅读 · 1 评论 -
[转]通俗易懂的LLM(上篇)
2022年年底OpenAI发布ChatGPT,将LLM(Large Language Model)带向了一个新的高度,而2023年OpenAI继续放出大招:更强大的GPT-4问世,瞬间引爆了整个互联网圈。在这个大模型时代,作为一名NLPer,持续吸收着层出不穷的新技术,确实有些吃不消。俗话说,好记性不如烂笔头,在此记录下LLM相关技术及进展。顺便说一句,你可以说它不全面,但不能说它不通俗易懂。:Prefix-Tuning也是一种Prompt-Tuning,是最早提出soft-prompt的论文之一。原创 2024-08-06 12:52:51 · 1006 阅读 · 0 评论 -
Notion爆红背后,笔记成了AI创业新共识?
Voicenotes是一款AI语音笔记应用,只允许用户用语音输入的方式记录想法,基于GPT-4和Claude 3 oups等先进的语言模型,Voicenotes可以智能分析你的语音笔记,提供多种智能服务:。关于AI笔记的未来,Notion创始人Ivan Zhao给出了自己的答案:Notion的本质是一个超级AI RAG系统,可以理解用户放进去的信息并智能反馈。它的数据库和清单化管理,适合那些需要高效管理笔记、任务和知识库的人,比如管理案例和客户信息的程序员、律师、医生等,以及需要管理项目的创业人士等。原创 2024-08-03 18:42:18 · 1162 阅读 · 0 评论 -
大模型应用将从 RAG 迈向 Agent
大模型技术席卷全球,为日常工作和生活带来便利,但也面临时效性、准确性等问题。如何提升大模型的性能?解决其挑战?构建高级应用?成为重要待解决问题。原创 2024-08-01 14:39:38 · 595 阅读 · 0 评论 -
SpringAI简单使用(本地模型+自定义知识库)
Ollama是一个开源的大型语言模型服务工具,它允许用户在本地机器上构建和运行语言模型,提供了一个简单易用的API来创建、运行和管理模型,同时还提供了丰富的预构建模型库,这些模型可以轻松地应用在多种应用场景中。Ollama支持多种操作系统,包括macOS、Windows、Linux,并提供Docker镜像,方便用户在不同环境中部署使用。Ollama的特点包括轻量级和可扩展性,它允许用户通过命令行界面(CLI)或REST API与语言模型进行交互。转载 2024-07-21 08:25:40 · 2231 阅读 · 0 评论