
大模型资讯速读
文章平均质量分 72
大模型速读篇,跟踪大模型技术迭代,紧跟技术前沿
大F的智能小课
不写水文,知行合一,喜欢就关注️
关于我:深耕 AI 领域十余年,大厂核心算法技术岗。分享AI算法干货、技术心得。
欢迎交流合作,一起探索技术的无限可能!
展开
-
【大模型篇】推理模型大作战(QwQ-32B vs DeepSeek-R1)
当我让QwQ-32B vs DeepSeek-R1 写一封未来自己的信大家更喜欢哪种风格?大规模强化学习(RL)潜力无限,能超越传统预训练和后训练方法提升模型性能。近期研究表明,强化学习可显著提高模型推理能力。例如,DeepSeek R1 整合冷启动数据与多阶段训练,实现先进性能,可进行深度思考与复杂推理。原创 2025-03-06 20:08:46 · 1144 阅读 · 0 评论 -
《2021-2022全球计算力指数评估报告》核心要点解读
计算能力:该维度通过评估各类服务器和终端设备的数量和投入占比,来反映不同国家在计算力投入的整体水平和侧重点。具体包括通用计算能力、AI计算能力、边缘计算能力、科学计算能力和终端计算能力等子指标。计算效率:该维度评估了云计算渗透率、新技术使用率以及CPU、内存、存储资源的使用率,以反映一个国家当前的算力利用水平。应用水平:该维度评估了人工智能、大数据、物联网、区块链、机器人等新兴技术的应用情况,以反映一个国家计算力应用的成熟度。原创 2024-03-28 07:30:00 · 3295 阅读 · 0 评论 -
GPT4时代的终结!Anthropic 发布了新一代 AI 大模型系列Claude 3
Anthropic公司成立于2021年3月,当时距离OpenAI发布其GPT-3模型仅有半年的时间。Anthropic公司是由Daniela Amodei创立的。Dario Amodei:曾担任OpenAI的副总裁,负责开发ChatGPT等语言模型。他博士毕业于普林斯顿大学,后回到本科毕业的斯坦福大学担任博士后学者。Anthropic 翻译成中文,即“与人类有关的”意思。原创 2024-03-18 21:57:36 · 478 阅读 · 0 评论 -
终于等到open Sora开源,解读open- Sora1.0文生视频模型
Colossal-AI团队全面开源了名为「Open-Sora 1.0」的视频生成模型,该模型采用类Sora架构,基于Diffusion Transformer (DiT) 架构设计,并扩展到视频数据领域。同时,他们在训练效率上也取得了显著成果,借助Colossal-AI加速系统,不仅降低了训练成本,还在视频训练过程中实现了高效的加速效果。3. 高质量视频数据微调:针对高分辨率、高质量和更长时长的视频数据进行微调,显著提升了视频生成的质量,实现了从低分辨率向高分辨率、短时长向长时长的高效过渡。原创 2024-03-18 12:25:59 · 928 阅读 · 0 评论 -
大语言模型-阿里云研发的通义千问-72B
我们选取了MMLU,C-Eval,GSM8K, MATH, HumanEval, MBPP, BBH, CMMLU等目前较流行的benchmark,对模型的中英知识能力、翻译、数学推理、代码等能力进行综合评测。Qwen-72B模型在所有benchmark上均取得了开源模型中的最优表现。)是阿里云研发的通义千问大模型系列的720亿参数规模的模型。Qwen-72B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。原创 2024-03-13 05:00:00 · 1030 阅读 · 0 评论 -
大语言模型-智谱团队出品的ChatGLM系列-中国版OpenAI
出品方:智谱AI简介介:一个具有问答、多轮对话和代码生成功能的中英双语模型,基于千亿基座 GLM-130B 开发,通过代码预训练、有监督微调等技术提升各项能力。公司介绍:北京智谱华章科技有限公司(简称“智谱AI”)致力于打造新一代认知智能大模型,专注于做大模型的中国创新。研发了中英双语千亿级超大规模预训练模型GLM-130B,并基于此推出对话模型ChatGLM,开源单卡版模型ChatGLM-6B。原创 2024-03-12 09:45:15 · 728 阅读 · 0 评论 -
一文快读OpenAI发布的GPT4.0
它作为OpenAI旗舰级的语言模型,也是当今最好的大模型OpenAI2023 年,GPT-4.0是在GPT-3成功之后不久由OpenAI推出的。原创 2024-03-12 09:44:07 · 549 阅读 · 1 评论 -
中型多模态大模型-谷歌Gemini 1.5系列解读
在另一个代码相关的测试中,Gemini 1.5 Pro 也表现出了强大的检索能力(在代码库中查找出最相关的示例)、理解能力(找到控制动画的代码并给出自定义代码的建议)和跨模态的能力(凭截图找到演示并指导如何编辑图像代码)。它能够稳定处理高达 100 万 token(相当于 1 小时的视频、11 小时的音频、超过 3 万行代码或 70 万个单词),极限为 1000 万 token(相当于《指环王》三部曲),创下了最长上下文窗口的纪录。原创 2024-03-14 01:00:00 · 486 阅读 · 0 评论 -
智谱出品的开源第一弹大模型-ChatGLM-6B
出品方:智谱AI简介介:一个具有问答、多轮对话和代码生成功能的中英双语模型,基于千亿基座 GLM-130B 开发,通过代码预训练、有监督微调等技术提升各项能力。公司介绍:北京智谱华章科技有限公司(简称“智谱AI”)致力于打造新一代认知智能大模型,专注于做。研发了中英双语千亿级超大规模预训练模型GLM-130B,并基于此推出对话模型ChatGLM,开源单卡版模型ChatGLM-6B。转载 2024-02-27 13:19:56 · 487 阅读 · 0 评论