
LLM
文章平均质量分 80
快乐小码农
热爱生活,热爱技术,做一个有态度的四有“中年人”。关注科技进步,聚焦人工智能领域的前沿研究:经典AI、NLP、机器学习、数据挖掘、推荐系统等相关技术。人生不易,勇往直前,分享生活中的小确幸。
展开
-
Llama 4 被曝刷榜作弊,差评如潮...
没想到,Meta Llama 4 发布 36 小时后差评如潮:代码测试小球穿墙失效;第三方榜单成绩垫底;匿名员工爆料内部数据泄露隐患;高层离职与恐慌模式频现;合成数据争议未消;写作文本重复僵化;网友调侃“DeepSeek-R1出世两月,Meta却像熬了几辈子”...原创 2025-04-10 10:45:15 · 613 阅读 · 0 评论 -
CVPR 2025 录用结果公布!严禁AI评审!大模型参评审稿人的19篇论文被桌拒
CVPR 领域主席(Area Chair/AC)曝出:一些极不负责审稿人,要么彻底放弃了评审过程,要么提交了质量极低的审稿结果,其中一些结果还是由大型语言模型(LLM)生成的。最终,CVPR 官方公布了对此事件的处理结果:项目主席 (PC)决定拒收这些审稿人撰写的 19 篇论文,实施「根据 CVPR 2025 此前公布的政策,确认了这些高度不负责的评审员,并追溯到他们作为作者提交的论文。此外,更惊爆的是,CVPR 组委对一些不负责任的审稿人进行了惩罚。),今年的大会录取率创下了历史新低。原创 2025-03-04 10:31:32 · 785 阅读 · 0 评论 -
DeepSeek 开源新一代文生图模型 Janus-Pro!
1月28日,DeepSeek 开源了一个文生图模型,旨在实现高质量的文本-图像生成与多模态理解。是一种新颖的自回归框架,统一了多模态理解和生成。通过将视觉编码解耦为独立路径,同时利用单一的统一 Transformer 架构进行处理,解决了以往方法的局限性。解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。原创 2025-02-14 15:11:26 · 376 阅读 · 0 评论 -
谷歌反击DeepSeek R1发布Gemini 2.0全家桶,几大云巨头官宣接入DeepSeek
2月2日,云轴科技 ZStack 宣布 AI Infra 平台 ZStack 智塔全面支持企业私有化部署 DeepSeek-V3/R1/ Janus Pro三种模型,并可基于海光、昇腾、英伟达、英特尔等多种国内外CPU/GPU适配,将充分发挥DeepSeek开源模型和低成本高性能特点,助力企业级AI应用进一步落地。2 月 4 日,华为计算宣布,潞晨科技携手昇腾,联合发布基于昇腾算力的 DeepSeek R1 系列推理 API,及云镜像服务。原创 2025-02-14 15:02:30 · 608 阅读 · 0 评论 -
最新开源: Hugging Face最小AI视觉语言模型登场!百川智能开源Baichuan-M1医疗增强大模型!
基于 GenAI 技术构建,而依赖于逻辑链条(Chain-of-Thought,CoT)来逐步推导出解决方案,这是一种用技术换时间和算力资源的方案,使思考模型可以用 10 分钟做完一套高考数学卷,分数超过 120 分,在逻辑推理能力上,进一步靠近人类专家。两款模型均采用 Hugging Face 的先进多模态技术,能够执行图像描述、短视频分析、文档理解等任务,尤其适合内存少于 1GB 的设备如笔记本电脑,为开发者提供更广泛的应用场景。让生成的「白模」(没上色的模型)效果“堪比设计师手工建模”。原创 2025-02-14 11:20:06 · 976 阅读 · 0 评论 -
2024 年最具影响力的AI论文 Part 1
简而言之,对于每条过滤规则,研究团队都会从原始数据和过滤后的数据中抽取了 3600 亿token 的随机样本,然后训练了一个 17.1 亿个参数的小型 Llama 类模型。在“稀疏混合专家”(Sparse Mixture of Experts)模型中,“稀疏”(Sparse)指的是在任意时刻,只有专家层的子集(在 Mixtral 8x7B 中通常是 8 个中的 1 到 2 个)被激活,用于处理一个 token。这篇论文的研究表明,LoRA 的学习效果明显低于完整微调,尤其是在编码等需要获取新知识的任务中。原创 2025-01-16 09:39:21 · 1287 阅读 · 0 评论