
大语言模型
文章平均质量分 91
aiweker
AI 10年从业者,记录我的AI成长历程!InfoQ写作社区和阿里云开发者社区签约作者,长期跟踪和分享人工智能前沿技术、应用、领域知识,不定期的发布相关产品和应用,欢迎关注和转发
展开
-
DeepSeek开源周:五大创新项目详解
DeepSeek近期开源的3FS(Fire-Flyer File System)是一种高性能并行文件系统,专为现代人工智能(AI)和高性能计算(HPC)工作负载而设计。DeepSeek开源周的五大项目涵盖了从注意力机制优化、通信库优化、矩阵乘法优化到并行调度和数据存取等多个方面,形成了端到端的技术闭环。这些项目不仅提高了大模型训练和推理的效率,还降低了技术门槛,加速了行业创新。通过开源这些核心技术,DeepSeek正在吸引更多的开发者加入其生态体系,共同推动AI技术的发展。原创 2025-03-04 00:30:00 · 1281 阅读 · 0 评论 -
AI大咖说-李飞飞高徒/特斯拉前AI总监出的最新AI课程
我们将从头开始,从基础到构建一个类似于ChatGPT的实用Web应用,全程使用Python、C和CUDA进行开发,且对计算机科学背景知识的要求极低。Andrej Karpathy的职业生涯充满了对人工智能技术的热情和追求,他的贡献不仅推动了深度学习领域的发展,也为自动驾驶、机器人等前沿领域的技术进步提供了有力支持。它其实是minGPT的一个升级版,更注重实用性。我们的存储库直接采用简洁高效的C/CUDA语言,无需加载245MB的PyTorch或107MB的cPython,让你轻松搭建大型语言模型。原创 2025-02-28 03:00:00 · 689 阅读 · 0 评论 -
假如AI欺骗了你 | AI大咖说
截至2025年,AI领域取得了显著进展,特别是在AI Agent和具身智能机器人方面。AI Agent是能够自主规划和执行任务的智能体,具备动态决策和行为调整能力。2025年,OpenAI预计将推出全新AI Agent——Operator,该系统能够自动执行各种复杂操作,如编写代码、预订旅行、自动电商购物等。此外,国内大厂如百度、阿里、腾讯等也纷纷入局,推出了面向企业用户的智能体创建平台,如百度文心智能体平台、腾讯元器等。另外,具身智能机器人通过物理实体与环境交互,具备感知、推理和行动能力。原创 2025-02-26 01:00:00 · 867 阅读 · 0 评论 -
什么是世界模型World Models | AI大咖说
世界模型(World Models)的灵感源于人类自然形成的世界心智模型。人类通过感官获取抽象信息,在大脑中转化为对周围世界的具象理解,这种理解模型早在人类研究AI之前就已存在。基于这些模型,大脑能够对世界进行预测,进而影响人们的感知和行动。原创 2025-02-24 03:00:00 · 1283 阅读 · 0 评论 -
AGI分级探索:从OpenAI到DeepMind,展望未来AI图景
OpenAI和DeepMind的AGI分级体系为我们提供了一个清晰的框架来理解和追踪AGI的进展。随着技术的不断进步和跨学科合作的加强,我们有理由相信未来的AGI将能够更好地服务于人类社会,推动人类文明向更高层次发展。然而,在这一过程中,我们也需要时刻保持警惕和理性思考,确保AGI的发展始终符合人类的价值观和伦理标准。让我们共同期待并迎接这个充满挑战与机遇的机器人时代的到来吧!原创 2025-02-24 02:00:00 · 970 阅读 · 0 评论 -
deepseek这么火,分享两个超级有用的资料
清华大学的两份资料为我们提供了 DeepSeek 的全面学习路径和职场应用指南。无论是初学者还是资深用户,都可以从中获得实用的技巧和灵感。未来,随着 DeepSeek 技术的不断迭代,其在职场中的应用场景将更加广泛。我们期待更多用户能够借助 DeepSeek 实现人机协同,释放创造力,推动工作效率的全面提升。下载链接:通过网盘分享的文件:deepseek链接: https://pan.baidu.com/s/1B6AcT9CVZNhfbegdhCsEzw 提取码: qkv9。原创 2025-02-17 01:15:00 · 712 阅读 · 0 评论 -
Deepseek R1 5分钟本地化部署
在人工智能领域,DeepSeek的崛起犹如一颗璀璨的新星,迅速吸引了全球科技界的目光。作为一款基于Transformer架构的先进大语言模型,DeepSeek凭借其强大的自然语言处理能力和高效的推理速度,在文本生成、问答系统、翻译、摘要等多个任务中展现出了卓越的性能。其独特的训练数据多样性和模型架构优化,使得DeepSeek能够更好地理解上下文语义,生成更加连贯和准确的文本。原创 2025-02-12 01:00:00 · 1064 阅读 · 0 评论 -
吴恩达开源aisuite:简化AI模型调用的新工具
aisuite的核心功能是提供了一个统一的接口,使开发者能够以相同的方式调用不同大型语言模型(LLM)平台的模型。目前,aisuite支持包括OpenAI、Anthropic、Azure、Google、AWS、Groq、Mistral、HuggingFace和Ollama在内的11个模型平台,这意味着开发者可以轻松切换和测试不同提供商的模型,而无需进行复杂的代码重写。统一接口。原创 2025-02-12 00:45:00 · 930 阅读 · 0 评论 -
盘点2024 Arxiv高引用论文Top10,Deekseek Qwen LLaMA3入选 | AI大咖说
论文重点介绍了Deep Seek Coder模型的强大功能,该模型通过对包含两万亿个token的海量数据集进行广泛的代码预训练,在代码相关任务中取得了最佳结果,甚至超越了Codex和GPT-3.5等闭源模型。此外,论文还强调了训练过程的透明度,为研究界提供了宝贵的见解。Meta分享了创建多达450亿个参数的最先进的语言模型的确切步骤,使得这篇论文成为任何对大型语言模型最新进展感兴趣的人的必读之作。通过综合最新的研究,该论文对LLM的现状和未来发展方向提供了全面的了解,有助于推动LLM技术的进一步发展。原创 2025-02-07 01:00:00 · 1174 阅读 · 0 评论 -
一文了解火爆的DeepSeek R1 | AIGC
DeepSeek R1是由DeepSeek公司推出的一款基于强化学习(RL)的开源推理模型。它无需依赖监督微调(SFT)或人工标注数据,完全通过强化学习训练而成。DeepSeek R1在数学、代码和自然语言推理任务上表现出色,其推理能力媲美甚至超越了OpenAI的O1正式版。同时,DeepSeek R1还具备低成本、高效率、多语言支持等优势,可广泛应用于教育辅导、金融分析、企业智能化升级等领域。原创 2025-02-05 12:56:52 · 2816 阅读 · 0 评论