OpenAI
文章平均质量分 91
科研数据源码资源库
如果资源失效或版本不正确,请私信我,我会尽快补发!所有源码仅供学习和交流使用,若需商用,请支持正版。文章中发布的所有内容均来源于互联网和自己整理制作,如有侵权,请私信联系我删除。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
GPT4技术报告介绍
我们的目标是让我们构建的 AI 系统具有合理的默认行为,以反映广泛的用户价值观,允许这些系统在广泛的范围内进行定制,并就这些范围应该是什么获得公众意见。获得访问权限后,您可以向 gpt-4 模型发出纯文本请求(图像输入仍处于有限的 alpha 阶段),随着时间的推移,我们会在制作新版本时自动将其更新为我们推荐的稳定模型(您可以固定当前版本通过调用 gpt-4-0314,我们将支持到 6 月 14 日)。主要原因是,对于像 GPT-4 这样的非常大的训练运行,进行广泛的特定于模型的调整是不可行的。原创 2024-02-08 08:45:00 · 1305 阅读 · 0 评论 -
GPT-4系统介绍
大型语言模型(LLM)正被部署在我们生活的许多领域(从浏览到语音助手,再到编码辅助工具),具有巨大的社会潜力影响。此system card分析GPT系列中最新的LLM:GPT-4模型。首先,我们强调了模型的局限性带来的安全挑战(例如,产生令人信服的微妙错误的文本)和能力(例如,提高熟练度在提供非法建议、军民两用能力表现和危险的紧急行为方面)。其次,我们对OpenAI用于制备GPT-4的安全流程进行了高级概述用于部署。这涵盖了我们在测量、模型级别更改、产品系统级干预措施(如监测和政策)以及外部专家参与。最后,原创 2024-02-07 15:30:00 · 1149 阅读 · 1 评论 -
Research Origin of GPT-4
他给我讲解了一些NLP领域的相关内容,但听完后觉得,NLP不是我想要的东西,因为它没有正确的特性(properties),就好像我们在NLP系统中投入了大量精力,做了大量工作,但却无法说清楚语言到底是如何运转的,仿佛缺少了某种内在的东西。我们当下在做的事情也会是S形曲线,并出现范式转变,这体现了人类的创造力。**现在AI的重点是它的用途,我们希望通过AI来提升计算机的能力,让计算机发挥更大的作用,当然,它也带来了一些新问题,但总的来说,它解决的问题要比创造的问题多得多,并且改变了人类的交互方式。原创 2024-02-07 10:30:00 · 957 阅读 · 1 评论 -
GPT-4的高级推理能力超越了ChatGPT
在内部评估中,与GPT-3.5相比,GPT-4对不允许内容做出回应的可能性降低82%,给出事实性回应的可能性高40%,而 GPT-4 对敏感请求(如医疗建议和自我伤害)的响应符合政策的频率提高了 29%。GPT-4可以更准确地解决难题,具有更广泛的常识和解决问题的能力:更具创造性和协作性;GPT-4的高级推理和指令遵循能力加快的安全性研究工作。GPT-4遵循GPT、GPT-2和GPT-3的研究路径,利用更多数据和更多计算来创建越来越复杂和强大的语言模型(数据量和模型参数并未公布)。原创 2024-02-06 12:30:00 · 597 阅读 · 0 评论 -
GPT-4:我 SAT 考 710,也能当律师**
这些改进的结果是 GPT-4 的训练运行获得了前所未有的稳定,以至于 OpenAI 能够提前准确预测 GPT-4 的训练性能,它也是第一个实现这一点的大模型。为了防止模型拒绝有效的请求,团队从各种来源(例如,标注的生产数据、人类的红队、模型生成的 prompt)收集多样化的数据集,在允许和不允许的类别上应用安全奖励信号(有正值或负值)。与 GPT-3.5 相比,模型对不允许内容的请求的响应倾向降低了 82%,而 GPT-4 对敏感请求(如医疗建议和自我伤害)的响应符合政策的频率提高了 29%。原创 2024-02-06 09:00:00 · 970 阅读 · 0 评论 -
GPT4_VS_ChatGPT(from_nytimes)
正如文章官网博文:https://openai.com/research/gpt-4所述,GPT4仍有很多不足之处,还不及人类水平。四个月前吸引科技行业的 AI 聊天机器人所采用的技术的新版本在其前身的基础上进行了改进。它是一系列学科的专家,其医疗建议甚至令医生惊叹不已。它可以描述图像,并且接近于讲几乎好笑的笑话。但传闻已久的新人工智能系统 GPT-4 仍然存在一些怪癖,并且会犯一些同样的习惯性错误,这些错误在引入聊天机器人 ChatGPT 时让研究人员感到困惑。原创 2024-02-07 14:00:00 · 807 阅读 · 1 评论 -
AI有道--AI大模型系列文章锦集
微软深夜放炸弹!GPT-4 Office 全家桶发布,10 亿打工人被革命CVPR2023|不好意思我要加速度了!FasterNet:更高 FLOPS 才是更快更强的底气如何蹭 ChatGPT 的热度发一篇顶会?GPT-4 发布!ChatGPT 大升级!太太太太强了!原来 Transformer 就是一种神经网络,这个概念你清楚吗?清华朱军团队开源首个基于 Transformer 的多模态扩散大模型,文图互生、改写全拿下鸡兔同笼都能算错的 ChatGPT,陶哲轩发现了它的价值谷歌发布史上最大「通才」模型 P原创 2024-02-07 09:30:00 · 1036 阅读 · 1 评论 -
训大模型的一份避坑指南
以下为嘉宾讨论精华整理。欢迎在小宇宙搜索并关注我们的同名播客 OneMoreAI,聆听全部讨论内容。Kiwi:很好奇大家眼里的大语言模型该如何去定义呢?冠叔:从产品经理的视角,现阶段它的模型类型应该属于语言模型,其次“大”的描述主要是指模型的体积和参数量。现阶段可能得超过千亿级别的参数才能被称为大模型,不然我们一般就叫它预训练语言模型了。Kiwi:这里千亿级别的参数需要去分稀疏或者稠密吗?欣然:我认为在 NLP 上,只要是能够有一定的涌现能力,都可以叫大模型,参数量不是很重要。至于稀疏还是稠密,现阶段一般大原创 2024-02-06 15:00:00 · 1083 阅读 · 0 评论 -
大语言模型训练指南
前面三个是单机多卡典型的三种连接方式,第三种是四张卡都在一个 PCIe switch 上,所以带宽较高,能达到 >10GB/s PCIe 的带宽大小,第二种是两个 GPU 通过 switch 相连后再经过 CPU 连接,速度会稍微低一点,第一种是两个 GPU 通过 CPU 然后通过 QPI 和另一个 CPU 上的两块卡相连,因此速度最慢,但也能达到 >5GB/s。篇幅限制就不展示了。当然,由于 BF16 和 FP16 的大小相同,均为 2 个字节,因此,当使用 BF16 时,它的劣势也会暴露:精度非常差。原创 2024-02-06 13:45:00 · 1588 阅读 · 0 评论 -
大模型的突现能力
在上文中,我讨论了只有大型模型才有的三种突现能力。复杂推理,大型模型在没有使用全部训练数据的情况下便显著优于以前的小型模型。知识推理,大型模型可能没有小模型效果好,但大模型不需要额外的知识来源(知识可能很昂贵,或者很难从非结构化数据中抽取)。分布外鲁棒性,这是之前进行模型精调时需要努力解决的问题。大型模型虽然在同分布情况下的效果不如以前的方法,但非同分布情况下的泛化性能却好得多。在本文中,我们仔细研究了语言模型的突现能力。我们强调了复杂推理、知识推理和分布外鲁棒性的重要性和其中存在的机会。原创 2024-02-05 14:45:00 · 940 阅读 · 1 评论 -
为什么所有公开的对 GPT-3 的复现都失败了?我们应该在哪些任务上使用 GPT-3.5 或 ChatGPT
例如,在 SuperGLUE,一个困难的 NLU 基准数据集(包括阅读理解、文本蕴含、词义消歧、共指消解和因果推理等任务)上,所有的 PaLM-540B 的少样本提示性能都劣于微调的 T5-11B,并在其中大多数任务上有着显著的差距。这种使用场景被阐释为 GPT-3 的初始设计目标之一:“微调模型在特定任务的数据集上的性能可以达到所谓的人类水平,实际上可能夸大了在真实世界中该任务上的性能,这是因为模型只是学到了训练集中存在的虚假的相关性,以及模型过度拟合了这个训练集狭窄的分布。原创 2024-02-05 11:45:00 · 1002 阅读 · 1 评论 -
2020版初代GPT-3与大规模预训练
到目前为止,我们已经仔细检查了沿着进化树出现的所有能力,下表总结了演化路径:我们可以得出结论:语言生成能力 + 基础世界知识 + 上下文学习都是来自于预训练(davinci)存储大量知识的能力来自 1750 亿的参数量。遵循指令和泛化到新任务的能力来自于扩大指令学习中指令的数量(Davinci-instruct-beta)执行复杂推理的能力很可能来自于代码训练(code-davinci-002)生成中立、客观的能力、安全和翔实的答案来自与人类的对齐。原创 2024-02-04 14:30:00 · 1108 阅读 · 1 评论 -
ChatGPT_Parameter_is_not_175B
就推理而言,GPT 风格的语言模型在每次前向传递时都是「自回归」的,它预测下一个最可能的 token(对于类似 ChatGPT 的 RLHF 模型,它会预测其人类标注者更偏好的下一个 token)。对于每个前向传递,我们需要将模型的所有权重从高带宽(HBM)内存加载到矩阵计算单元(GPU 的张量计算核)中, 也就是说需要为每个前向传递加载 175GB 的权重。关于节点间的张量并行性,这只是一个可能性,但这是一种不太具成本效益的在 A100 上进行推理的方式。这意味着每个模型实例的最大张量并行度是 8。原创 2024-02-04 10:15:00 · 1699 阅读 · 2 评论 -
ChatGPT和Whisper的API基本看点
安装 OpenAI 的 python 库,参考在创建自己的 API。import os会打印出 OpenAI 的各个 models 的一些信息、权限等等。原创 2024-02-03 11:00:00 · 2881 阅读 · 1 评论 -
ChatGPT的成本探索
我们假设OpenAI使用了GPT-3密集模型架构,这个架构的参数大小为1750亿、隐藏维度为1.6万、序列长度为4000、每个响应的平均token数为2000、每个用户响应15次、有1300万日活跃用户、浮点运算(FLOPS)利用率比FasterTransformer高2倍且延迟小于2000毫秒,int8量化,纯闲置时间占用50%的硬件利用率,并且每个GPU每小时成本为1美元。虽然搜索堆栈的最后三个部分是满足和留住用户的关键,但许多人认为广告引擎是最重要的,因为所有变现都源于广告引擎的质量。原创 2024-02-02 12:00:00 · 1309 阅读 · 0 评论 -
OpenAI发布AGI路线图
谨慎管理 AGI 存在的最佳方式应该是逐渐过渡到 AGI 的世界。OpenAI 的短期计划是使用 AI 来帮助人类评估更复杂模型的输出并监控复杂系统,而从长远来看,OpenAI 将会使用 AI 来帮助其提出新的想法以获得更好的对齐技术。值得注意的是,OpenAI 认为有一点非常重要,就是人类社会需要就如何使用人工智能达成极其广泛的界限,而在这些界限内,个人用户有很大的自由使用权。我们不希望未来成为一个虚假的乌托邦,但我们希望将技术好的一面最大化,坏的一面最小化,让 AGI 成为人类善意的放大器。原创 2024-02-02 09:00:00 · 1182 阅读 · 0 评论 -
OpenAI团队介绍
由于我并非该领域的专家,起初,引起了很多摩擦。深度学习的能力简直令人难以置信,比如,我们现在可以极其准确地对图像中的目标进行分类(2014年的XKCD就已经实现),语音识别非常精准,还可以生成十分逼真的图像。我和Ilya聊得十分投机,尽管我对机器学习研究的了解不多,他对工程和团队建设的认识也没有那么深入,但我们对彼此的成就印象十分深刻,也希望能够相互学习。一般情况我会直接删除这种邮件,但此时我也正准备与初创公司会面,所以我们团队就立即点开了邮件,此时我也发现,他们也正是我一直在寻找的那种人。原创 2024-02-01 20:47:47 · 1255 阅读 · 4 评论 -
Google谷歌的OpenXLA开源项目
OpenXLA 通过模块化工具链消除了机器学习开发人员的障碍,它通过通用编译器接口得到所有领先框架的支持,利用可移植的标准化模型表示,并提供具有强大的目标向和特定硬件优化的特定领域编译器。在去年 10 月的 Google Cloud Next 2022 活动中,OpenXLA 项目正式浮出水面,谷歌与包括阿里巴巴、AMD、Arm、亚马逊、英特尔、英伟达等科技公司推动的开源 AI 框架合作,致力于汇集不同机器学习框架,让机器学习开发人员获得能主动选择框架、硬件的能力。原创 2024-02-01 20:44:29 · 1316 阅读 · 4 评论
分享