- 博客(33)
- 资源 (3)
- 收藏
- 关注

原创 北大对齐团队深度硬核解读:OpenAI o1开启「后训练」时代强化学习新范式
本文深入探讨了OpenAI o1的技术细节、的实现、合成数据与推理搜索的优化,以及AI安全的新启示,展示了大语言模型在推理能力提升和安全对齐方面的最新进展与未来方向。
2024-10-06 21:45:11
3196
1
原创 [2/12] 强化微调+几十条数据=博士专家?国内大厂又要修改明年技术规划了......OpenAI 12 Days发布会第二天
例如,我们最近与汤森路透合作,使用强化微调来微调O1 Mini,使其成为他们的共同顾问AI中的法律助手,协助法律专业人士进行分析工作流程。这允许你将你的黄金数据集转化为独特的服务,为你的用户和客户提供同样的魔力。,我们可以看到,我们的起点O1 Mini在我们的约200个数据集中获得了17%的正确率。我没有直接的比较,因为在这种类型的实验中,通常会提供基因组测序数据,而我们在这里没有包含这些数据。然后,你可以利用 OpenAI 强化学习算法和我们分布式模型训练堆栈的全部力量,为你的特定用例定制一个模型。
2024-12-09 23:04:58
936
原创 [1/12] 全程实录!o1 pro无限用!OpenAI 12 Days发布会第一天
我们相信ChatGPT Pro的受众将是ChatGPT的资深用户,那些已经在数学、编程和写作等任务中将模型推向其能力极限的人。我们将尝试一些据我们所知,迄今为止没有科技公司做过的事情:在接下来的12个工作日里,我们每天都会发布或演示一些我们新开发的东西。我们会尽量让这些演示既有趣又快速,不会占用太多时间,但这也是向大家展示我们一直在努力的方向,以及我们为大家准备的一点节日礼物。我是个历史迷,我会给你展示一个非常快速的演示,比如我可能会问这些模型的一个问题。所以在这里,左边是O1,右边是O1预览版。
2024-12-09 22:58:43
571
原创 下一代游戏范式强势来袭!Oasis,世界首个能实时运行并能与用户互动的视频模型
https://www.youtube.com/watch?v=GuenqZiA1NAOasis 在 AI 领域的独特之处是什么?Decart 计划如何与竞争对手区分开来?实现实时视频处理的技术挑战是什么?Decart 如何看待用户体验的未来?垂直整合对 Decart 的意义是什么?Decart 的技术在游戏之外有哪些潜在应用?Decart 计划如何解决 AI 训练中的可靠性问题?Dean Leitersdorf: 所以,我们几周前推出了Oasis,从技术角度来看,令人难以置信的是它是第一个能够实时运行并允
2024-11-17 00:18:49
870
原创 公开课 | 2024清华大模型公开课 第8课 大模型实战指导
本文详细介绍了2024年构建大型语言模型的现状,包括数据准备、模型训练、架构设计、并行化技术以及模型部署和推理的最新进展。
2024-10-20 19:51:56
1072
原创 公开课 | 2024清华大模型公开课 第7课 Hugging Face 生态
本文深入介绍了Hugging Face生态系统及其在推动开源机器学习中的作用,强调了协作和开源工具在加速机器学习研究和应用中的重要性。本文深入介绍了Hugging Face生态系统及其在推动开源机器学习中的作用,强调了协作和开源工具在加速机器学习研究和应用中的重要性。
2024-10-20 19:47:00
1126
原创 公开课 | 2024清华大模型公开课 第6课 大模型前沿架构 Part 2(长文本、Scaling Law)
本文深入探讨了大型语言模型在处理长文本和Scaling Law方面的挑战与解决方案,强调了模型复杂度、计算资源和数据处理的重要性。
2024-10-18 21:09:56
1016
原创 公开课 | 2024清华大模型公开课 第5课 大模型前沿架构 Part 1(RAG、MoE)
本文深入探讨了检索增强式语言模型和Mixture-of-Experts(MOE)模型在大模型前沿框架中的应用和挑战,强调了通过外部知识和模块化建模提高模型性能的重要性。
2024-10-18 21:04:11
1272
原创 公开课 | 2024最新清华大模型公开课 第4课 大模型学习方法
本文深入探讨了大模型的训练方法,包括预训练、后训练、具体模型的介绍、语言建模的本质、对齐和后训练、参数高效的微调、指令微调和偏好学习,以及未来的研究方向。观点与结论大模型通过预训练和后训练两个阶段,能够在多领域发挥作用。语言建模的核心在于使用前面的标记(token)来预测下一个标记,这种能力可以扩展到多任务学习。对齐和后训练是确保模型输出符合人类期望的关键步骤。参数高效的微调方法,如Adapter、Prefix Tuning和LoRA,可以大幅降低微调所需的资源。
2024-10-13 23:01:44
1021
原创 公开课 | 2024最新清华大模型公开课 第3课 神经网络与大模型基础 Part 2
本文深入探讨了神经网络、大模型及其在语言任务中的应用,分析了大模型的发展历程、认知能力和多领域应用。
2024-10-13 22:58:41
609
原创 清华大模型公开课第二季 | Lecture 2 神经网络与大模型基础 Part 1
本文深入探讨了神经网络和大型语言模型的基础知识,包括神经网络的结构、激活函数的选择、以及RNN、CNN和Transformer在语言模型中的应用。
2024-10-09 01:17:40
749
原创 重磅 | 清华大学刘知远老师领衔的大模型公开课2024年第二季来了!助教阵容强大,零基础大模型从入门到精通,看这个就够了!
本课程旨在为清华大学致理书院的学生提供关于大模型的最新动态,帮助学生了解人工智能的最新进展,并通过实践项目深入探索大模型的应用与挑战。
2024-10-07 22:23:27
1969
原创 OpenAI董事会主席Bret Taylor的Agent公司Sierra:专注于赋能下一代企业用户体验
Bret Taylor 讨论了 AI Agent的演变和未来,强调了它们彻底改变客户体验和重新定义人机交互的潜力。
2024-10-06 21:38:44
1721
原创 【视频篇】创作的基石,如何找素材?
前言工作学习中免不了要搜集素材,然后进行二次创作,这些素材从哪来呢?别告诉我你还在直接百度之后慢慢翻!针对如何找素材,我在打算做一个专题分享一下我的“路子”,常见的素材类型比如图片、视频、字体、海报模板、PPT模板等等。想到什么写什么吧,这个专题会持续更下去,今天分享找图片素材的一些途径。途径Pexels:https://www.pexels.com/zh-cn/一个免费的图片素材网站,质量和数量都是上乘,我找图片的首选,我公众号文章的封面大部分来自于Pexels。THE STOCKS:
2020-10-05 23:00:10
480
原创 五个有趣又涨姿势的网站,第二个太棒了,强烈推荐!
1. 动漫圣地巡礼网址https://anime-tourism.jp/推荐理由喜欢动漫的朋友不要错过,这个网站收录了很多爱好者圣地巡礼的图片和视频。圣地巡礼(日语:聖地巡礼せいちじゅんれい)原本是宗教用语,指前往宗教中的圣地进行礼拜,在ACG圈中所说的“圣地巡礼”,是指爱好者前往喜欢的作品取景的实际地区(「アニメの聖地」),去寻找作品中的感受与思绪的一种行为。2. 全历史网址https://www.allhistory.com/推荐理由对于想了解国内外历史的朋友,一定要去这个网站转转
2020-08-08 23:06:30
100691
原创 推荐5个在线工具,最后一个简直太有用了!
目录1. AI人工智能图片放大介绍网址2. 图片背景消除介绍网址3. 像素风头像生成介绍网址4. 手机电脑等设备的展示模型介绍网址5. 在线PS介绍网址1. AI人工智能图片放大介绍这款在线工具使用最新人工智能深度学习技术——深度卷积神经网络。它会将噪点和锯齿的部分进行补充,实现图片的无损放大。使用其他的放大方法如PS或PhotoZoom,放大的图片后依然有明显的模糊感,边缘的重影以及噪点。而这个工具是针对放大图片的线条、颜色、网点等特点,做特殊的算法调整,所以放大效果非常出色, 色彩保留较好, 图片
2020-07-09 23:05:57
637
原创 用Python做一个“以图搜番“的应用程序,再也不用愁动漫图片的出处了!
文章目录前言PyQt5界面设计使用Qt Designer绘制界面视频部件插入小技巧解码器下载功能实现trace.moe API介绍与视频使用Nuitka打包成exe文件前言喜欢看动漫的朋友们大概都能体会到一个难受的事情,就是在论坛或者群聊里面看到一张动漫截图,很想知道它的出处,但百度搜了一圈却也没有一个可靠结果,就很郁闷。今天就来带大家用Python做一个简单的“以图搜番”小应用。应用本身的实现不是很难的事情,其实就是调用别人的API接口来实现,主要目的还是通过这个案例来学习以下内容:学习如何用Py
2020-07-05 18:01:37
4805
原创 强化学习——蒙特卡洛方法
学习目标理解Prediction和Control的差别;理解什么是first-visit和every-visit;理解什么是on-policy和off-policy;理解蒙特卡洛方法的Prediction和Control问题;Prediction和Control其实这两个名词在总结动态规划方法的文章中也提到过了,但是没有细说,这里再简单的说明一下。预测(Prediction)和控制(Control)是MDP中的两类问题:预测问题输入:MDP ⟨S,A,P,R,γ⟩\langle\mat
2020-06-22 21:26:24
2073
原创 强化学习——MDPs求解之动态规划
学习目标理解策略评估(Policy Evaluation)和策略提升(Policy Improvement);理解策略迭代(Policy Iteration)算法;理解值迭代(Value Iteration)算法;理解策略迭代和值迭代的不同之处;动态规划方法的局限性;Python实现格子世界(Gridworld)策略迭代和值迭代。动态规划(Dynamic Programming, DP)是一种解决复杂问题的方法,它通过定义问题状态和状态之间的关系,将复杂问题拆分成若干较为简单的子问题,使得
2020-06-01 16:38:03
1430
2
原创 强化学习——马尔科夫决策过程和贝尔曼方程
学习目标Agent和Environment之间的交互过程;理解马尔科夫决策过程(Markov Decision Processes,MDPs)和如何解读转换图;理解值函数(Value Functions)、动作值函数(Action-Value Functions)和决策函数(Policy Functions)理解贝尔曼方程(Bellman Equations)和值函数或者动作值函数的贝尔曼最优方程。Agent与Environment的交互对于从交互过程中学习,最终达到目标的这
2020-06-01 16:35:44
1165
原创 强化学习——环境库OpenAI Gym
前言前段时间各大新闻媒体都在报道SpaceX的马斯克,因为其公司成功发射“猎鹰9号”火箭。马斯克是一个极具传奇色彩的人物,其成就也足以让他名垂青史。但今天我们要讨论的不是马斯克这个人,而是马斯克牵头建立的人工智能非营利组织OpenAI下一个强化学习工具库Gym,它可以被用来开发和比较强化学习算法。简单的说,gym就是提供了强化学习中与agent交互的environments,gym中的环境都留出了供我们设计算法的相应接口,这为我们节省了不少事。下面就来看看这个gym库里有哪些东西吧~安装要求Pyth
2020-05-31 10:46:11
1203
原创 强化学习——简介
前言我最先了解到强化学习还是看见论文中有使用强化学习算法去玩游戏,并且玩得比人类还好,之后AlphaGo系列的围棋机器人战胜世界高手也让我更进一步知道了强化学习的威力。本系列强化学习笔记将以DeepMind AlphaGo的主要研究人员David Silver《深度强化学习》视频公开课以及强化学习圣经——《Reinforcement Learning:An Introduction》(Second edition)的内容为主,并穿插介绍一些我学习过程中的实践案例。强化学习的范畴机器学习,深度学习大家都
2020-05-31 10:22:56
838
原创 这7个GitHub高级搜索技巧,你知道吗?
前言GitHub作为全球最大的同性交友(代码托管)平台,里面藏着巨大的资源宝库,一套Ctrl+C和Ctrl+V组合拳打出来,就没有你实现不了的需求。好了,废话不多说,下面介绍7个GitHub搜索高级技巧,让资源搜索不再困难!关键字:in:name, in:description, in:readmeGitHub是支持在特定范围内进行高级搜索的,比如使用in:name在仓库的标题中搜索,使用in:description在仓库的描述中搜索和使用in:readme在README文件中搜索等。指定Sta
2020-05-29 17:07:37
2562
原创 推荐几个网盘搜索工具,大大提高你的找资源效率
前言网盘已经成了我们存储文件、分享文件必不可少的工具,常用的比如百度云盘,网上绝大部分的资源都是在通过百度云传播,但是它并没有提供一个搜索接口供我们找资源,下面推荐几个我常用的网盘搜索网站,相信可以大大提升你的资源寻找效率!如风搜:http://www.rufengso.net/资源比较丰富,支持各种筛选和排序,可以快速定位。小昭来了:https://www.xiaozhaolaila.com/资源比较丰富,支持各种筛选和排序,可以快速定位。天天网盘搜索:http://www.d
2020-05-26 11:19:49
22314
1
原创 一文弄懂算法的时间和空间复杂度分析
前言一般来说,解决问题的方法不止一种。我们需要学习如何比较不同算法的性能,并选择最佳算法来解决特定的问题。一个算法的好坏,我们可以从时间和空间两个维度去衡量。并且,一般分为两个阶段,一是算法完成前的理论分析,二是算法完成后实际分析。理论分析:这种算法的效率分析是通过假设所有其他因素,如处理器的速度等是恒定的,对算法的实现没有影响。实际分析:当算法实现后,我们需要考虑算法采用编程语言,然后在特定计算机上执行该算法,其消耗的时间与计算机的硬件水平相关。在此分析中,我们要收集实际的统计数据,如运行时间和所
2020-05-25 11:03:47
2752
原创 两款清爽全能的下载神器,还不跟迅雷说拜拜?
前言下载工具一直以来都是刚需,无奈近些年迅雷变得不好用后,广告、限速、限资源等等,能完美替代迅雷的免费给力的下载工具确实不好找。HTTP 类型的链接还好说,而种子和磁力链接这些依赖于大家做种分享的资源,没有迅雷服务器的加成,有的资源下载速度很捉急。下面推荐两款非常好用的下载工具:Qdown和Xdown,非常良心的软件,可以完美替代迅雷,甚至超越迅雷!QdownQdown是一个基于aria2的Windows文件下载程序。在当前阶段,它几乎支持所有的下载协议。它占用更少的内存,消耗更少的计算机性能。在此基
2020-05-22 22:41:40
18405
原创 微信传文件又慢又限制大小?试试这3个免费在线传文件工具!
编者荐语平时生活中,常需要在不同设备间临时传输文件或文本,比如你打印时需要把文件从一台电脑传到另外一台电脑、临时需要把Mac上的一个APK文件发送到Android设备、把一些软件配置参数从Windows传到iPad…但又不想安装各种同步软件进行各种设置各种登录,你可以在几秒中内可以在Windows、Mac、Linux、iOS、Android等各种有浏览器的设备间完成原先耗时且繁琐的分享操作。大家都知道,平时用微信传文件,文件大小被限制在100M以内,并且有时候速度也并不理想,稍微大一点的文件就不得不用云盘
2020-05-20 22:40:06
8487
转载 NLP中数据增强技术的可视化综述
本文翻译自:A Visual Survey of Data Augmentation in NLP,原作者Amit Chaudhary,已获得转载翻译授权。在计算机视觉中,使用图像数据增强是比较常规的做法,而在NLP中对文本数据进行增强则非常罕见。 这是因为对图像做一些微不足道的操作(例如将图像旋转几度或将其转换为灰度图像)并不会改变其原来的内容。 这种特性使数据增强成为CV研究中必不可少的步骤。我很好奇是否有尝试在NLP的研究中使用数据增强的方法,并且查阅了现有文献。 在这篇文章中,我将分享我发现的
2020-05-18 17:02:09
760
原创 使用VS Code打造Python编程与Markdown写作利器,打破知乎、WordPress和微信公众号的壁垒
目录1 前言2 安装与环境搭建2.1 VS Code安装2.2 VS Code常用快捷键2.3 打造Python编辑器2.4 打造Markdown编辑器3 一些技巧3.1 更舒适的Python编程环境3.2 Markdown到知乎文章发布3.3 Markdown到WordPress文章发布3.4 Markdown到微信公众文章发布1 前言平时工作学习中常会在Windows系统上使用Python编程和使用Markdown写作,并会将写作内容同步到自己WordPress搭建的博客、知乎和公众号上。在考察了多
2020-05-13 18:52:49
1220
1
原创 最新Python实现12306余票查询系统
首先感谢这篇博客的引导,但是这篇文章已经比较旧了,12306进行了改版,源码编排方式有了变化。12306源码获取的方法可以从这篇博客中学习,我在这里主要贴出对于目前最新的12306的Python余票查询程序,可供用于学习Python的基本用法,正则表达的使用,简单爬虫的使用。下面是效果图,因为我用的是windows,对命令框里的代码着色比较麻烦,有兴趣的朋友可以自己尝试去给输出的文字添加颜色。 #
2017-07-08 20:36:14
2516
健康管理的“四维空间”.rar
2020-09-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人