- 博客(279)
- 资源 (10)
- 收藏
- 关注
原创 deepseek-r1及相关研究
两篇文章的核心特点是:用很小的数据做SFTLIMO:突破了原有假设,SFT需要很多数据;转向了高质量数据下的SFT,进需要少量的样本;Base具有这个能力,SFT只是激活这个能力;s1: 使用的策略并不关键(budget forcing)
2025-03-03 17:11:20
423
原创 Cursor编程助手-10分钟做项目:从下载到快速上手个人经验分享
Cursor选择数据偏好(就是隐私问题,你是否同意使用你的数据用于优化软件体验,包括你自己的开发,有隐私问题的可以考虑关掉,否则开着就好,后期可以改)以及无限制的初级模型调用(20250217 给的是免费的gpt-4o-mini 无限次调用,很良心
2025-02-17 16:38:57
730
原创 windows安装vmware
同样的aliyun平台中的ubuntu 24.04.1这个版本实测可行。无法ping通 google.com。centos7这个版本实测可行。
2024-12-24 11:26:28
237
原创 阿里云新用户服务器配置
创建实例,点击左侧标签栏总的实例,找到链接帮助根据帮助中的ip信息,然后启用vscode的ssh链接ctrl+p选择配置,输入公网的ip即可passwd修改root密码。
2024-12-23 22:19:53
364
原创 群晖NAS-经验分享
因此我们选择同步任务中的单向上传,而且删除本地文件后,服务器端的文件仍然保留,当我们需要找已经被删除的文件的时候,只需要去nas当中找就好了。由于我们的目标是删除本地任务后,远程端仍然有备份。保证我们可以自由决定本地端留下什么,存储需要多少。创建同步任务,选择需要备份的本地磁盘以及远程存储的位置。macbook中安装并启动:SynologyDrive。
2024-10-30 14:34:16
246
原创 openai_api和doc文档的实验笔记和内容解读
错误原因:openai.ChatCompletion.create(proj:MAD)api调用的问题,以及一些旧版的api的内容,可以在api 应用程序接口 中找到。大多数的内容都可以从官方文档的搜索当中找到。最新的调用代码应该参考官网为。
2024-10-17 00:04:57
809
原创 介绍GPT-o1:一系列解决困难问题( science, coding, and math )的推理模型
这里有一个问题,就是,所招募的专家测试结果是找的各个专业的phd做完整的测试,然后取精确率的平均值作为对比数值,还是请他们分别做自己所属专业的部分试题,然后将结果汇总作为专家结果。我们认为,使用思维链可以在安全性和一致性方面取得重大进展,因为(1)它使我们能够以清晰的方式观察模型思维,(2)关于安全规则的模型推理对分布外的场景更稳健。然而,为了实现这一点,模型必须能够以不变的形式自由表达其思想,因此我们无法将任何政策合规性或用户偏好训练到思想链上。例如,在未来,我们可能希望监控思维链,寻找操纵用户的迹象。
2024-09-23 11:29:26
1274
原创 KAN vs MLP
KAN基于表示定理:任意一个多元函数,可以用多个单元函数复合(例如+法)表示出来。不需要用特别深的神经网络。定理的不好的点:没有描述单元函数本身有多复杂。
2024-08-27 11:20:48
428
原创 PaddleNLP 3.0 支持大语言模型开发
huggingface不支持模型并行。张量并行,不满足大规模预训练的需求。1、组网部分 2、数据流 3、训练器 4、异步高效的模型存储。
2024-08-22 21:23:59
590
原创 ReFT: reasoning with reinforced Fine-Tuning
用influence function来衡量新增一条数据对于模型训练的整体的影响。对比随即筛选和reward model筛选(开源的,用于对齐人类便好)。从一个question中看到多种多样的cot,都可以从中学习。思考增加或者减少一条数据,对于模型训练的影响。高质量的数据能够对主题产生正向的支持/反对。高质量的数据能够对模型产生正向的影响。使用最后一层MLP的梯度,聚类找出。数据的质量是模型自己来定义的。
2024-08-20 20:56:21
446
原创 预训练语言模型实践笔记
在使用像BERT或RoBERTa这样的transformer模型时,和是两个不同的概念。: 这是一个布尔值,决定了模型是否应该返回所有隐藏层的输出。如果设置为True,模型将返回一个元组,其中包含每一层的隐藏状态。这对于某些任务(如特征提取或fine-tuning)可能是有用的,因为不同的隐藏层可能会捕获不同类型的信息。: 这是模型的最后一个隐藏层的输出,通常用作下游任务的输入(如文本分类或命名实体识别)。这是模型的主要输出,通常包含了输入序列的高级表示。在大多数情况下,您只需要。
2024-07-22 14:35:56
1366
原创 计算机顶会论文检索途径和方法
计算语言协会有一个专门的网站,ACL系列的论文都会包括在其中,如果检索自然语言相关的论文,可以直接来ACL当中通过关键词检索就可以了。点击click to fetch all获取本次会议所有论文的标题,然后根据ctrl+f,利用浏览器根据标题检索论文即可。进入网站之后,选择会议以及会议年份,会显示每一年的官方网站,或者直接有论文列表。网址中会有会议年份选择和论文列表选择,进入论文列表之后直接根据关键词检索即可。如果没有论文列表,则考虑进入此页面中的会议官方网址,选中对应会议,进入检索论文即可。
2024-07-17 16:31:48
5316
1
原创 基于Pushdeer(类似于Server酱)的任务完成提醒+wandb可视化模型训练结果
然后在代码运行的主文件夹中,引入当前程序的跟路径(一般是程序所在的主文件夹);然后倒入pushdeer模块,并调用该模块下的push_deer()方法,发送消息推送。.py文件是模块 含有.py文件以及__init__.py文件的文件夹是包。会得到设备的key,目前没有推送限制,一天50条。
2024-07-15 23:07:15
399
原创 LLM驱动的产品开发(AI大模型创意训练营)
机遇机遇1:LLM通用数据分析能力,降低函数/借口的开发门槛机遇2:LLM的强大知识问答能力,打破开发者的专业壁垒机遇3:LLM的格式化内容生成能力,提升数据的供给效率机遇4:LLM的函数编排能力,重塑产品的自动化程度机遇5:LLM对数据飞轮的天然要求,增强产品的价值说服力
2024-07-15 17:04:33
1020
原创 贝叶斯公式、先验概率、后验概率、似然
先验概率:在观察数据之前,我们对某一事件或参数的初始信念。似然:在给定参数的条件下,观察到某一数据的概率。后验概率:在观察数据之后,结合先验概率和似然更新后的信念。贝叶斯公式将先验概率和似然结合起来,提供了一个更新信念的系统方法,从而得到后验概率。通过这种方式,我们可以在有新数据时不断更新和改进我们的模型和预测。
2024-07-01 23:43:04
3106
2
原创 小红书2024LLM论文分享
什么样子的模型是强模型?是一个直观比较的结果:Acc在这个任务上越好,则认为它越强。随着各大机构的模型越来越强,评估任务越来越复杂,如何在未来更加复杂的任务下评估LLM的能力。
2024-06-27 20:35:06
463
1
原创 少样本学习&元学习
首先是机器学习:然后,什么是元学习(what is meta learning?之前,Component都是让人自己设置的。在Meta Learning中,我们期望它能够自己学出来。不同的meta learning方法就是想办法去学learning algorithm中不同的component。在一般的ML里,L是用训练资料进行计算的。而在meta-learning里面,l是用测试资料进行计算的。
2024-06-13 16:43:50
1044
原创 强化学习-tutorial
当你发现收集有标注的数据困难,正确答案人类也不知道是什么的时候,往往是考虑使用RL的时候。尽管机器不知道答案是什么,但是机器会知道什么好,什么不好,通过与环境互动获得奖励。
2024-06-13 13:51:49
276
原创 Macbook Air M1配置双屏或三屏显示-基于Displaylink软件
Dell D3100扩展坞及其配件(海鲜市场扩展坞D3100、Dell 65W电源、B-C数据线 = 130元左右)
2024-06-12 13:43:45
2298
原创 Workshop on Argument Mining (ArgMining) 历届会议信息
论点挖掘,作为一个自然语言处理当中的重要任务,伴随着各大NLP顶会已经组织了11届workshop(2024年第11届跟随着ACL2024主会开办)
2024-06-11 15:18:26
988
原创 人工智能模型的结构化代码分析与复现方法(pytorch深度学习类、LLM类)
(模型架构)定、数、模、训、测、上;(数据挖掘)分、理、洗、构、选、提;
2024-06-06 20:52:44
340
原创 NLP课程笔记-基于transformers的自然语言处理入门
于是学习的问题就拆解为:1. 什么是seq2seq模型?2. 基于RNN的seq2seq模型如何处理文本/长文本序列?3. seq2seq模型处理长文本序列时遇到了什么问题?seq2seq模型的输入可以是一个(单词、字母或者图像特征)序列,输出是另外一个(单词、字母或者图像特征)序列。seq2seq是一种常见的NLP模型结构,全称是:sequence to sequence,翻译为“序列到序列”。顾名思义:从一个文本序列得到一个新的文本序列。潜在的答案:基于循环神经网络(RNN)一类的seq2seq模型,
2024-05-31 17:25:09
698
原创 生成式AI导论2024-李宏毅
当你用类神经网络(模型)来表达这上万个参数的时候,你做的事情就是深度学习。生成式人工智慧是什么?生成式AI的入门课程。
2024-05-26 21:02:00
843
1
原创 ACL文献分享:DiaASQ : A Benchmark of Conversational Aspect-based Sentiment Quadruple Analysis
Aspect-based sentiment analysis (ABSA) 是一种细粒度的情感分析方法,旨在确定文本中不同方面的情感。具体来说,它不仅识别出文本的整体情感(如正面或负面),还识别出针对特定方面或属性的情感。例如,在一篇关于手机的评论中,ABSA 可以识别出用户对电池续航、屏幕质量、价格等不同方面的情感态度。ABSA 的应用非常广泛,可以用于产品评论分析、客户反馈分析、社交媒体监控等领域,帮助企业更好地理解客户对不同产品或服务方面的满意度和不满之处,从而做出更有针对性的改进。
2024-05-23 19:49:36
394
sharemouse-window v6.0.62(实际安装后显示v6.0.60,与官方一致)
2024-12-24
BibTeX Export using EN Label Field
2022-05-21
Endnote参考文献输出格式完整版 发布时间2021年7月15日 由于网络原因,下载慢,因此上传一下 只需5个积分
2022-05-21
Fences+v3.0.8桌面管理工具安装包+教程.zip
2020-01-31
javax.servlet api.chnm中文版
2016-12-30
SDUST_java实验题目汇总
2016-12-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人