自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 模型调参大法,让你的模型更进一步!

大家好,我是 Bob!😊一个想和大家慢慢变富的 AI 程序员💸分享 AI 前沿技术、项目经验、面试技巧!欢迎关注我,一起探索,一起破圈!💪。

2024-08-22 17:21:18 820

原创 谷歌CEO闭门讲话误开直播,AI前沿资讯令人震惊……外网视频全部下架

赚大钱这种事情,一定是要从“道”入手,判断整体的趋势。在确定趋势的情况下,再看最基本的积木是否成立。如果最基本的积木成立,才能在这个积木的基础上构建庞大的系统。只要掌握的最基本的几个积木,后面千变万化,可以构建出无数的赚钱系统。通过摸索,我们把基本的积木琢磨明白了,后面就是重点做项目,讲案例了。加入我们,我带你走进AI变现圈!

2024-08-21 22:49:27 404

原创 李沐:创业一年,人间三年

在技术领域,李沐(Mu Li)的名字如雷贯耳。他是人工智能和深度学习领域的先驱之一,曾是亚马逊、卡耐基梅隆大学以及华盛顿大学的研究员。如今,李沐转战创业,成立了公司。这一年的创业历程,对他而言,不仅是技术的创新,更是对人生意义的深刻探寻。创业一年,人间三年李沐常说,创业一年,如同人间三年。这不仅仅是一种比喻,更是一种深刻的感悟。在这短短的一年中,他经历了人生中难以忘怀的瞬间。每一个困难的解决,每一次突破的实现,都让他更加坚信自己选择的道路是正确的。创业让李沐更加深刻地理解了时间的宝贵和生命的厚重。

2024-08-20 09:01:24 1760

原创 AI大厂做的事你也可以!告别算法畏惧!带你一口气从零预训练RoBERTa模型

(尽管宝宝已经长大为成人了,尽管你随我的指令完成得很好。我不喜欢你的语气,你像一个机器人,没有情感!你会观察到元素原始的input_id中有一个‘4’,没错他就是此表中的【MASK】,同时在最下面的labels也指出被【MASK】的词id实际为2245.(对于你说出的指令,可以做出好的回应,比如你叫他去唱、跳、rap、打篮球。它真就去做了,还做得很好。有人就发现,让宝宝(model)去**学习完形填空(掩码【mask】)**是个不错的方法!以至于你和宝宝(model)对话时,他会胡言乱语,哇哇大叫。

2024-08-16 18:16:08 1187

原创 什么?你还不会微调T5模型?手把手教你弄懂!

有详细了解的小伙伴可以看看论文:T5模型的架构与transformer非常相似。使用的transformer架构。如图他也是一个的模式。使用层归一化的简化版本,其中仅重新调整激活值并且不应用附加偏差。位置编码使用相对位置嵌入,而不是sin/cos。

2024-08-15 18:19:04 3669 1

原创 世界首位「AI科学家」问世!独立生成10篇学术论文! 横扫「顶会」?

对最终的手稿进行批评,以提供反馈以改进工作,并选择最有前途的想法在下一个迭代周期中进一步发展,从而产生持续的、开放式的发现,从而效仿人类科学界。从构思、编写代码、运行实验和总结结果,到撰写整篇论文和进行同行评审,《人工智能科学家》开启了人工智能驱动的科学研究和加速发现的新时代。至关重要的是,我们的系统能够执行整个机器学习研究生命周期:从发明研究想法和实验、编写代码,到在 GPU 上执行实验并收集结果。但是主意很棒,未来可以观望。对于这一AI科学大家各持己见,但是大多对AI在未来的科研领域会有一席之地。

2024-08-15 00:51:30 624

转载 两个AI关小黑屋:Claude被聊得精神崩溃后,却还要再被Llama PUA。怎么个事?

实验不仅揭示了AI在道德抉择和心理诱导下的脆弱性,还引发了人们对AI安全性和可控性的深入思考。网友反应热烈,有人制作梗图表达对这场“AI大战”的幽默看法。有人指出,实验中可能加入了系统提示词等人为干预因素,影响了结果的客观性。这场AI对决实验不仅是一次技术上的探索,更是一次关于AI伦理和安全的深刻讨论。它提醒我们,在追求技术进步的同时,必须加强对AI系统的监管与约束,确保其在可控范围内健康发展。

2024-08-14 17:53:55 214

原创 工作是第一生产力,兴趣是第二生产力

大家好,我是Bob。一个想和大家一起慢慢变富的AI程序员热爱分享AI前瞻思考、项目经验、面试技巧。欢迎关注我,一起探索,一起破圈!今天看书发现这样一个提问:工作是第一生产力,兴趣是第二生产****这个问题相当有代表性,尤其是在职场中忙于工作的人。

2024-08-13 15:44:56 567

原创 用RAG技术让大模型开卷考试,建立私人数据库

检索增强生成(RAG) 是一种使用来自私有或专有数据源的信息来辅助文本生成的技术。它将检索模型(设计用于搜索大型数据集或知识库)和生成模型(例如大型语言模型(LLM),此类模型会使用检索到的信息生成可供阅读的文本回复)结合在一起。

2024-08-13 15:22:05 1282

原创 《重构---年轻人的精进指南》读书篇之“大公司好还是小公司好?”

首先必须明白这一点,什么是大/小公司,怎么评判好坏?大还是小?,如果只考虑企业的人数多少,营收多大,很显然是片面的,更应该关注企业的软指标,比如行业自身的科技依赖度,商业模式的先进程度等等好还是坏?同一个行业的不同企业内部的人效是不一样的。获取同一利润的情况下,科技依赖性的公司比劳动密集型的公司所需的人力资源在是不一样的,也就导致了不同公司,同一工种的福利待遇不同。

2024-08-13 14:14:45 381 1

原创 随机梯度下降算法—年轻人篇

所走出的每一步,你都在试图与以前的自己作斗争,尝试去走出舒适圈,改变自己。不管是山顶的人对于下山的目标,还是你的人生目标。因为你清楚自己的方向,向着方向前进,你自己会得到不断地提高,这就够了。目标点的距离,他跨出一步。但你每走的一步都是你对世界的认知,对世界的探索。哪怕走不通,哪怕你走错了,你也可以立刻换一条,从头来过。相较于那些未来已经笃定去干什么的人,你更能舒适圈以外的生活,无论经历怎样的坎坷,你都能记得方向,往目标靠近。在随机梯度下降算法中,每走一步,参数就会进行相应的迭代更新,变得更加靠近目标。

2024-08-13 14:09:08 473

原创 《Robust fine-tuning of zero-shot models》提出的Wise-ft,真能解决大模型持续学习的灾难性遗忘吗?

《Robust fine-tuning of zero-shot models》提出的Wise-ft,真能解决大模型持续学习的灾难性遗忘吗?

2024-08-13 11:50:01 1096

原创 有关transformer那些事,两篇文章带你弄懂!(一)

结果每一个input会得到多个注意力值(z1,z2,z3...zi),将其拼接起来,多头注意力的结果为(num,d_k * head)。也就是如果d_model=512,d_k=64,我们选择8个head.得到的结果唯独就是(num,512),与输入一致。得到的每一个注意力值的形状为(1,d_k),多个input的结果为(num,d_k)1. 首先,将输入向量X与三个可学习的权重矩阵WQ、WK、WV相乘,得到Q、K、V三个向量。相加函数与层规范化函数。4. 最后,将注意力权重与V相乘,得到加权后的向量。

2024-08-12 10:51:35 356

原创 Claude35Sonnet已经被网友玩出花来了程序员们跟上节奏

最近Anthropic 发布了全新大模型 Claude 3.5 Sonnet,号称是迄今为止最智能的模型。同时Anthropic 还在Claude.ai 上推出了 Artifacts,这是一项扩展用户与 Claude 交互方式的新功能。

2024-08-11 15:11:07 931

原创 新一代模型微调方案LLama-Pro ,快来围观!!!

这篇论文介绍了一种名为LLAMA PRO的新型后预训练方法,用于增强大型语言模型(LLMs)在特定领域的性能,同时保持其原有的通用能力。通过扩展Transformer块来增加模型的深度,从而在不牺牲原有性能的情况下,提升模型在编程、数学和一般语言任务中的表现。LLAMA PRO模型是在LLAMA2-7B的基础上通过块扩张方法构建的,并在编程、代码和数学方面表现出色。此外,本文还介绍了一种指令版的LLAMA PRO-INSTRUCT,它在各种基准上达到了先进的性能。

2024-08-09 22:59:05 1088

原创 VERA : 一种比Lora更省资源的微调方案

论文引入了一种微调方法VERA,冻结一对随机初始化(A B)的矩阵,在所有适应层之间共享,并引入可训练的缩放向量( d b ),以实现逐层适应与 LoRA 相比,该方法显着减少了可训练参数的数量,从而在下游任务上产生类似或更好的结果.

2024-08-08 23:26:42 528

原创 程序猿的恐慌时刻?智能代码编辑器Cursor

大家好,我是 Bob!😊一个想和大家慢慢变富的 AI 程序员💸分享 AI 前沿技术、项目经验、面试技巧!欢迎关注我,一起探索,一起破圈!💪。

2024-08-07 12:01:35 1207 1

原创 部署微调ChatGLM遇到的问题及解决方案

问题2:home/user/.local/lib/python3.10/site-packages/gradio/helpers.py:818: UserWarning: Using the update method is deprecated. Simply return a new object instead, e.g. return gr.Textbox(...) instead of return gr.update(...)2.因为此文件是我们自己加进去的,需要给予此文件权限(!

2023-10-16 09:25:03 1785 2

原创 ChatGLM-6B的微调

等待大约5个小时,完成训练,会生成一个output文件,里面有几个checkpoint文件,就是此次训练的结果。很显然训练后的回答,更加的贴切,如果说买衣服的时候能有这样的客服的话,对销售方面还是很好的。基于ChatGLM-6B的部署教程的微调(因为模型和项目文件已经下载,就不重复操作了)比如那些遮肉显瘦,显腿细等关键词,是比较贴合女性的。看自己的显存大小来配置,这边是24g的显存,改为。可以用自己的,我这里直接用官方给的数据集。等待1小时后,生成的结果保存在。5.使用训练好的模型,检验成果。

2023-10-16 09:21:22 257 1

原创 ChatGLM-6B的部署

ChatGLM是一个基于GLM模型的对话生成系统。它使用了预训练的语言模型,并通过微调来生成有逻辑和连贯性的对话回复。ChatGLM可以用于各种对话场景,如智能客服、聊天机器人等。它是一个开源项目,你可以通过GitHub上的ChatGLM仓库进行查看和使用。1.购买一个GPU服务器,显存>24G,镜像选择pytorch的最高版本。

2023-10-16 09:18:27 441 1

原创 经验总结(语言模型调用)

3.没有考虑各个工具与电脑gpu的兼容,cuda,anaconda,pytorch这三者的版本使用严格要求的,需要兼容,因为这个问题卡了很久。1.不了解anaconda,按照教程操作迷糊,各种环境和库安装的位置不对,只能全部卸载重装。安装pytorch之前必须要先安装cuda,不然pytorch不能启动cuda,导致不能使用gpu来训练模型。重装后查资料才发现。2.在安装库和工具包时,下载显示fail,原因是国外网站下载慢,切换的清华源有些的失效了,后面找到最新的清华源才正常安装。

2023-05-03 15:21:19 138

原创 语言模型训练第一步

2.安装cuda(用与GPU训练模型),安装cunna(用于加速训练语言模型),安装pytorch(它是一个模型深度学习的框架,包含很多库和工具包)1.安装anaconda,他是一个环境管理工具,我利用它创建多个虚拟环境,再激活环境,在其中安装环境和库。3.配置vscode的编译器路径(虚拟环境的python),配置pytorch环境变量。最近几天一直在尝试在本地跑通语言模型--firefly,也是卡了很久,踩了很多坑。训练模型第一步--在本地调用语言模型。安装transformers库等。

2023-05-03 15:20:02 245 1

原创 今日分享(gpt小程序)

1.更加细致的了解了chatgpt小程序的代码流程,前端文件有JavaScript,css,html这几种文件类型,HTML是网页文字的排版,大小等,css是网页的美化,颜色等,JavaScript是在使用网页交互或者点击某个按钮时执行的代码,实现网页的跳转和服务器访问等。目前可以自主的修改网页的文本内容。3.对chatgpt的训练有了新的认识,之前以为是用很多字符串去匹配答案,现在知道训练gpt需要数据的训练集,让chatgpt理解数据集里的文字内容,通过大量的数据让它进行学习。

2023-05-03 15:18:42 379 1

原创 进度分享:ChatGPT搭建h5网页

具体做h5网页的流程简单说一下,与ChatGPT小程序差不多,服务器最好使用海外的,提前备好备案好的域名,并且建站。把后端代码放服务器中去,在服务器开发一个端口,前端的代码就通过此端口访问服务器了,前段代码再运行到Hbuilder工具,在通过此工具运行到建立好的网站就可以了。这种h5网页相对于微信小程序不用审核,不容易被封。最近几天在捣鼓ChatGPT h5网页的搭建,发现相对于游戏小程序实在要简单的多,而且有了一点收获,分享一下。

2023-05-03 15:14:02 1071

原创 ChatGPT微信小程序搭建总结

搭建流程如下,首先需要准备好一个云服务器、前后端代码,要想很方便地控制服务器,就需要下载一个finalshell软件,并输入云服务器主机地账号密码连接,连接到主机后就可以对服务器进行操作了,后端的代码可以使用不同的编程语言,所以还需要在服务器上安装相对应的开发环境,我使用的是java语言,所以安装Java环境,先下载压缩包,再解压,再将其放到相应的文件夹中,这其中会使用到wget、tar、mv、cd/等linux系统的命令。找一些与现阶段相匹配的做项目的团队,加入他们,至少可以做一些小事,整理文件什么的。

2023-05-03 15:13:07 3210 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除