
程序猿的基本素养
文章平均质量分 60
竹杖芒鞋序行
专攻AI相关内容,目前聚焦于大模型相关技术。
黑暗学渣硕一枚。
欢迎关注博主一起学习AI领域的相关知识,不定期会进行论文解读和算法题整理以及算法的核心面经总结。
也曾有一天,你屹立世界之巅,为大千宇宙中最闪亮的星,世界再无阴霾,阳光明媚。
展开
-
有sudo权限下/无sudo权限下:切换gcc、g++版本
之后需要在临时设置环境变量,或者加入到.bashrc中再source一下。原创 2025-06-02 20:38:26 · 176 阅读 · 0 评论 -
多个服务器共享存储服务器时激活命令和改变启动脚本
【代码】多个服务器共享存储服务器时激活命令和改变启动脚本。原创 2025-05-23 21:18:35 · 95 阅读 · 0 评论 -
论文解读之Deepseek V3
1.从专业模型的推理模型(R1)蒸馏数据比从短CoT中训练的V2.5效果更好2.自反馈可以提升表现3.多token预测可加快解码速度。原创 2025-03-04 10:03:53 · 725 阅读 · 0 评论 -
强化学习笔记之引论
以上对奖励的梯度上升很直觉,即根据奖励的正负,决定对当前状态采取当前行动的一个方向,奖励为正,向该行动概率增加的方向优化参数;模型参数为前提的条件概率为,初始状态的概率*根据状态和参数采取行动1的概率*根据行动、状态1转换成状态2,奖励值1的概率...强化学习过程中奖励是一个偏好模型或者基于规则的奖励,跟模型参数无关;设置基线的策略:critic,评论家,以计算优势函数,评判actor的动作好的程度,也就是PPO算法中的价值模型。同时,乘的又是整个轨迹发生的reward,即最终的奖励。原创 2025-02-19 00:24:42 · 286 阅读 · 0 评论 -
论文解读之DeepSeek R1
deepseek主打复杂推理任务,如数学、代码任务。R1以预训练过的V1-base初始化,主要发挥了RL在长思维链上的优势,R1-Zero直接RL而在前置步骤中不进行SFT,即缺少了有监督的指令微调阶段,探索了思维链解决复杂问题的能力,使得R1-Zero表现出自我验证、反思、产生长思维链的能力;同时用较大的模型的复杂推理能力来蒸馏,以提升llama和qwen的推理能力。R1在数学、代码等benchmark上表现出色,一些数据集上超过O1。原创 2025-02-17 00:04:31 · 722 阅读 · 0 评论 -
论文解读之GPT1:Improving Language Understanding by Generative Pre-Training
GPT系列的特点是自监督大规模训练后在具体任务上进行有监督微调,事实证明这种方式可以有效利用大规模的无标签语料以提升模型对于自然语言的理解力,即使其调整参数以记忆足够多知识的模型。原创 2025-02-15 12:54:56 · 562 阅读 · 0 评论 -
论文解读之T5——Exploring the Limits of Transfer Learning with a UnifiedText-to-Text Transformer
T5是基于Encoder-Decoder结构的Transformer的模型,对经典的Transformer做了三个带动。其核心将NLP任务看作一个序列到序列的统一框架,做大规模的预训练,主打通用。最大将模型做到11B,基本上是Encoder-Decoder模型能够承受其训练成本的最大化,后文会引用另一位博主的分析为什么这种架构很难做得更大(区别于Decoder-only)区分任务的方式在于将输入的开头加入任务的描述,比如翻译、总结:2020年年初投稿。原创 2025-02-06 11:23:58 · 424 阅读 · 0 评论 -
论文解读之QWEN
初代QWEN的几个模型的版本,以及大致训练方式。原创 2025-01-17 15:27:34 · 1269 阅读 · 0 评论 -
论文解读之Direct Preference Optimization:Your Language Model is Secretly a Reward Model
因为大语言模型基于无监督的训练方式, 控制模型的输出行为是很困难的,。需要控制模型向人类偏好的高质量的知识、合理的输出习惯、输出行为进行改善,这就涉及到偏好学习算法。此前的方法比如PPO(近端策略优化)是在人类对于模型的输出数据集进行打分后制作的偏好数据集上训练一个奖励模型,再使用这个奖励模型使用策略优化算法进行强化学习来使得模型来对齐人类的偏好。但是,以上的强化学习范式具有一些问题:过于复杂,包括:训练多个模型、在训练过程中对策略模型采样训练不稳定。原创 2025-01-14 10:50:37 · 1130 阅读 · 0 评论 -
统计模型Bradley-Terry 模型
Bradley-Terry 模型假设每个对象 i 都有一个潜在的“能力”或“偏好”参数 θi,这种能力决定了对象在成对比较中的胜率。通过这些参数,模型计算任意两个对象在比较或竞争中的胜负概率。原创 2025-01-13 14:22:43 · 677 阅读 · 0 评论 -
论文解读之learning to summarize with human feedback
部分生成任务需要对齐人类偏好,但是根据最大化可能性(对数似然)进行微调的模型跟真正使用模型的人的喜好并不能直接匹配,即不对齐。这种不对齐的原因有:(1)最大化可能性目标对于重要和不重要的错误判别的差距不大。(2)模型会对人类的训练数据放置更大的可能性,其中包括低质量的训练数据。(3)采样时的分布偏移可能会降低表现。尽管第三点能够通过不均匀采样策略改善,比如束搜索,但是可能造成重复和不想要的捏造。本论文的团队基于GPT3和人类反馈强化学习进行了完整的偏好对齐的流程。原创 2025-01-03 20:09:03 · 626 阅读 · 0 评论 -
论文解读之Chain-of-Thought Prompting Elicits Reasoning in Large Language Models(CoT)
CoT的核心在于在prompt中使得模型将较大的问题输入拆解逐步的思维链的输出方案,属于prompt中的技巧,可以提升LLM在复杂问题上的表现,并且能够增强其可解释性(指的是在输出错误时追溯哪一步解答方案出错)。原创 2024-12-20 10:54:11 · 628 阅读 · 0 评论 -
Ilya Sutskever opemnAI前联合创始人和首席科学家AGI阅读清单
立志实现 AGI 的 Ilya Sutskever 曾向另一位 AGI 孤勇者 John Carmack 推荐了一份精选的阅读清单,内含尖端的研究论文及资料,包括神经网络架构与理论、深度学习应用、机器学习模型优化与正则化、机器学习系统与算法、人工智能理论与哲学、计算复杂性与算法随机性等干货知识。该论文介绍了关系循环神经网络(Relational-RNN)是一种用于无监督关系学习的深度学习框架,利用好奇心驱动的方法来探索和学习数据中的潜在关系。原创 2024-05-16 14:58:58 · 964 阅读 · 0 评论 -
跟无神学AI之一文读尽Sora
之前的模型对于视频的处理的功能都比较狭窄。Sora作为通用的视频数据处理大模型,能够处理尺寸不一的视频,生成分辨率比较高的视频。原创 2024-02-19 19:34:57 · 1194 阅读 · 1 评论 -
Windows10使用u盘制作linux启动盘踩坑记
进入bios模式(博主目前用的联想yoga系列是Fn+F2),调整计算机启动的模式,注意安全启动设置成diabled,要把usb启动移到最上面的一栏。设置完成后保存重启即可。在Ubuntu官网下载镜像,很简单找到对应版本和机器型号,注意区分64位和x86,基本上都是64,不确定的话去设置中查看。使用烧录软件,将镜像烧录到U盘中,烧录软件用这个或者ubuntu官方提供的都可。准备一个较大的u盘,越大越好,现在的配置一般都是16G+,博主n年前的就是32G。此时重启后会进入安装程序,按照提示一步步进行即可。原创 2024-02-18 16:14:05 · 931 阅读 · 0 评论 -
开源活动汇集网站
浏览开源信息之间发现一较好的开源网站,需要找开源活动的厚米们可以给个一键三连哦。原创 2024-02-08 20:05:48 · 425 阅读 · 0 评论 -
数组作为函数参数时的情形总结
形如f(array[])数组作为函数参数进行传入时,是属于传地址,也就是传入的是指向数组的指针,从而在该函数内对该数组变量进行操作时,当然该指针所指向的变量可以改变。但是,传入单个元素时,需要改变时要加&符号。比如f(&array x[2]),否则操作该元素时其值不会改变。在c++中,要是想要数组元素不改变,需要加常量标识符const,如const array x传入。精简易懂好理解,跟着无神学CS,一起学习分享有用的IT行业知识。原创 2023-08-02 18:38:38 · 205 阅读 · 0 评论 -
FAT技术
FAT技术是微软早中期推出的操作系统一直所采用的技术——利用文件分配表FAT来记录每个文件之中所有盘块之间的连接。在MS-DOS中使用的12位FAT12,后来为16位的FAT16。在windows98和95中升级为FAT32(32位)。Windows NT/2000/XP以及以后的操作系统中进一步发展为新技术文件系统NTFS(New Technology File System)一、卷FAT中引入卷的概念,支持将一个物理磁盘分成四个逻辑磁盘,每个逻辑磁盘称为卷(也就是分区)。原创 2023-09-14 15:16:41 · 606 阅读 · 3 评论 -
程序员的基本素养之——R语言起源、特点以及应用
R语言支持多种统计方法,如回归分析、方差分析、时间序列分析等,同时还提供了机器学习和深度学习的扩展包,使得用户能够进行复杂的模型建立和预测。R语言是一个开源的、免费的统计分析和图形化编程语言。同时,R语言拥有强大的图形绘制功能,用户可以生成高质量的图表、散点图、直方图等,以便更好地理解和展示数据。作为用于数据统计的必备技能语言,博主目前正在对R语言进行基本的学习,这也是生物信息学领域进行统计分析的必备语言之一。R语言和MATLAB都是在科学和数据分析领域中常见的编程语言,各有各的特点和适用场景。原创 2024-01-28 16:22:56 · 2016 阅读 · 0 评论 -
裁员风波以及如何应对
总之,面对互联网厂裁员的情况,程序员应该保持灵活性和适应性,积极准备应对可能出现的挑战。通过不断学习和提升自己的能力,以及建立强大的支持网络,可以在动荡的就业市场中保持稳定。一对来自中国的工程师夫妻在美身亡,疑因谷歌裁员致悲剧发生。在大模型技术变革下,裁员对于程序员的影响到底有多大?觉得有用的话,给个一键三连哦!原创 2024-01-25 21:41:07 · 578 阅读 · 0 评论 -
CCF 推荐国际期刊和会议分为 A B C类
本文列举中国计算机学会的推荐国际期刊和会议,分为三个区。你是否不知道所查找的计算机类的Papers属于哪个区?祝愿诸位早日学有所成,有一定的产出!原创 2023-10-06 22:16:12 · 831 阅读 · 0 评论 -
程序猿的基本素养之——文件压缩
文件在磁盘(等外存设备)上是如何被存储的,这是一个程序猿所必备的知识,有时会作为冷门的考点被加入到面试中来,下面跟着无神一起来学习文件在计算机上的压缩原理!原创 2023-10-02 21:43:50 · 126 阅读 · 0 评论 -
简单阐释python语言与c语言的异同
python语言则属于解释性语言,不会产生目标程序,像翻译书本一样按照翻译结果进行执行,其执行速度往往慢于编译语言,因此python社区的开发者们提案通过改变python底层的全局锁,将其用c去重写,以改变其运行速度的瓶颈。C语言相当重要,有些院校的老师希望你具备c语言基础(跨专业时往往有的老师会问到你有没有运用c进行项目的实现),不仅仅对于了解计算机底层的结构有所帮助方便构造很多系统软件,而且对于其他编程语言的学习也能相得益彰。先谈谈大类,二者都属于高级编程语言,不能够之间运行在计算机中。原创 2023-04-05 21:49:52 · 771 阅读 · 8 评论 -
C++之动态内存
一般的对象随着其块的结束,其生命周期也会自动终结(被编译器在内存中销毁)。C++中除了自动的和静态对象外,还提供动态内存管理。原创 2023-09-20 16:28:04 · 57 阅读 · 0 评论 -
程序猿的基本素养之注释的规范
实际工程中,像c++这种支持分离编译的高级程序设计语言,往往在不同的文件中定义了不同的类、函数、预定义常量等。观看较大规模程序的源码时,会对缺乏良好注释的代码充满迷惑。原创 2023-08-31 20:09:11 · 146 阅读 · 0 评论