A half moon-优快云博客

原创 conda 激活环境vscode的Bash窗口

多份conda环境注意事项，当时安装了两个conda环境，miniconda和conda，导致环境总是冲突矛盾。初始化时需要更加注意。然后直接conda activate到对应环境中即可。能够显示用哪里的conda环境命令执行。

2025-04-02 17:11:09 180

原创【机器学习面试经验与互联网公司推荐】

机器学习面试主要涵盖统计学习、深度学习（如NLP、CV、强化学习）等基础知识。对于算法岗位，通常要求应聘者来自985或211高校，拥有硕士学历，发表过顶会论文，并具备大厂实习经验或AI创业公司实习背景。此外，参加过知名比赛（如Kaggle、阿里天池比赛等）并取得优异成绩的候选人会更具竞争力。

2025-03-24 23:41:07 43

原创【机器学习/大模型/八股文面经（一）】

参考答案核心差异特性LSTM时序处理全局注意力（并行）顺序递归（串行）长程依赖自注意力直接建模依赖记忆单元梯度传播计算效率适合GPU并行，但内存复杂度O(N²)无法充分并行，复杂度O(N)位置编码显式添加（正弦/可学习）隐式通过循环状态创新点：多头注意力机制实现动态特征交互，残差连接缓解梯度消失。

2025-03-24 23:35:01 272

原创【腾讯 ima 极简指南】3 步搭建你的 AI 知识中枢

微信搜「ima 助手」小程序 → 新建知识库（建议按项目 / 领域命名）✅ AI 超能力：5 秒生成摘要 / 思维导图 / 关联推荐。上传时自动打标（可手动补充「# 紧急」「# 行业报告」）✅ 全格式通吃：PDF/PPT/ 图片 / 音视频一键吞。：钉钉 / 飞书消息转发到 ima 微信助手，自动归档。手机端：微信聊天框长按文件 → 选「保存到 ima」」→「用ima打开」创建共享库：添加名称→导入本地文件→设置查看权限。创建共享库：添加名称→导入本地文件→设置查看权限。➡️团队协作高阶玩法。

2025-03-18 22:51:08 31

原创【AI知识管理系统】（一）AI知识库工具测评

嘿，朋友们！🧐你们有没有想过，咱们平日里那些一闪而过的知识笔记、各种碎片化的idea，记录下来之后都是怎么管理的呀？还有啊，咱们读过的那些书，大家会不会随手写点东西记录一下呢？📝要知道，如果不写的话，很可能过不了多久就全忘得一干二净啦。😭那多年前记下的笔记，还能不能重新捡起来派上用场呢？😉这里面涉及到的认知装载和卸载的核心又是什么呢？🤷‍♀️那当然是强大的知识管理系统了接下来啊，我就准备给大家测评一下当下最先进的知识管理工具，看看它们到底有多神奇~✨。

2025-03-17 22:39:28 116

原创【大模型（LLMs）RAG 检索增强生成面经】

尤其是指令，指令型 llm 在训练或者微调的时候，基本上都有个输出模板，这个如果前期没有给出 instruction data 说明，需要做很多的尝试，尤其是你希望生成的结果是按照一定格式给出的，需要做更多的尝试。多语言问题，paper 的内容是英文的，用户的 query 和生成的内容都是中文的，这里有个语言之间的对齐问题，尤其是可以用中文的 query embedding 来从英文的 text chunking embedding 中找到更加相似的 top-k 是个具有挑战的问题。

2025-03-15 23:41:09 87

原创【大模型最前沿技术应用与实践】

* 工具链整合（Agents、RPA）** 实现场景落地。需要融合通用技术（LLM、多模态）与行业深度（知识图谱、RAG），并通过。通过实时反馈机制动态优化模型（如异常检测阈值调整）在数据安全前提下实现跨机构分析（如联合建模）。人机协作处理复杂决策（如财务策略制定）。未来想打造垂类知识决策型 AI的应用，

2025-03-11 22:19:04 75

原创一分钟快速EASY理解transformer的生成过程

这就是为什么叫"teacher forcing"，因为训练时老师（ground truth）在强制指导你。dec_inp 在训练时是已知的（teacher forcing），包含了目标序列右移一位的值。**训练时：**老师告诉你"看到50，应该说60；看到50和60，应该说70"**预测时：**你看到50，说出60；然后基于50和60，说出70。在预测时是逐步生成的，每次将新预测的值加入到 dec_inp 中。这种机制让模型能学会利用之前的预测来做出下一步预测。

2025-03-07 11:36:30 18

原创【大模型（LLMs）微调面经】

综合使用上述方法，可以让模型在预训练过程中学习到更多的知识和语言规律，提升其在领域任务上的性能。

2025-03-05 23:45:35 60

原创【NLP面试八股-NLP常见面试问题&详细回答】

序列到序列（Sequence-to-Sequence，Seq2Seq）模型是一种能将一个序列作为输入，并输出另一个序列的深度学习模型，通常由编码器（Encoder）和解码器（Decoder）两部分组成。注意力机制是一种让模型能够自动关注输入序列中不同部分的技术，其核心思想是在处理输入序列时，为每个元素分配一个权重，然后根据这些权重对元素进行加权求和。知识图谱是一种以图的形式表示知识的方法，由实体、关系和属性组成。，能够从大规模无标注数据中学习到丰富的语言表示，有效提高了语言理解、生成、翻译等任务的性能。

2025-02-26 23:00:38 164

原创【深度学习面试八股-面试问题&详细回答】

模型在训练集上表现很好，但在测试集和新数据上表现很差。批量归一化(BN)的计算公式如下：对图像和滤波矩阵做内积的操作就是卷积操作。其中图像是指不同的数据窗口数据；滤波矩阵是指一组固定的权重，因为每个神经元的多个权重固定，所以又可以看作一个恒定的滤波器 fliter；内积是指逐个元素相乘再求和的操作。池化是指取区域平均或者最大，即平均池化或最大池化。

2025-02-26 22:42:04 69

原创【深度学习面试八股-面试问题&详细回答】

本文围绕深度学习核心知识展开，涵盖优化器（SGD、Adam 等）原理及对比，过拟合与欠拟合相关剖析，归一化方法（BN、LN 等）介绍，以及神经网络基础概念与应用，为深度学习面试及学习夯实基础。

2025-02-21 16:16:24 19

原创【AI 互动产品设计构思——「心灵星旅—— 宇宙探险中的自我成长】

这个设计将健康管理变成一场充满惊喜的星际冒险，用户在学习知识的同时，收获游戏成就感和情感陪伴。关键是要让每个功能都藏着小惊喜——比如连续打卡7天后，AI伙伴会突然用用户的声音唱一首鼓励歌曲。每个星球代表一种核心情绪（快乐星、焦虑星、愤怒星等），完成任务即可解锁星球能量，修复宇宙平衡。为了让健康管理和情绪学习变得有趣又有效，我们可以设计一个结合游戏化、故事化、AI互动的产品。每晚10点前睡觉 → 飞船能量+20% → 解锁隐藏星球「梦境之海」会进化的生物AI「波塔」，外形像发光水母，根据用户状态变色。

2025-02-13 10:53:53 297

原创重新理解并从经典模型LSTM获得启发

LSTM主要处理序列数据，核心的前提假设就是：后面的数据跟前面的存在自相关性，比如我后面的信息是根据前面的一些信息经过某种函数处理能够推导得到的，所以设定了信息由前往后传递的这样一种依赖关系，核心是如何处理信息的。**hidden_size：**这是指LSTM中隐层的维度（h隐藏状态的味道），即隐藏层节点的个数。**input_size：**这是输入数据的特征维数，即每一行输入元素的个数。作为一种信息选择的功能，能够输出0到1，0表示遗忘信息，1表示记忆信息，中间数值对应表示介于两者之间的状态。

2024-10-21 17:31:01 502

原创服务器目录连接juypter lab 命令

【代码】服务器目录连接juypter lab 命令。

2024-10-16 17:18:16 144

原创 leecode刷题C++ 常用数据结构操作

【代码】leecode刷题C++ 常用数据结构操作。

2024-09-02 21:59:32 213

原创 leecode刷题经典算法套路&模版笔记【递归回溯篇】--根本逻辑，快速掌控

在ASCII码表中，字符’0’到’9’的编码是连续的，因此通过减去字符’0’的ASCII码值（即48），可以将字符型数字转换为对应的整数值。在ASCII码表中，字符’0’到’9’的编码是连续的，因此通过加上字符’0’的ASCII码值（即48），可以将整数值转换为对应的字符型数字。第二种思路，每次进行枚举选一个严格递增的元素，这里由于子集的长度没有约束，所以每种长度都可以是答案。digits[i] - ‘0’ 是一个常见的编程技巧，用于将字符型数字转换为整数型。对两端按照规律进行操作移动；

2024-09-02 21:48:08 439

原创 Latex论文引用脚注加网址或代码超链接

【代码】Latex论文引用脚注加网址或代码超链接。

2024-08-02 16:56:06 1915

原创 llava-v1.6-vicuna-7b response为空，解决方案

分析得出是输入长度加上图片token过程，vicuna 默认的session_len长度(2048)过短造成的，对话模版也需要了解。

2024-07-23 17:06:40 260

原创多模态开源模型部署Llava-v1.6-Vicuna-7B 总结

一段可以直接run的下载代码，超好用！

2024-07-11 10:27:02 942

原创远程服务器运行项目代码 sh xxx.sh

把环境上传到远程服务器（anaconda下面的文件夹）然后到项目对应目录下运行对应sh文件。把项目代码上传到远程服务器。

2024-06-08 15:52:14 185

原创 relative position encoding快速看懂相对位置编码代码实现

举例如果有5个token，相对位置就有9种情况。然后是通过前面的相对位置矩阵，得到相对位置编码。

2024-06-02 15:45:30 431

原创一直出现问题，发现服务器磁盘空间已满导致，腾出服务器磁盘空间命令

通过上述步骤，你应该能够有效地腾出服务器磁盘空间，解决空间不足的问题。在进行文件删除操作时，请务必确保不会删除系统关键文件或正在使用的进程文件，以免影响系统稳定性。

2024-03-13 15:32:41 644

原创 urllib3.exceptions.MaxRetryError: HTTPSConnectionPool(host=‘huggingfac 远程服务器访问不了外网本地电脑可以使用VPN....

核心目的是想用远程服务器上的GPU跑代码，也就是服务器上的conda安装的环境和python解释器去执行pycharm里的项目，但是发现远程服务器不能访问外网…可以看出上面带GPU的服务器只能访问bing这样的普通网站，访问不了huggingface。就很麻烦，似乎只能手动下载一些类似bert的模型，或者尝试找huggingface的镜像web…如果要想直接下，可以本地电脑连VPN ，翻墙访问直接下载，但是本地电脑又没有GPU。

2024-02-27 17:05:27 875

原创时序预测demo 代码快速实现 MLP效果比LSTM 好，简单模拟数据

生成的一个带些随机数的正弦波：y = torch.sin(x * 2 * 3.1415926 / 100) + 0.3 * torch.sin(x * 2 * 3.1415926 / 25) + 0.8 * np.random.normal(0, 1.5)LSTM（长短期记忆）的层数指的是在神经网络中堆叠的LSTM单元的数量。层数决定了网络能够学习的复杂性和深度。每一层LSTM都能够捕捉和记忆不同时间尺度的依赖关系，因此增加层数可以使网络更好地理解和处理复杂的序列数据。简单聪明的MLP第一轮就学会了。

2024-02-22 21:12:23 466

原创机器之心：讲座分享——NPL顶会如何发表？内容小结

3分以上有机会，3.67,3.8左右录用概率较高。机器之心：讲座分享——NPL顶会如何发表？

2024-02-20 10:52:22 178

原创 a.to(device)把张量转移到GPU上细节

这样不能转移到GPU上。

2024-02-05 11:18:16 213

原创【itransformer 多变量时间序列】

*输入数据：**多变量时间序列。

2024-02-01 11:30:26 350

原创 Transformer 改进点，BERT模型的优缺点和一些模型基本原理总结

方差为d_k，需要除以根号d_k，把乘积的数值重新变为均值为0，方差为1.之前看过多篇博客，和视频讲解，才发现模型内部细节非常多，以及动态实现过程，最近才重新搞懂输入，输出，和mask在输出部分的原理。

2024-02-01 10:20:06 385

原创 git clone https改成http成功（fatal: unable to connect to github.com: github.com[0: 140.82.113.3]: errno）

奇怪的情况，去掉s就OK了。

2024-01-29 21:50:25 260

原创基本矩阵运算、高维张量乘法运算

通过广播机制将形状不匹配的张量扩展为匹配形状，然后进行元素级乘法运算。在实际代码中，可以使用 PyTorch 提供的广播机制来自动处理形状不匹配的情况，无需手动进行扩展操作。点积运算：指你的两个向量的对应位置的元素相乘再相加。

2024-01-29 17:43:30 290

原创 MetaGPT task1学习

基础知识学习了解：

2024-01-14 17:04:59 477

原创 Model.from_pretrained(“./pytorch_model.bin“

2024-01-04 15:25:12 413

原创重新理解一下F.cross_entropy()的细节

最初疑问：为什么F.cross_entropy （logits,labels）里的labels为212,213，这样的标签。

2023-12-16 15:40:44 581

原创 CLIP 对比学习源码理解快速学习

是相似的，或者说这两个东西是一个意思，然后把这两个当成正样本，计算正样本的相似度要越大越好，即学习到的图像和文本的潜在特征表示进行运算后得到的相似度要越大越好，所以反向约束表示图像和文本的特征要能够彼此互通，图像的特征向量能够跟文本的特征向量在语义上能够互相认识彼此，从而认出彼此是相似的。优化方向：分母的负样本相似度越小越好，小到0可忽略不计，这时正样本上下抵消为1，log1=0，loss为0.最终计算contrastive loss，loss计算加上 -log。si,i ：正样本相似度。

2023-12-15 16:15:06 2104

原创 10.10-11 科研记录一些多模态工作的相关思考

文本向量维度为768，时间序列向量维度256或其他可变维度，但有些不太理解如果将这些维度随意进行线性变换后，所表示的特征的隐藏状态表示会进行怎么样的变化，感觉“有些抽象”，个人感觉可能还是由最后的loss反向去更新这些维度所表示的隐藏状态表示，选择不同维度可能就是因为经过多层模型结构后得到表示特征的不同深度的含义，维度相对高些才能装得下深层表达，然后合适的维度表示合适层次和深度的信息吧。中，笔记中多描述各种器官检查出来的情况，但可能隐约中这些文本也能跟患者的某些生理指标有一定关系，

2023-11-22 20:44:23 121

原创【softmax和sidmod 快速学习和用法对比】

另外，Softmax函数在多分类问题中更常用，而Sigmoid函数在二分类问题中更常用。对于多分类问题，Softmax函数可以处理多个类别之间的竞争关系，确保概率分布的归一化。而对于二分类问题，Sigmoid函数通常被用于输出单个概率值，表示样本属于正类的概率。总结起来，Softmax函数和Sigmoid函数是两种不同的激活函数，它们在使用和适用场景上有所不同。在二分类问题中，Softmax函数可以通过设置两个输出神经元的权重和偏置来模拟Sigmoid函数的行为，但是这种用法并不常见。

2023-11-17 11:13:31 152

原创 scp 跨服务器传输命令，把一个服务器上的文件复制传到当前服务器目录下

要将一个服务器上的文件复制到当前服务器的目录下，可以使用 scp 命令进行跨服务器传输。内网内的服务器可以互相迁移，不同网之间可能连不上，需要考虑网络方面的问题。

2023-11-16 15:52:34 1146

原创 9.25 广读论文思想汇总

多模态，多篇ACL，alibaba。数据集MIMIC-VI。

2023-11-13 11:29:24 89

原创变分自编码器 / 概率分布的重新理解感觉悟了很多

在传统的变分自编码器中，通常还会加入一个正则化项，即 KL 散度项，用于控制潜在空间中的数据分布符合一个预先给定的概率分布。如果不加 KL 散度项，则不会对潜在空间的分布进行限制，使得潜在空间的分布可以是任何分布，限制了它的生成性能和样本质量。的内容，但后边有些遗忘且在代码实现上没有灵活运用，建模一个概率分布，现在个人看来就是创建一种“某种特定规律的可能性集合”（自己的理解不一定对），然后在这个所有参数定义的“模型”去生成符合某种概率规律的数值。变分自编码器不加KLD 对概率分布的约束项可以吗?

2023-11-10 17:04:01 175