Alex

Hello，我是 Alex 007，一个热爱计算机编程和硬件设计的小白，为啥是007呢？因为叫 Alex 的人太多了，再加上每天007的生活，Alex 007就诞生了。

原创尝试一下 InstantX/FLUX.1-dev-IP-Adapter 的效果

从下面这个链接找到了一个新的工作流：https://github.com/Shakker-Labs/ComfyUI-IPAdapter-Flux/issues/35。

2024-12-05 17:43:51 582

原创 The size of tensor a (4) must match the size of tensor b (8) at non-singleton dimension 1

的第二个维度也是 8，那就说明官方的。之后应该还有一些操作，再之后才进行的。的维度没有对上，其实也就是。找了一下应该是下面这段代码里的。然后打印了一下官方的。

2024-10-17 14:18:03 341

原创 Number of inference steps is ‘None‘, you need to run ‘set_timesteps‘ after creating the scheduler

按照报错的提示，需要增加一行。

2024-10-17 10:53:28 287

原创 ValueError: `added_cond_kwargs` cannot be None when using additional conditions for `adaln_single`.

是 forward 函数传进来的参数，在。，所以我们只需要把这部分代码加上即可。不为 None 的话，并且要。为 None，在这个函数里，这个报错也就是说如果。

2024-10-17 10:40:33 280

原创 ImportError: /root/paddlejob/apex-master/build/lib.linux-x86_64-3.9/fused_layer_norm_cuda.cpython-39

解决方案：卸载了 pytorch，重新安装了 torch==2.1.0，推测应该是编译的版本不匹配导致的。

2024-10-16 17:14:54 291

原创 ufunc ‘add‘ did not contain a loop with signature matching types (dtype(‘＜U3‘), dtype(‘＜U3‘))

可以发现 clip_score 的元素类型为字符串，那其实下面这个代码改一下就好了。这个看起来像是两个变量没有对齐导致的报错，一般是类型没有对齐。的报错，所以看起来应该是。的时候报错的，最后是。

2024-10-12 12:57:07 302

原创 HTTPSConnectionPool(host=‘nvlabs-fi-cdn.nvidia.com‘, port=443)

看最终的报错就知道，这是一个下载模型权重超时的报错，一般是由于资源可能在墙外，导致国内下载不到。解决这种问题的一个常见的方案就是把资源下载到本地，然后上传到服务器上，修改代码离线加载。根据下面这段代码，一层一层网上找，找到。

2024-10-11 12:59:34 405

原创 Accelerate + DeepSpeed 能否同时对多个模型进行分布式训练？

但是这两个模型都比较大，都放在一张卡上的话会 OutOfMemory，所以就想用 Accelerate + DeepSpeed 对模型进行切分。今天遇到一个问题，一个训练场景中需要两个模型交替优化，跟 GAN 比较类似。

2024-09-12 10:37:05 968 2

原创 R语言文本挖掘、情感分析和可视化哈利波特小说文本数据

利用文本挖掘技术对哈利波特系列书籍进行情感分析，旨在探索这些书籍中情感的分布和变化。通过使用tidyversetidytext和等R语言包，可以提取并分析书籍中的情感词汇。

2024-07-01 17:24:00 831

本指南回顾了如何让模型在生成响应时添加引用的源文档的哪些部分。本文介绍了5种方法：1. 使用函数调用来引用文档ID；2. 使用函数调用来引用文档ID并提供文本片段；3. 直接使用提示词；4. 检索后处理（压缩检索到的上下文以使其更具相关性）；5. 生成后处理（再次通过 LLM 来用引文注释生成的答案）。我们通常建议使用第 1 种方法，也就是说，如果模型支持函数调用，推荐方法 1 或 2；否则，或者如果这些方法失败，可以继续尝试其它方法。

2024-06-05 11:06:32 932

原创用Python获取Windows本机安装的所有应用程序的实现与分析

一个项目中需要获取本机安装的所有应用程序列表，花了一点时间研究了一下，分享出来。主要通过访问注册表和桌面快捷方式来完成这一任务，因为注册表中获取到的应用程序列表不完全，因此通过桌面快捷方式进行补充。

2024-06-02 15:01:54 1036

原创论文精读：TASKBENCH: BENCHMARKING LARGE LANGUAGE MODELS FOR TASK AUTOMATION

LLM 带动了任务自动化的发展，它将用户指令描述的复杂任务分解为子任务，并调用外部工具来执行它们，在 Agent 中发挥着核心作用。但是目前还缺少系统化、标准化的基准来催 LLM 任务自动化的发展。任务自动化可以分为三个关键阶段：任务分解、工具调用和参数预测。为了生成高质量的评估数据集，作者引入了工具图的概念来表示用户意图中分解的任务，并采用反向指令方法来模拟用户指令和注释。作者还提出了 TASKEVAL，从不同方面评估 LLM 的能力，包括任务分解、工具调用和参数预测。

2024-05-28 19:30:57 804

原创论文精读：UFO: A UI-Focused Agent for Windows OS Interaction

UFO 是一种以 UI 为中心的 Agent，利用 GPT-Vision，针对 Windows 操作系统上的应用程序量身定制，能够独立完成用户请求。UFO 采用了双 Agent 框架，一个 Agent 用于仔细观察和分析应用程序的GUI和控制信息，另一个 Agent 则是负责选择合适的应用程序。这使得 UFO 能够在各个应用程序内以及跨应用程序进行操作，以满足用户请求。

2024-05-24 12:00:09 1739

原创论文精读：HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face

解决不同领域和多种模态的复杂任务是通往AGI的关键，尽管现在有各种各样的AI模型，但是它们没有办法自主地处理复杂任务，而LLMs恰好可以作为管理者控制现有的AI模型来完成任务。本文提出的HuggingGPT就是一个基于ChatGPT的Agent，可以利用HuggingFace上各种各样的AI模型来完成任务。首先通过ChatGPT根据用户的请求制定任务计划，然后根据HuggingFace上模型的功能描述选择可用的AI模型，之后通过这些模型来执行子任务，最后总结执行结果并给出响应。

2024-05-22 16:33:15 1203 2

原创【持续更新】总结所有的多模态大模型的对齐方式

之前面试的时候被问到了这个问题，遂总结一下看到的论文中的多模态对齐方式。

2024-05-21 16:10:46 4303

原创 PyCharm 安装不了 Copilot ？报错：copilot Connect timed out

不知道为啥，之前PyCharm的Copilot用的好好的，但是我非要手欠给卸载了，结果在插件市场怎么安装都安装不上了，直接点 install 没有反应，然后在 JetBrains 上将插件下载到本地，然后从本地安装，也一直报错：Connect timed out。PyCharm打开Settings，Appearance - System Settings - HTTP Proxy，选择 Manual proxy configuration；，手动配置一下代理就行了，尝试了一下，确实有用。

2024-05-20 16:18:28 756

原创记一次 Celery 任务 FAILURE 的 debug 过程（{“status“: “FAILURE“, “result“: {“exc_type“: “NotRegistered“……）

之前有一个业务功能中用到了 Django + Celery 做异步任务，一开始都是各个产品独立创建 Docker 容器，但是后面服务器的负载太高了，所以就转为了各个产品的后端用 Docker 创建容器，而像 MySQL 和 Redis 这种则是直接在服务器上进行操作。所以这就跟背景挂上钩了，因为失误，两个业务共用了一个 Redis 的桶来存 Celery 的任务，所以任务是被另外一个业务的 Celery 执行了，才会说。而且这个问题是偶发性的，有的时候会创建，有的时候不会创建。

2024-05-03 15:58:32 733 1

原创 2023年第十四届蓝桥杯 - 省赛 - C/C++大学A组 - B.有奖问答

一共 30 道题，得分情况为 0 ~ 100 分。创建一个 30 行 100 列的 dp 数组，dp[i][j] 表示做完第 i 题，得分为 j 的方案数。

2024-04-02 16:56:20 882

原创 2023年第十四届蓝桥杯 - 省赛 - C/C++大学A组 - A.幸运数

直接暴力循环。

2024-04-02 15:41:33 426

原创 2023年第十四届蓝桥杯 - 省赛 - Python研究生组 - A.工作时长

直接通过 datetime 模块加载时间字符串进行格式化，然后对时间列表进行排序，最后两两计算时间差。

2024-04-01 23:40:35 739 1

原创记一次 pdfplumber 内存泄漏导致的服务器宕机

我是通过 pdfplumber 加载的 PDF 文件，所以自然而然的去 pdfplumber 的 GitHub 上看看有没有人遇到类似的问题，果然找到了一个。本地跑没什么问题，但是一放到服务器上跑就会宕机，而且是毫无征兆的宕机，至少在宝塔面板上看到的宕机前的负载、CPU使用率和内存占用率还是正常的。在执行这个函数的过程中，通过 htop 命令实时观察内存占用，发现随着处理的页面越来越多，占用的内存也越来越多，直到服务器完全卡住，宕机了。所以问题就很明显了，服务器的资源不够，内存占满了，所以才导致了宕机。

2024-04-01 21:45:25 1022

原创这应该是全网第一篇全面解读OpenAI Sora报告的文章，精读报告：Video generation models as world simulators

今天是2024年2月16号，大年初七，年还没过完，早晨起来朋友圈就被Sora刷屏了。本来以为没啥，都是公众号或者视屏啥的，都没点开看，直到看到我导也发了Sora的文章，我就知道这个事情不简单了。先来看一段非常炸裂的效果，就是下面这个视频。真的，如果你不跟我说这是AI生成的，我还以为是哪个电影的镜头呢。这场景，这运镜，这清晰度，放大之后连脸上的斑都清晰可见，Oh my God，现实不存在了，现实真的不存在了。Tokyo walk。

2024-02-16 20:40:23 3028 1

原创作为国产大模型之光的智谱AI，究竟推出了多少模型？一篇文章带你详细了解！

总的来说，还是挺期待未来可以有所突破的！！！但是我觉得这个大模型算是国内的很不错的大模型了，起码gpt49有的它都有，虽然是打折版的。并且使用也免费，已经挺够意思了。正如张鹏所言，和国外大模型相比，国内的大模型发展起步晚一些，加上高性能算力的限制和数据质量的差距等等，国内研发的大模型无论规模还是核心能力，与世界先进水平还存在一年左右的差距。但是未来一年，我们将有希望看见国内大模型的崛起之路！pvs=4。

2024-02-15 16:06:08 1570

原创论文精读：InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions

视觉基座模型还没有基于CNN的大模型CNN不具有长距离依赖性和自适应空间聚合能力改进了DCNv2一方面是模型做大之后效果怎么样，另一方面关注是否解决了长距离依赖性和自适应空间聚合能力。

2024-01-29 12:58:22 1436

原创论文精读：VMamba Visual State Space Model

Institution: 中国科学院大学（UCAS）, 华为, 鹏城实验室Summary: CNNs和ViTs是视觉特征表示领域常用的两个基座模型，CNNs具有显著的可扩展性，线性复杂度与图像分辨率相关，ViTs的拟合能力更强，通过注意力机制的全局感受野和动态权重可以有更好的表现，但是复杂度是二次的。本文提出了一种新的架构——VMamba（Visual State Space Model），继承了CNNs和ViTs的优点，同时还提高了计算效率，在不牺牲全局感受野的情况下可以达到线性复杂度。

2024-01-23 14:30:11 17669

原创论文精读：Improving CLIP Training with Language Rewrites

Summary: CLIP模型通过对比损失进行训练，这通常依赖于数据增强来防止过拟合，但是在CLIP的训练过程中，只对图像进行了数据增强，并没有对文本进行数据增强。基于此，这篇文章提出了文本增强CLIP（Language augmented CLIP, LaCLIP），利用大语言模型的ICL能力，对每张图片的文本描述进行重写。重写的文本保持原意不变，在句子结构和文本表达上具有多样性。在模型训练的时候，随机选择采用原始文本还是重写的文本。

2024-01-22 14:26:09 1375

原创论文精读：Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

大规模视觉-语言模型（Large Vision-Language Models，LVLMs）基本上使用得都是同一个视觉词表——CLIP，它也适用于大部分的视觉任务。但是，对于一些特殊的任务往往需要更密集和更细致的感知，比如文档OCR和图标理解，特别是对于非英语场景，CLIP的词表在分词时往往比较低效，并且还可能会遇到无法分词的问题。基于此问题，作者提出了Vary（Vary），一种有效扩展LVLMs视觉词表的方法。

2024-01-12 12:09:04 1855 1

原创论文精读：EVA-CLIP Improved Training Techniques for CLIP

Summary: 作者使用了一系列方法来提升CLIP的训练效率和效果，包括新的表示学习方法、更换优化器和数据增强技术，使得EVA-CLIP相比于具有相同参数量的模型徐连成本更小，性能更优。

2024-01-10 14:29:00 3671

原创 ElasticSearch环境准备

Elasticsearch 在许多应用中被广泛使用，包括日志和事件数据分析、内容搜索、数据可视化、地理搜索等。在本应用中，我们有大量的非结构化文档要存储（PDF、TXT和HTML），而ElasticSearch恰好可以帮助我们实现相应的检索功能。然后，创建一个Elasticsearch客户端实例，并连接到本地运行在9200端口上的Elasticsearch服务器。6.灵活的查询语言：Elasticsearch 提供了一种非常灵活的查询语言，可以执行简单的文本查询到复杂的聚合查询。

2023-10-07 18:18:20 905

原创 GPT：你知道这五年我怎么过的么？

GPT系列的五年发展之路。

2023-04-22 11:29:18 2938 2

原创小学生都听得懂的数据库范式

比如，我们有一张学生表，其中一个字段是地址。如果我们把地址拆分成省份、城市、街道、门牌号等多个字段存储，那么这就不符合第一范式的要求了，因为地址被分解成了多个部分，不再是原子性的了。正确的做法是把地址作为一个属性，存储为一个完整的字符串。函数依赖是指在一个关系中，一个或多个属性的值可以唯一地决定另一个属性的值。就像我们在算数中，如果我们知道了某些数字的值，就可以唯一地确定另一个数字的值。举个例子，假设我们有一个学生表，其中包括学生姓名、年龄、班级、学号等字段。

2023-03-21 18:36:38 860

原创模型训练和推理过程中的显存占用问题

我有两个GPT2的模型，只有1亿参数，并以16位浮点数存储，也就是250MB左右，有35亿参数，同样以16位浮点数存储，也就是7GB左右。我以为推理的时候加载模型到显存中后占用的空间应该也是差不多的大小，但是1亿参数的模型加载到TorchServe中后却占用了957MB，不知道为什么多出来700多MB。

2023-03-19 14:09:07 4285

原创 OSError: [WinError 126] 找不到指定的模块。 Error loading “......caffe2_nvrtc.dll“ or one of its dependencies.

昨天晚上跑的好好的训练脚本，今天早晨突然就开始报错了。主要是在Jupyter Notebook上跑的时候报错，但是直接打开Python Console跑是可以的。果然CUDA Version变成了12.0，我记得之前是11.7，所以降级就可以了。（我也想升级，但是当前时间点PyTorch暂时还不支持12.0）然后突然想起来，昨天晚上更新了CUDA驱动，主要是NVIDIA GeForce Experience推荐我更新的，没在意就直接点了。更新完之后重启电脑就可以了，神奇。

2023-02-23 08:46:23 2487

原创线性卡尔曼滤波详解

自动驾驶汽车首先需要准确的知道自己在地图上的位置。理所当然的我们可以想到通过GPS来进行定位，但获取GPS信号需要跟卫星进行通信，这就导致它的更新频率比较低，每次获取的位置是不连续的。换一个思路，我们高中都学过物理，当知道了一个小车的起点、速度和加速度之后，就可以通过直线运动公式预测接下来的位置，再结合小车偏向的角度、角速度和角加速度，完全可以通过运动学模型预测小车在二维道路上接下来的位置。此时我们有了两种定位的方式：直接通过GPS观测和间接通过运动模型预测，那该选择哪一种呢？

2023-02-09 11:38:13 1176 1

原创【Kafka】常用操作

【代码】【Kafka】常用操作。

2023-01-05 16:19:29 645

原创【Linux】常用指令

在当前窗口新建一个终端：Ctrl + Shift + t。新开一个终端窗口： Ctrl + Shift + n。在当前窗口跳到某个终端：Alt + 1…

2023-01-01 13:28:18 609

原创 Linux的Anaconda换阿里源

Anaconda是一个用于科学计算的Python发行版，支持Linux, Mac, Windows,包含了众多流行的科学计算、数据分析的Python包。

2022-11-11 10:15:34 2698 1

原创 LeetCode Algorithm 1620. 网络信号最好的坐标

思路：先根据坐标范围遍历整个第一象限，然后再遍历所有的信号塔，针对每一个点判断是否在信号塔的范围内，如果在的话，就累加上它的信号强度，然后再根据一个全局最大值判断就可以了。

2022-11-02 21:45:00 662

面向对象&网络编程基础·第1章面向对象开发一套选课系统

角色: 学校、学员、课程、讲师、管理员要求: 1. 创建北京、上海 2 所学校 ---> 管理员创建学校 2. 创建linux , python , go 3个课程， linux\py 在北京开， go 在上海开 3. 课程包含，周期，价格，通过学校创建课程 4. 创建讲师 5. 创建学员时，选择学校，关联班级 5. 创建讲师 6. 提供两个角色接口 6.1 学员视图，可以注册，选择课程（等同于选择班级） 6.2 讲师视图，讲师可管理自己的课程，上课时选择班级，查看班级学员列表，修改所管理的学员的成绩 6.3 管理视图，创建讲师，创建班级，创建课程 7. 上面的操作产生的数据都通过pickle序列化保存到文件里 - pickle 可以帮我们保存对象

2022-03-19

函数编程作业网站访问日志分析

基本需求 90% 1 统计本日志文件的总pv、uv 2 列出全天每小时的pv、uv数 3 列出top 10 uv的IP地址，以及每个ip的pv点击数 4 列出top 10 访问量最多的页面及每个页面的访问量 5 列出访问来源的设备列表及每个设备的访问量

2022-02-19

股票信息查询程序-Python作业

1 程序启动后，给用户提供查询接口，允许用户重复查股票行情信息(用到循环) 2 允许用户通过模糊查询股票名，比如输入“啤酒”, 就把所有股票名称中包含“啤酒”的信息打印出来 3 允许按股票价格、涨跌幅、换手率这几列来筛选信息，比如输入“价格>50”则把价格大于50的股票都打印，输入“市盈率<50“，则把市盈率小于50的股票都打印，不用判断等于。 stock_data.txt 此文件请从课件中下载。思路提示：加载文件内容到内存，转成dict or list结构，然后对dict or list 进行查询等操作。这样以后就不用每查一次就要打开一次文件了，效率会高。

2022-02-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

面向对象&网络编程基础·第1章面向对象 开发一套选课系统

函数编程作业 网站访问日志分析

股票信息查询程序-Python作业

图网络机器学习典藏版合集

Winddows 10 安装 COCO API（pycocotools）

sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz.zip

apache-hive-2.1.1-bin.tar.gz.zip

spark-2.4.0-bin-hadoop2.7.tgz.zip

scala-2.11.12.tgz.zip

hbase-1.2.4-bin.tar.gz.zip

hadoop-2.7.3.tar.gz.zip

zookeeper-3.4.10.tar.gz.zip

jdk-8u171-linux-x64.tar.gz.zip

Redis-x64-3.0.504.zip

verification.zip

HousePrices.zip

mysql-8.0.11-winx64.msi

mysql-8.0.19-winx64.zip

Matrix Studio Second Assessment.zip

机器人写诗测试数据集 poemsTest.txt

良\恶性乳腺癌肿瘤预测数据集

空空如也

面向对象&网络编程基础·第1章面向对象开发一套选课系统

函数编程作业网站访问日志分析