自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

原创 Git命令全集:从Fork到PR完整流程

bash# 克隆你的Fork仓库到本地git clone https://github.com/你的用户名/仓库名.git# 进入项目目录cd 仓库名。

2025-11-21 21:25:46 260

原创 GitHub Fork到PR全流程操作指南

小步提交:每个功能点单独提交描述清晰:提交信息说明"做了什么"和"为什么"定期同步:每天从上游main分支拉取更新。

2025-11-21 21:16:15 951 4

原创 GitHub项目协作完整指南:从Fork到本地开发

Fork→ 创建个人副本Clone→ 下载到本地Branch→ 创建功能分支Code→ 在正确分支上开发Commit→ 定期提交更改Push→ 推送到你的仓库PR→ 发起合并请求。

2025-11-19 22:19:19 1084

原创 大模型数据筛选、分类、生成任务,满足并发速度和处理准确要求

本阶段旨在系统提升原始数据质量,消除噪声与不一致性,并通过增强手段丰富数据信息,为模型训练与推理提供高质量数据支持,确保生成、分类、筛选等任务的准确性、鲁棒性和可靠性。本阶段旨在通过并发技术高效调度大模型 API 请求,在遵守服务配额限制、保障系统稳定性的前提下,最大化处理吞吐量,满足大规模数据处理需求。:通过系统化方法设计高质量提示词,精准引导大模型输出预期结果,确保生成、分类、筛选等任务的稳定性和准确性。清晰具体的指令能有效约束模型行为,提高结果的可预测性。:移除干扰模型处理的无效字符。

2025-10-22 11:50:33 939

原创 处理视频抽帧并转换成json

之前想的用哈希创造处理中间文件名,处理完之后再把文件名换回去这个方法只能在小数量的情况下临时用用,哈希会冲突,表太大了内存不够。慎用.get,因为会有默认值,在数据量大的时候会掩盖问题。参数:它的参数数量是否很少(<4)?副作用:它是否有不可预知的副作用?一个好的函数参数不宜过多(少于3-4个),名字要清晰,功能要单一。职责:它是否只有一个修改代码状态的理由?名字:它的名字是否清楚地表明了它只做的那一件事?长度:它是否足够短?文档:它是否有清晰的文档字符串和类型提示?返回:它是否有明确、单一的返回值?

2025-09-23 17:21:26 404

原创 ChromaDB探索

​​A:​​ 这是 ChromaDB 提供的一个​​便捷功能​​。​​A:​​ ​​不,向量不是客观的。​​A:​​ ChromaDB 是一款开源的​​向量数据库​​。​​A:​​ 因为向量相似度计算(如余弦相似度)​​只有在由同一个模型生成的向量之间进行才有意义​​。如果你想尝试不同的模型,必须为每个模型创建​​独立的系统​​和​​独立的向量库​​。​​A:​​ 在​​固定模型架构和训练目标​​的前提下,​​会的​​。​​RAG 核心原则​​:整个系统的向量必须由​​同一模型​​生成,否则失效。

2025-09-16 17:02:43 572

原创 Git 版本管理核心实践与问题解决手册

提交了大型文件(如二进制文件、压缩包、依赖库等)基于主分支创建功能分支。八、附录:常用命令速查。

2025-08-29 11:39:08 994

原创 并发编程核心要点与专业应对策略

实际应用中,建议基于具体业务场景灵活组合这些策略,从简单方案入手,循序渐进地优化。• 时间戳记录:为每个数据项附加原始事件发生时间戳 • 窗口聚合:基于事件时间进行窗口化计算 • 延迟处理:通过水位线机制处理迟到数据。• 线程池性能:活跃线程数量、任务队列深度、拒绝任务计数。• 系统资源状态:CPU利用率、内存占用、I/O等待时长。• 业务健康度:请求吞吐量、延迟百分位值、错误发生率。• 将TraceID注入日志上下文和监控数据。• 快速失败机制:下游异常时立即阻断。• 故障隔离:防止级联故障与资源枯竭。

2025-08-28 02:06:11 795

原创 Tokenizer(分词器)详解

按空格进行分词处理每个单词作为独立 token主要缺点:词汇表较大,难以处理未登录词(OOV)

2025-08-27 15:39:15 1024

原创 .tell()是做什么的

函数打开一个文件时,Python 会创建一个文件对象,这个对象内部维护着一个​。)数据时,这个指针会自动向后移动,移动的距离等于你读取或写入的字节数。​:它 simply 返回这个指针当前所在的字节位置。) 刚打开一个文件时,这个指针通常位于文件的​。​:当你以读取模式 (

2025-08-27 12:04:35 216

原创 CSV 字典写入器(DictWriter)

特性说明核心优势字段名映射,提升代码可读性主要方法writerow()最佳场景处理结构化字典数据注意事项需处理字段缺失和额外字段情况是处理CSV文件的理想选择,特别适合需要明确字段名或已使用字典结构组织数据的场景,能显著提升代码的可维护性。

2025-08-27 11:59:32 427

原创 with语句

特性描述​​核心目的​​用于资源管理和异常处理的优雅抽象。​​关键机制​​基于实现了和__exit__()方法的​​上下文管理器​​。​​主要优点​​​​代码简洁​​、​​资源安全​​(自动清理)、​​更好的异常处理​​。​​常见应用​​文件操作、线程锁、数据库连接、网络连接等。简单来说,​​只要你需要“用完即关”或“用完即还”的资源,就应该优先考虑使用with语句​​。它是编写健壮、清晰 Python 代码的最佳实践之一。

2025-08-27 11:18:14 333

原创 类型注释是什么

Python 的类型注释(Type Annotations 或 Type Hints)是 Python 3.5+ 版本引入的重要特性。简而言之,类型注释是面向"开发者"和"工具"而非"Python解释器"的。Python解释器在运行时不会因类型不匹配而报错或停止执行。类型注释仅作为提示,动态类型仍是Python的核心特性。这种机制就像为代码编写"使用说明",能清晰地标明变量、函数参数和返回值的预期类型,既方便开发者理解,也便于工具进行检查。仅为核心模块添加注释即可,原有未添加类型注释的代码仍能正常运行。

2025-08-27 10:54:49 363

原创 zero-shot,对比学习

模型能够直接识别训练时未出现过的类别(例如,训练数据中未包含斑马,但模型仍能正确分类斑马图像)。

2025-08-25 11:15:56 707

原创 Python 装饰器详解

装饰器(Decorator)是 Python 中一种强大的语法特性,它允许你在​​的情况下,动态地​​。装饰器本质上是一个高阶函数(接受函数作为参数并返回函数),通过符号简洁地应用到目标函数上。

2025-08-21 14:01:42 505

原创 处理大量数据时的数据对齐

在大数据处理中,系统中断是常态而非异常。通过合理的容错设计,我们能够减少对"完美运行环境"的依赖。选择合适的方案,实现"中断后一键恢复"的高效处理体验。

2025-08-15 11:05:04 302

原创 处理数据时确保正确性

​。

2025-08-04 11:16:32 1108

原创 处理数据确保正确性

【代码】处理数据确保正确性。

2025-08-04 11:15:57 418

原创 hugging face 注册报错418

​,多数问题可快速解决。网络切换一个地方不行就多尝试几个地方,我是美国,香港,台湾,都试了好几次最后美国的成功了。

2025-07-22 10:11:05 3145

原创 提示词总结,增强代码健壮性,定时运行代码

日志系统:不同级别日志(INFO/WARNING/ERROR)3. **资源安全**:保证文件/网络连接等资源释放。- 资源限制:大文件处理时限制内存使用(流式读取)2. **错误处理**:关键路径必须包含异常捕获。1. **防御性编程**:所有外部输入均需验证。- 中断恢复:支持断点续处理(记录已扫描文件)4. **可配置性**:将常量提取为配置参数。5. **模块化设计**:功能拆分为独立函数。6. **详细日志**:关键操作记录执行状态。- 输入验证:检查目录存在性,处理无效字符。

2025-07-18 10:10:52 201

原创 程序定时运行,解放双手,提前下班!

​​方案类型​​​​最佳应用场景​​​​实现复杂度​​​​推荐频率​​​​关键优势​​​​操作系统调度​​生产环境稳定任务★★☆☆☆天/小时级无需保持进程运行​​Python schedule​​开发/测试环境★★★☆☆分钟级简单易用,Python集成​​sched延迟执行​​单次延时任务★☆☆☆☆单次特定时间精确控制执行时间实现3小时后运行2. 每日定时任务 (操作系统级)3. 分钟级循环 (Python schedule)三、API密钥安全处理方案最佳实践(三选一):

2025-07-18 10:02:44 338

原创 Docker 学习日志

【代码】Docker 学习日志。

2025-07-09 14:12:29 400

原创 labelme与coco与yolo的对比

自包含性:单文件集成图像+标注 (Base64编码)几何多样性:支持非矩形标注(多边形/圆等)✅ 需要复杂形状标注(医学影像/卫星图)规避方案:COCO需额外预处理坐标归一化。规避方案:Labelme需自定义扩展字段。任务集成:单文件支持检测/分割/关键点。元数据丰富:完备的类别/许可/作者信息。:JSON分片存储(如LVIS数据集)规避方案:YOLO矩形框丢失形态信息。:基于WebSocket的协同标注。需求:发布包含17关键点的数据集。:TXT文件比JSON小10倍。需求:在嵌入式设备实时检测零件。

2025-07-08 14:03:19 438

原创 什么是八股,八股有哪些内容

ai的回答。

2025-02-25 19:45:07 3806

原创 浙江工商大学操作系统第九、十章

9.19.210.110.210.310.4

2024-06-14 16:31:36 249

原创 浙江工商大学操作系统作业第八章

8.18.28.38.48.5

2024-06-07 16:26:46 170

原创 浙江工商大学操作系统作业第七章

7.17.27.37.4

2024-06-07 15:43:26 100

原创 浙江工商大学操作系统第6章

6.16.26.36.46.56.66.7

2024-06-07 11:23:29 255

原创 浙江工商大学操作系统作业第五章

三和四应该都是错的,但是这么选也不是满分,很奇怪。

2024-06-07 10:21:06 314

原创 浙江工商大学操作系统作业四

在多线程的进程中,下面的部分是被该进程中的所有线程共享的:全局变量:全局变量存储在进程的数据段中,对所有线程都是可见的,因此被所有线程共享。堆内存:堆内存是由进程动态分配和管理的内存区域,对所有线程都是可见的,因此被所有线程共享。而下面的部分是不被线程共享的:栈内存:每个线程都有自己独立的栈内存,用于存储局部变量、函数调用信息等,因此不同线程之间的栈内存是相互独立的。寄存器值:寄存器值是保存在CPU寄存器中的数据,通常是线程私有的,因此不同线程之间的寄存器值是不共享的。

2024-06-06 20:25:13 266

原创 浙江工商大学操作系统作业三

fork() 函数是用于创建一个新的进程的系统调用。调用 fork() 函数后,操作系统会复制当前进程的副本,包括内存和程序状态等,并为新的进程分配一个唯一的进程ID。这样就得到了一个父进程和一个子进程,它们几乎完全相同,唯一的区别是在返回值上。对于父进程,fork() 返回新创建子进程的进程ID,而对于子进程,fork() 返回0。这样就可以根据返回值的不同来区分父进程和子进程,从而使得程序可以根据需要分叉出新的进程来执行不同的任务。子进程修改value的值并不会影响父进程的值。

2024-06-06 20:06:20 280

原创 浙江工商大学操作系统作业第二章

最后还是错的,但不知道为什么。

2024-06-06 19:23:48 224

原创 操作系统作业

陷阱指令可以由用户程序有意地发出?

2024-06-06 14:42:31 284

原创 gensim报错 : TypeError: ‘Word2Vec‘ object is not subscriptable

# 原来的代码:出现报错的地方 print(model['sentence'])## 修改后的代码 print(model.wv['sentence'])

2023-11-22 11:10:24 334 1

原创 AttributeError: The vocab attribute was removed from KeyedVector in Gensim 4.0.0.Use KeyedVector‘s

# 错误代码:## 正确代码:更改参数名字。

2023-11-22 11:08:52 194 1

原创 AttributeError: The vocab attribute was removed from KeyedVector in Gensim 4.0.0.Use KeyedVector‘s

因为参数名称已更新,官网找新参数名。

2023-11-22 10:57:47 102 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除