- 博客(36)
- 收藏
- 关注
原创 Git命令全集:从Fork到PR完整流程
bash# 克隆你的Fork仓库到本地git clone https://github.com/你的用户名/仓库名.git# 进入项目目录cd 仓库名。
2025-11-21 21:25:46
260
原创 GitHub Fork到PR全流程操作指南
小步提交:每个功能点单独提交描述清晰:提交信息说明"做了什么"和"为什么"定期同步:每天从上游main分支拉取更新。
2025-11-21 21:16:15
951
4
原创 GitHub项目协作完整指南:从Fork到本地开发
Fork→ 创建个人副本Clone→ 下载到本地Branch→ 创建功能分支Code→ 在正确分支上开发Commit→ 定期提交更改Push→ 推送到你的仓库PR→ 发起合并请求。
2025-11-19 22:19:19
1084
原创 大模型数据筛选、分类、生成任务,满足并发速度和处理准确要求
本阶段旨在系统提升原始数据质量,消除噪声与不一致性,并通过增强手段丰富数据信息,为模型训练与推理提供高质量数据支持,确保生成、分类、筛选等任务的准确性、鲁棒性和可靠性。本阶段旨在通过并发技术高效调度大模型 API 请求,在遵守服务配额限制、保障系统稳定性的前提下,最大化处理吞吐量,满足大规模数据处理需求。:通过系统化方法设计高质量提示词,精准引导大模型输出预期结果,确保生成、分类、筛选等任务的稳定性和准确性。清晰具体的指令能有效约束模型行为,提高结果的可预测性。:移除干扰模型处理的无效字符。
2025-10-22 11:50:33
939
原创 处理视频抽帧并转换成json
之前想的用哈希创造处理中间文件名,处理完之后再把文件名换回去这个方法只能在小数量的情况下临时用用,哈希会冲突,表太大了内存不够。慎用.get,因为会有默认值,在数据量大的时候会掩盖问题。参数:它的参数数量是否很少(<4)?副作用:它是否有不可预知的副作用?一个好的函数参数不宜过多(少于3-4个),名字要清晰,功能要单一。职责:它是否只有一个修改代码状态的理由?名字:它的名字是否清楚地表明了它只做的那一件事?长度:它是否足够短?文档:它是否有清晰的文档字符串和类型提示?返回:它是否有明确、单一的返回值?
2025-09-23 17:21:26
404
原创 ChromaDB探索
A: 这是 ChromaDB 提供的一个便捷功能。A: 不,向量不是客观的。A: ChromaDB 是一款开源的向量数据库。A: 因为向量相似度计算(如余弦相似度)只有在由同一个模型生成的向量之间进行才有意义。如果你想尝试不同的模型,必须为每个模型创建独立的系统和独立的向量库。A: 在固定模型架构和训练目标的前提下,会的。RAG 核心原则:整个系统的向量必须由同一模型生成,否则失效。
2025-09-16 17:02:43
572
原创 并发编程核心要点与专业应对策略
实际应用中,建议基于具体业务场景灵活组合这些策略,从简单方案入手,循序渐进地优化。• 时间戳记录:为每个数据项附加原始事件发生时间戳 • 窗口聚合:基于事件时间进行窗口化计算 • 延迟处理:通过水位线机制处理迟到数据。• 线程池性能:活跃线程数量、任务队列深度、拒绝任务计数。• 系统资源状态:CPU利用率、内存占用、I/O等待时长。• 业务健康度:请求吞吐量、延迟百分位值、错误发生率。• 将TraceID注入日志上下文和监控数据。• 快速失败机制:下游异常时立即阻断。• 故障隔离:防止级联故障与资源枯竭。
2025-08-28 02:06:11
795
原创 .tell()是做什么的
函数打开一个文件时,Python 会创建一个文件对象,这个对象内部维护着一个。)数据时,这个指针会自动向后移动,移动的距离等于你读取或写入的字节数。:它 simply 返回这个指针当前所在的字节位置。) 刚打开一个文件时,这个指针通常位于文件的。:当你以读取模式 (
2025-08-27 12:04:35
216
原创 CSV 字典写入器(DictWriter)
特性说明核心优势字段名映射,提升代码可读性主要方法writerow()最佳场景处理结构化字典数据注意事项需处理字段缺失和额外字段情况是处理CSV文件的理想选择,特别适合需要明确字段名或已使用字典结构组织数据的场景,能显著提升代码的可维护性。
2025-08-27 11:59:32
427
原创 with语句
特性描述核心目的用于资源管理和异常处理的优雅抽象。关键机制基于实现了和__exit__()方法的上下文管理器。主要优点代码简洁、资源安全(自动清理)、更好的异常处理。常见应用文件操作、线程锁、数据库连接、网络连接等。简单来说,只要你需要“用完即关”或“用完即还”的资源,就应该优先考虑使用with语句。它是编写健壮、清晰 Python 代码的最佳实践之一。
2025-08-27 11:18:14
333
原创 类型注释是什么
Python 的类型注释(Type Annotations 或 Type Hints)是 Python 3.5+ 版本引入的重要特性。简而言之,类型注释是面向"开发者"和"工具"而非"Python解释器"的。Python解释器在运行时不会因类型不匹配而报错或停止执行。类型注释仅作为提示,动态类型仍是Python的核心特性。这种机制就像为代码编写"使用说明",能清晰地标明变量、函数参数和返回值的预期类型,既方便开发者理解,也便于工具进行检查。仅为核心模块添加注释即可,原有未添加类型注释的代码仍能正常运行。
2025-08-27 10:54:49
363
原创 Python 装饰器详解
装饰器(Decorator)是 Python 中一种强大的语法特性,它允许你在的情况下,动态地。装饰器本质上是一个高阶函数(接受函数作为参数并返回函数),通过符号简洁地应用到目标函数上。
2025-08-21 14:01:42
505
原创 处理大量数据时的数据对齐
在大数据处理中,系统中断是常态而非异常。通过合理的容错设计,我们能够减少对"完美运行环境"的依赖。选择合适的方案,实现"中断后一键恢复"的高效处理体验。
2025-08-15 11:05:04
302
原创 hugging face 注册报错418
,多数问题可快速解决。网络切换一个地方不行就多尝试几个地方,我是美国,香港,台湾,都试了好几次最后美国的成功了。
2025-07-22 10:11:05
3145
原创 提示词总结,增强代码健壮性,定时运行代码
日志系统:不同级别日志(INFO/WARNING/ERROR)3. **资源安全**:保证文件/网络连接等资源释放。- 资源限制:大文件处理时限制内存使用(流式读取)2. **错误处理**:关键路径必须包含异常捕获。1. **防御性编程**:所有外部输入均需验证。- 中断恢复:支持断点续处理(记录已扫描文件)4. **可配置性**:将常量提取为配置参数。5. **模块化设计**:功能拆分为独立函数。6. **详细日志**:关键操作记录执行状态。- 输入验证:检查目录存在性,处理无效字符。
2025-07-18 10:10:52
201
原创 程序定时运行,解放双手,提前下班!
方案类型最佳应用场景实现复杂度推荐频率关键优势操作系统调度生产环境稳定任务★★☆☆☆天/小时级无需保持进程运行Python schedule开发/测试环境★★★☆☆分钟级简单易用,Python集成sched延迟执行单次延时任务★☆☆☆☆单次特定时间精确控制执行时间实现3小时后运行2. 每日定时任务 (操作系统级)3. 分钟级循环 (Python schedule)三、API密钥安全处理方案最佳实践(三选一):
2025-07-18 10:02:44
338
原创 labelme与coco与yolo的对比
自包含性:单文件集成图像+标注 (Base64编码)几何多样性:支持非矩形标注(多边形/圆等)✅ 需要复杂形状标注(医学影像/卫星图)规避方案:COCO需额外预处理坐标归一化。规避方案:Labelme需自定义扩展字段。任务集成:单文件支持检测/分割/关键点。元数据丰富:完备的类别/许可/作者信息。:JSON分片存储(如LVIS数据集)规避方案:YOLO矩形框丢失形态信息。:基于WebSocket的协同标注。需求:发布包含17关键点的数据集。:TXT文件比JSON小10倍。需求:在嵌入式设备实时检测零件。
2025-07-08 14:03:19
438
原创 浙江工商大学操作系统作业四
在多线程的进程中,下面的部分是被该进程中的所有线程共享的:全局变量:全局变量存储在进程的数据段中,对所有线程都是可见的,因此被所有线程共享。堆内存:堆内存是由进程动态分配和管理的内存区域,对所有线程都是可见的,因此被所有线程共享。而下面的部分是不被线程共享的:栈内存:每个线程都有自己独立的栈内存,用于存储局部变量、函数调用信息等,因此不同线程之间的栈内存是相互独立的。寄存器值:寄存器值是保存在CPU寄存器中的数据,通常是线程私有的,因此不同线程之间的寄存器值是不共享的。
2024-06-06 20:25:13
266
原创 浙江工商大学操作系统作业三
fork() 函数是用于创建一个新的进程的系统调用。调用 fork() 函数后,操作系统会复制当前进程的副本,包括内存和程序状态等,并为新的进程分配一个唯一的进程ID。这样就得到了一个父进程和一个子进程,它们几乎完全相同,唯一的区别是在返回值上。对于父进程,fork() 返回新创建子进程的进程ID,而对于子进程,fork() 返回0。这样就可以根据返回值的不同来区分父进程和子进程,从而使得程序可以根据需要分叉出新的进程来执行不同的任务。子进程修改value的值并不会影响父进程的值。
2024-06-06 20:06:20
280
原创 gensim报错 : TypeError: ‘Word2Vec‘ object is not subscriptable
# 原来的代码:出现报错的地方 print(model['sentence'])## 修改后的代码 print(model.wv['sentence'])
2023-11-22 11:10:24
334
1
原创 AttributeError: The vocab attribute was removed from KeyedVector in Gensim 4.0.0.Use KeyedVector‘s
# 错误代码:## 正确代码:更改参数名字。
2023-11-22 11:08:52
194
1
原创 AttributeError: The vocab attribute was removed from KeyedVector in Gensim 4.0.0.Use KeyedVector‘s
因为参数名称已更新,官网找新参数名。
2023-11-22 10:57:47
102
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅