EngineerHuang-优快云博客

原创【视觉多模态】- PnP（Perspective-n-Point）问题与多视角三角化

摘要：PnP（Perspective-n-Point）和多视角三角化是2D到3D映射的关键技术。PnP通过已知3D-2D点对应关系求解相机位姿，确定相机在3D空间中的位置和姿态，而非直接映射2D点到3D坐标。多视角三角化则通过多个摄像头在同一时刻对同一物体的2D观测，融合为3D世界坐标信息。两者共同解决了从2D图像重建3D场景的问题，在人员轨迹生成等项目中具有重要应用。

2025-12-25 16:42:20 230

原创【视觉多模态】- 基于视觉的人（车）轨迹生成方案调研（二）

本文调研了基于视觉多模态的机场人员轨迹生成方案，重点分析了3D建模与轨迹呈现技术。商业闭源的Pixel2Geo引擎可实现厘米级精度的实时地理坐标映射，而开源替代方案如OpenSfM+COLMAP组合需离线处理。在3D建模方面，推荐Meshroom、OpenMVG等高精度重建工具，以及新兴的PartCrafter单图建模方案。针对轨迹生成，EasyRet3D、SDNet等技术能解决多视角融合和遮挡问题。建议根据实际需求选择技术路线，平衡精度与实时性要求。

2025-12-23 15:02:02 799

原创【众包 + AI智能体】AI境生态巡查平台边防借鉴价值专项调研——以广西边境线治理为例

构建“政府监管+企业技术+公众参与”的三元协同体系，通过API接口打通河湖长办公室、环保、城管等9大部门数据链路，实现“发现异常-智能派单-处置反馈-结果核验”的全流程闭环管理。针对公众参与设计轻量化入口，市民通过微信公众号即可完成“拍照+定位”的异常线索上报，平台通过AI初筛（排除无效信息）+专员复核的机制，将公众参与有效率从传统模式的不足5%提升至32%。这种模式既激活了社会治理资源，又通过多方联动降低了部门推诿概率。

2025-12-15 16:28:30 634

原创【众包 + AI智能体】全球“AI+众包”智能体平台业务类型与发展前景分析

全球“AI+众包”智能体平台市场呈现爆发式增长，预计2025年规模突破10亿美元，中国市场占比50%。平台基于人机协同深度形成五大业务梯度：纯人模式（15%）、0.75人模式（30%）、半人模式（35%）、0.25人模式（18%）和全自动模式（2%）。该模式通过AI与人类最优组合实现降本增效与质量升级，商业模式从单一佣金转向多元收益体系。2030年全球市场规模预计超100亿美元，中国占比将达60%，增长动力来自技术突破、场景需求和生态协同。未来需突破技术替代瓶颈、数据安全等制约因素，聚焦垂直领域和跨境市场。

2025-12-15 16:26:08 586

原创【众包 + AI智能体】全球_AI+众包_智能体平台全景图：超越网易有灵的创新商业模式

**AI+众包智能体平台**是融合"人工智能+人类智能"的新型协作平台，通过**人机协同模式**完成任务，兼具效率与质量优势。**市场规模**：2025年全球AI众包市场突破10亿美元，年增长率50%+；中国市场占比约50%，达500亿元人民币。**典型代表**：网易有灵(中国)、Amazon Mechanical Turk(美国)、Scale AI(美国)、MuleRun(全球)

2025-12-15 16:24:56 1193

原创【码农日常】- docker安装时的鬼魅‘your-proxy’

摘要本文记录了Docker安装过程中常见的"your-proxy"报错问题。作者发现该问题源于~/.docker/config.json配置文件中的代理设置，文件中默认配置了无效的代理地址"http://your-proxy:port"。这个配置会导致Docker在安装或运行时出现连接问题。文章提供了该配置文件的示例内容，帮助开发者快速识别和解决此类代理配置问题。

2025-12-12 10:21:55 135

原创【docker安装部署】- 一个可用的Docker 镜像配置和 DNS配置

本文分享了Docker安装部署的两个关键配置：1）镜像配置，通过在/etc/docker/daemon.json中添加DaoCloud和1ms的镜像源加速下载；2）DNS配置，建议修改/etc/systemd/resolved.conf文件，移除8.8.8.8，保留114DNS或改用阿里云DNS（223.5.5.5/223.6.6.6）。这两个配置解决了作者长期遇到的Docker安装卡顿问题，使安装过程更加顺畅。（99字）

2025-12-10 17:47:23 211

原创【众包 + AI智能体】网易有灵众包与有灵智能体平台

网易有灵众包与智能体平台是网易伏羲旗下的人机协作系统。有灵众包提供数据标注等兼职任务，用户通过手机APP接单赚取积分（100分=1元），适合个人灵活就业；智能体平台则基于AOP框架，实现AI与人类智能体的深度协作，支持团队创业和技术开发者API接入，提供更高阶的赚钱模式。两者结合形成从数据采集到模型应用的闭环，平台具备任务自动拆解、智能调度等功能，支持规模化运作，但需注意本地模型部署与商业成本的平衡。

2025-12-10 13:46:10 1083

原创【图文多模态自动标注】- 技术路线与开源项目调研

本文提出了一种基于"剔除-填补"等效性的图文多模态自动标注技术方案。该方案采用三阶段流程：1)使用Grounding DINO+SAM2组合进行物体识别与分割；2)通过LaMa或Stable Diffusion Inpaint进行精准剔除与背景填补；3)利用ViT-L/14 DINOv2等模型校验填补效果。开源项目Grounded-Segment-Anything整合了检测、分割和修复全流程，在48G RTX4090等高端硬件上可流畅运行。相比直接生成，该方法通过逆向操作实现了更精准的图

2025-12-09 18:25:45 1030

原创【3D标注】- Unreal Engine 5.7 与 Python 交互基础

本文介绍了在Unreal Engine 5(UE5)中使用Python进行3D标注开发的方法。主要内容包括：1) UE5提供了实验性的Python API接口，包含超过10000个函数；2) 详细说明了4种执行Python代码的方式：通过OutputLog控制台执行脚本或单句代码、使用Tools工具菜单、以及通过UnrealEditor-Cmd.exe命令行工具。文章还指出虽然Python接口功能强大，但目前仍处于实验阶段，尚未达到商用成熟度。这些方法为开发者提供了在UE5中实现3D标注和虚拟化开发的多种技

2025-12-09 15:28:01 303

原创【3D标注】- 世界模型样本标注【配完整源代码】

本文提出了一套在Windows环境下采集3D虚拟世界交互行为数据的方案。该方案通过监听指定窗口的键鼠操作，生成结构化JSON标注文件，用于构建多模态交互行为数据库。方案明确了9项核心采集标准，包括环境多样性、交互丰富性、操作同步精度等要求。调研了4个主流开源强化学习平台（Unity ML-Agents等）的适用性，并开发了基于Python的录制系统，可同步捕获屏幕视频和输入事件，确保时间偏差小于100ms。系统支持自定义分辨率（≥2560×1440）和帧率（≥24fps），满足机器学习对数据质量的一致性要求

2025-12-05 14:44:00 711

原创【音频标注】- 大模型部署资源极致利用方案尝试（一）

本文探讨了大模型部署资源极致利用方案，重点分析了KTransformers和Llamafile两种工具。KTransformers通过CPU-GPU异构计算优化LLM推理，支持多种模型但仅限文本处理。Llamafile提供一键部署方案，将模型打包为可执行文件，支持64种涵盖文本、代码、多模态等任务的模型。研究发现当前框架对1.58bit动态量化模型支持有限，建议进一步研究KTransformers、Unsloth等工具以提升GPU利用率。文章还对比了不同量化方案（如Q5_K_M/Q5_K_S）在资源优化中的

2025-12-03 11:57:08 138

原创【音频标注】- deepseek-R1满血版 1.58 Bit模型落地部署（五）

本文记录了在Ubuntu 24.04系统上部署deepseek-R1 1.58 Bit模型的过程。重点解决了CUDA驱动与系统版本的兼容性问题，详细说明了CUDA 12.5工具包的安装步骤，包括系统更新、旧版本清理和正确安装方法。文章还提供了完整的开发环境配置（Python 3.11.14、Torch 2.9、flash-attn 2.8.3等），并分享了两种模型调用方式：直接运行脚本和通过端口暴露服务。最后给出了权限问题的解决方案和关键注意事项，强调从驱动到系统的严格匹配要求。

2025-12-01 18:12:39 541

原创【音频标注】- deepseek-R1满血版 1.58 Bit模型落地部署（四）

本文记录了在Docker容器中部署deepseek-R1 1.58Bit大模型的过程。作者首先清理了无关Docker容器，新建容器并挂载必要路径，但在安装Anaconda和构建虚拟环境时遇到代理配置错误。通过排查发现环境变量中的无效代理设置，清除后解决了apt更新问题。随后尝试安装NVIDIA驱动535版本以支持CUDA 12.1，但出现"Failed to initialize NVML"错误。文中详细记录了问题定位和解决步骤，包括代理清除、驱动安装等关键操作，为类似环境下的AI模型部

2025-11-30 10:57:42 745

原创【音频标注】- deepseek-R1满血版 1.58 Bit模型落地部署（三）

【摘要】本文详细记录了KTransformers高性能AI推理框架在Ubuntu服务器上的部署过程。面对CUDA路径识别异常、Python头文件缺失、C++扩展编译失败等多项技术挑战，通过系统性环境修复（安装Python开发包、显式设置CUDA路径）、手动编译策略（进入源码目录构建CMake）、智能安装优化（禁用依赖检查）等创新解决方案，成功构建了支持RTX 4090 GPU加速的推理环境。最终实现了3-5倍的推理速度提升，支持百亿参数模型的高效部署，建立了包含分层权重加载和CPU-GPU混合计算的企业级A

2025-11-26 15:29:15 807

原创【音频标注】- deepseek-R1满血版 1.58 Bit模型落地部署（二）

本文介绍了基于Docker部署DeepSeek-R1大模型的具体过程。首先阐述了显卡驱动、CUDA Toolkit等基础概念及其在宿主机和容器中的层级关系。然后详细记录了部署步骤：包括创建新Docker容器、处理flash_attn安装包、解决Torch版本冲突等问题。文中特别指出AutoDL环境下持久化存储的特殊性，并提供了虚拟环境迁移和假nvcc脚本的解决方案。最后描述了ktransformers的安装过程，以及在遇到问题时采取的容器重置措施。整个过程展现了深度学习模型部署中的典型挑战和应对方法。

2025-11-25 16:36:44 822

原创【音频标注】- deepseek-R1满血版 1.58 Bit模型落地部署（一）

本文介绍了DeepSeek-R1满血版1.58Bit模型的落地部署过程。采用Unsloth+KTransformer方案进行动态量化，预计占用显存10G-16G，内存约60G。部署中遇到flash-attention下载中断、GCC版本过高、CUDA版本冲突等问题，通过软链接解决libcudart缺失、降级GCC至12版本等方式处理。最终因CUDA版本冲突，建议采用Docker方案实现多版本共存。整个过程详细记录了环境配置、报错分析和解决方案，为类似大模型部署提供了参考经验。

2025-11-18 11:52:29 407

原创【视觉多模态】- 基于视觉的人（车）轨迹生成方案调研

摘要：本文提出一套基于视觉的嫌疑人（车）轨迹推演系统，通过视频结构化和以图搜图技术实现目标追踪。系统首先利用VideoPipe对海量监控视频进行结构化处理，提取目标特征构建数据库；然后通过特征向量比对实现快速目标检索；最后结合时空信息和Video-Analyzer深度分析生成轨迹报告。方案核心在于将非结构化视频数据转化为可查询的结构化数据，关键技术包括目标检测、特征提取和相似度计算。系统难点在于完美的跨帧特征构建和相似度距离定义，但为海量视频检索提供了高效解决方案。

2025-11-04 17:29:40 1104

原创【码农日常】万能的huggingface镜像中国站点

为解决huggingface模型下载问题，推荐使用国内镜像站点hf-mirror.com。通过在终端设置环境变量export HF_ENDPOINT=https://hf-mirror.com，成功解决了whisper X模型和扩散模型下载卡顿的问题。该镜像站为国内用户提供了稳定高效的模型下载服务。

2025-11-03 18:01:16 167

原创【金融】- pdfplumber：从 pdf 到 md

【金融】- pdfplumber：从 pdf 到 md

2025-10-18 04:45:00 147

原创【金融】- LlamaParse：多模态pdf解析【缺APIKEY】

【金融】- 基于 pdf 一步步构建知识图谱【一，LlamaParse，失败】

2025-10-17 04:45:00 388

原创【音频标注】- 音频样本分析

【音频标注】- 音频样本分析

2025-10-16 04:45:00 1510

原创【金融】- 工具组合调研：基于pdf构建知识图谱

【金融】-工具组合调研：基于pdf构建知识图谱

2025-10-15 04:45:00 518

原创【挖掘】- 样本质量诊断之样本熵

多变量滚动样本熵（固定时间区间滚动计算）样本熵的计算涉及一段时间区间的时间序列，因此并不是每个样本对应一个熵值，而是一段时间区间的时间序列数据（二维数据表）对应一个熵值。为了每个样本有一个值，常用的方法是进行固定时间窗口的滚动计算。重要参数有：窗口长度 (Window Size)、滑动步长 (Step Size)、样本熵参数 (m, r)。

2025-10-14 11:33:21 1224

原创【音频标注】- 音频标注开源工具 Label Studio 安装教程

音频标注开源工具 Label Studio 安装教程

2025-10-14 09:08:01 544

原创【码农日常】ERROR: No matching distribution found for graph-maker

码农日常

2025-10-14 04:45:00 179

原创【码农日常】- 断电重启 ZeroTier 失效

算法工程师日常排bug：zerotier重启。

2025-10-13 04:45:00 557

原创【旅游+AI】演员变景区NPC（旅游价值信息）

【旅游+AI】有效IP：自带流量的景区艺人

2025-10-12 04:45:00 372

原创【金融】- 10月11日美股Flush复盘-记录关键时刻的价值信息

【金融】- 10月11日美股Flush复盘-记录关键时刻的价值信息

2025-10-11 19:00:00 467

原创【音频标注】- 音频标注项目调研

【音频标注】- 音频标注项目调研

2025-10-10 04:45:00 887

原创【金融】- findpapers：论文搜索与下载工具

金融 - findpapers：论文搜索工具

2025-10-09 04:45:00 713

原创【金融】- 搭建图谱挖掘工作流调研

知识图谱的多样性由目标、语义、规则等决定金融图谱工作流融合KG+LLM+多智能体技术主要挑战：数据质量、计算资源、协议标准化解决方案：利用Neo4j、AutoGen等现有工具搭建系统应用方向：就业规划、投资分析、创投机会挖掘

2025-10-08 15:18:42 1217

原创【金融】 - neo4j、Graph Data Science 安装

neo4j、Graph Data Science 安装、neo4j的远端访问、zerotier外网穿透使用介绍

2025-10-06 21:57:07 1340

原创第三次csv导入构建知识图谱

第三次csv导入构建知识图谱

2025-10-02 04:45:00 773

原创隐式关系发现: 相似结构节点、GNN（二）【核心小用途：挖掘隐藏连接】

隐式关系发现: 相似结构节点、GNN（二）【核心小用途：挖掘隐藏连接】

2025-10-01 04:45:00 1437

原创基于PySpark底座设计AI算子架构及其技术栈分析

摘要本文探讨了基于PySpark底座的AI算子架构设计，旨在支持多样化的AI计算需求。面临的主要挑战包括处理大型不可分割数据（如高分辨率图像、视频）和不同规模模型训练场景（从单卡到显存不足情况）。技术栈分析显示，应重点支持单卡和多卡分布式训练场景。架构设计需要平衡易用性与灵活性，以应对从简单到复杂的各种AI计算任务，同时充分利用PySpark的分布式数据处理能力。

2025-09-30 04:45:00 405

原创 APOC（Awesome Procedures On Cypher）的安装

APOC 是 Neo4j 的扩展插件，提供高级功能如图算法、数据导入/导出和复杂路径查询，需手动下载兼容版本的 JAR 文件并安装到插件目录。安装过程包括文件复制、权限设置和配置修改，需注意避免重复配置项导致启动失败。APOC 可显著提升大数据处理效率，但基础功能可不安装。安装成功后，可通过 Cypher 调用 APOC 过程进行复杂查询。

2025-09-29 04:45:00 1166

原创导入csv构建知识图谱并进行图谱完备性验证

验证知识图谱完备性的关键指标，并详细记录通过Python脚本将CSV数据导入Neo4j构建知识图谱的过程。主要内容：知识图谱完备性验证的11个关键点，涵盖实体、关系、属性、数据完整性和结构正确性等方面使用py2neo库实现数据导入的具体代码实现，包括：数据清洗和格式转换批量处理机制（每500条提交一次）节点和关系的创建与合并错误处理和日志记录代码解决了电话号码强制类型转换、空值处理等常见问题支持多种实体类型（电话号码、基站、位置等）和关系类型的构建该过程确保知识图谱构建的完整性和数据质量

2025-09-28 04:45:00 1338

原创 “全国景区活动资讯库”设计与落地计划

本文提出构建AI驱动的全国景区活动资讯库，采用YOLO+OCR+大模型等智能技术进行数据采集处理，规避版权风险并形成数据资产。通过Scrapy、Selenium等工具建立多源数据采集系统，重点抓取文旅局、景区官网及旅游平台信息。商业模式包括运营旅游资讯账号、销售数据报告及技术服务变现。建议采用MVP策略快速验证，初期投入控制在5000元内，通过A/B测试验证市场需求。该方案瞄准中国万亿级旅游市场，通过解决游客信息差和景区引流痛点，有望在AI旅游数据服务领域占据可观份额。

2025-09-27 04:45:00 1732

原创给旅游专业还有1年毕业妹妹设计一个未来发展蓝图

《旅游+计算机交叉领域职业规划蓝图》针对20岁旅游大专生（有计算机基础），以“AI驱动的沉浸式旅行体验设计”为核心方向。分阶段：初期打造全国景区活动资讯库，建立数据资产；中期扩展平台生态，整合小众文化资源；后期标准化数字化实现价值跃升。重点突破旅游同质化痛点，专注非遗文化深度体验，利用AI个性化推荐。职业路径：1年内完成旅游大数据项目→获取实习→转型旅游科技产品经理或文化体验设计师。需培养属地文化知识、数据分析能力、产品设计思维，构建“非标资源+技术赋能”竞争壁垒。

2025-09-26 04:45:00 1125

空空如也

空空如也