- 博客(2514)
- 资源 (18)
- 收藏
- 关注
原创 动态规划实战:如何实现搜索引擎中的拼写纠错功能?
我们可以用一个二维数组dp[i][j]来表示将错误单词的前i个字符转换为正确单词的前j个字符所需的最少编辑操作次数。通过动态规划,我们可以有效地实现搜索引擎中的拼写纠错功能。这个方法不仅能够准确地找到与错误单词最接近的正确单词,而且具有较高的效率。在实际应用中,可以根据具体情况对算法进行优化,例如使用哈希表等数据结构来加速查找正确单词的过程。希望本文能够帮助你更好地理解动态规划在拼写纠错中的应用。
2024-09-21 00:00:00
330
1
原创 elasticsearch亿级数据性能调优实战指南
文章目录慢查询日志es优化黄金原则1、搜索结果不要返回过大的结果集2、避免超大的document3、避免稀疏的数据(1)避免将没有任何关联性的数据写入同一个索引(2)对document的结构进行规范化/标准化(3)避免使用多个types存储不一样结构的document(4)对稀疏的field禁用norms和doc_values写入性能优化1、用bulk批量写入2、使用多线程将数据写入es3、增加r......
2019-10-14 22:34:32
291765
原创 elasticsearch的底层模块深入解析
文章目录shard分配相关的配置及原理1、shard allocation的介绍2、cluster level shard allocation(1)shard allocation settings(2)shard rebalance settings(3)shard balance heuristics3、disk-based shard allocation4、shard allocatio...
2019-10-14 18:12:56
903
原创 生产环境Elasticsearch索引管理篇
索引创建修改删除压缩及滚动创建1、创建索引(1)创建索引的语法用settings给这个索引在创建时可以添加一些设置,还有可以初始化一些type的mappingcurl -XPUT 'http://elasticsearch02:9200/twitter?pretty' -d '{ "settings" : { "index" : { "nu...
2019-10-14 17:30:33
807
原创 Promise执行流程分析
先上代码console.log(1);new Promise(function (resolve, reject){ reject(true); window.setTimeout(function (){ resolve(false); }, 0);}).then(function(){ console.log(2);}, function...
2019-01-17 10:06:39
2252
原创 linux conf配置文件(全)
用户账号相关etcprofilebash_profileetcbashrcbashrcbash_logout用户环境配置 bash_profilebashrc和bash_logoutetcgshadow网络配置修改IP地址等网络相关的配置文件 etcsysconfignetwork-scriptsifcfg-ethetcsysconfignetwork 网关配置相关的配置文件e
2017-09-22 15:52:22
23457
原创 用户访问网站基本流程及原理(史上最全,没有之一)
[TOC] 用户访问网站流程框架第一步:客户端用户从浏览器输入www.baidu.com网站网址后回车,系统会查询本地hosts文件及DNS缓存信息,查找是否存在网址对应的IP解析记录。如果有就直接获取到IP地址,然后访问网站,一般第一次请求时,DNS缓存是没有解析记录的;第二步:如果客户端没有DNS缓存或hosts没有对应www.baidu.com网站网址的域名解析记录,那么,系统会把浏览器的
2017-06-04 10:38:28
37134
8
原创 3.45 复杂场景下的规划问题:多目标优化、动态规划、启发式算法
本文探讨了复杂场景下的三大规划方法:多目标优化处理多个目标函数(如加权求和、Pareto最优),适用于资源分配等场景;动态规划利用最优子结构特性解决最短路径等问题;启发式算法(遗传算法、模拟退火等)模拟自然现象处理复杂优化问题。文章建议根据问题特性选择方法,强调理解问题本质和持续优化的重要性,并预告了后续将介绍旅行商问题的实战解法。这些方法为解决实际工程中的复杂规划问题提供了系统化的解决思路。
2026-01-10 22:39:19
4
原创 3.44 Santa接待安排案例:用运筹规划优化活动安排,提升效率
本文介绍了使用运筹规划优化Santa接待安排的方法。首先定义了问题目标(最大化接待数量/最小化时间)和约束条件(时间、地点、资源限制)。然后建立了优化模型,包含决策变量、目标函数和约束条件(如时间段唯一性、活动必安排等)。最后总结了三个核心要点:问题建模、约束设计和求解优化,并提出了实践建议(深入理解问题、正确建模、持续优化)。案例展示了如何运用运筹学方法提升活动安排效率,为复杂规划问题提供了解决思路。
2026-01-10 22:38:43
4
原创 3.43 Google OR-Tools详解:企业级运筹优化工具,功能强大的规划求解器
OR-Tools概述"""OR-Tools概述"""print("OR-Tools概述")'特点': ['功能强大','支持多种问题','企业级工具'],'支持问题': ['线性规划','整数规划','约束规划','车辆路径问题','调度问题'# OR-Tools概述 def ortools_overview() : """OR-Tools概述。
2026-01-10 22:38:03
3
原创 3.41 运筹规划问题入门:线性规划、整数规划、混合整数规划详解
本文系统介绍了运筹规划中的三种核心方法:线性规划(LP)、整数规划(IP)和混合整数规划(MIP)。线性规划适用于连续变量优化问题,整数规划要求变量为整数,而混合整数规划则结合了连续和整数变量。文章通过Python代码示例展示了各类规划问题的模型构建方法,包括变量定义、目标函数和约束条件设置。同时介绍了相应的求解算法(如单纯形法、分支定界法)和常用工具(PuLP、Gurobi等)。最后提出了模型建立、求解方法选择等实践建议,为运筹优化问题的解决提供了系统指导。
2026-01-10 22:35:05
2
原创 3.40 AI大赛实战:钢铁缺陷检测,从数据预处理到模型调优完整流程
本文介绍了钢铁缺陷检测AI大赛的完整实战流程。内容涵盖从数据预处理(清洗、增强、标注)到模型训练(YOLO/Faster R-CNN选择、训练策略)再到模型调优(超参数优化、数据增强策略、模型融合)的全过程。文章强调数据质量的重要性,建议尝试不同模型对比效果,并持续优化。最后提出了三个关键思考问题:预处理流程设计、模型选择依据和效果优化方法,为读者提供了清晰的实践指南。
2026-01-10 22:34:22
3
原创 3.38 工业缺陷检测实战:物体表面缺陷检测,从图像处理到深度学习
本文介绍了工业缺陷检测的完整流程,从传统图像处理到深度学习方法。首先定义了缺陷检测任务的目标和应用场景,然后详细讲解了传统图像处理方法(边缘检测、阈值分割等)和深度学习方法(分类、检测、分割模型)。文章最后总结了核心要点,提出了思考题和实践建议,建议从简单方法开始逐步优化。下一篇将介绍工业视觉基础技术——相机标定与角点检测。
2026-01-10 22:32:53
3
原创 3.37 YOLO算法演进史:从V1到V11,实时目标检测的完整发展历程
演进历程:从V1到V11持续改进核心改进:Anchor、多尺度、特征金字塔应用价值:实时检测,广泛应用。
2026-01-10 22:31:50
2
原创 3.36 FasterRCNN算法详解:RPN网络,两阶段检测的巅峰之作
RPN网络:生成候选区域端到端训练:联合训练RPN和Fast R-CNN效果提升:速度和效果都提升。
2026-01-10 22:31:05
4
原创 3.35 FastRCNN算法详解:RoI Pooling、多任务损失函数,速度提升10倍
共享特征提取多任务损失:端到端训练速度提升:10倍速度提升。
2026-01-10 22:30:25
124
原创 3.34 RCNN算法详解:Selective Search、IOU、NMS,目标检测的开山之作
R-CNN的流程:候选区域生成 -> 特征提取 -> 分类 -> 边界框回归# R-CNN流程"""R-CNN流程"""print("R-CNN流程")'步骤1:候选区域生成': 'Selective Search生成候选框','步骤2:特征提取': 'CNN提取特征','步骤3:分类': 'SVM分类','步骤4:边界框回归': '精确定位'# R-CNN流程 def rcnn_pipeline() : """R-CNN流程。
2026-01-10 22:29:43
3
原创 3.33 图像分类、目标检测、实体分割:计算机视觉三大任务详解
本文系统介绍了计算机视觉三大核心任务:图像分类、目标检测和实体分割。图像分类用于判断整张图像的类别(CNN/ResNet),目标检测定位和分类图像中的目标(YOLO/R-CNN),实体分割实现像素级分类(U-Net/DeepLab)。文章通过代码示例展示了各任务的定义、方法和应用场景,并对比了它们的输出粒度、复杂度和适用场景。最后提出了任务选择原则和实践建议,为计算机视觉任务的选择与应用提供了指导。
2026-01-10 22:28:45
2
原创 3.32 视觉算法在企业中的应用:从人脸识别到缺陷检测,6大应用场景
视觉算法在企业中的应用场景广泛,主要包括6大方向:1)人脸识别用于门禁、支付和安防;2)缺陷检测提升工业质检效率;3)目标检测支持安防监控和自动驾驶;4)图像分类实现内容审核自动化;5)OCR技术助力文档数字化;6)图像分割在医疗影像分析中发挥重要作用。不同场景需要匹配相应技术方案,如YOLO用于目标检测、ResNet处理图像分类等。这些应用通过提升效率、降低成本为企业创造显著价值,实施时需要深入理解业务需求并持续优化算法效果。
2026-01-10 22:28:04
2
原创 3.31 多模态AI助手搭建实战:PDF、图像、视频,全模态内容理解系统
本文介绍了一个支持PDF、图像、视频等多模态内容理解的AI助手系统。系统采用分层架构设计,包含输入层(支持多种文件格式)、处理层(各模态专用模块)、融合层(特征融合与语义理解)和输出层(问答、摘要等功能)。通过Python代码实现了PDF、图像、视频处理模块,并集成统一接口。系统优化建议包括模型压缩、异步处理和用户体验提升。该方案为构建全模态内容理解系统提供了完整实现路径和技术思路。
2026-01-10 22:26:58
1
原创 3.30 视频内容理解:InternVideo,让AI理解视频中的内容
本文介绍了视频内容理解的关键技术与InternVideo模型。视频理解面临时序信息、空间布局、多模态融合和计算复杂度等挑战。InternVideo作为先进模型,支持视频分类、动作识别、检索和问答等任务。实现过程包括帧提取、特征抽取、时序建模和特征融合。应用场景涵盖视频分类、动作识别、内容检索和摘要生成。文章最后提出优化效果、处理长视频等思考题,并建议选择合适的模型、准备高质量数据并进行持续优化。
2026-01-10 21:44:10
3
原创 3.29 多模态内容提取:Qwen-VL,图像+文本的联合理解
本文介绍了阿里提出的多模态大模型Qwen-VL,该模型支持图像和文本的联合理解。文章从多模态理解的基本概念出发,详细解析了Qwen-VL的模型特点及其在图像和文本特征提取、关联分析等方面的能力。同时探讨了多模态技术在图文检索、视觉问答、图像描述等实际应用场景中的价值。最后提出了关于多模态模型设计、优化和应用的关键思考点,并为实践者提供了模型选择、数据准备和持续优化等建议。
2026-01-10 21:42:48
3
原创 3.28 PDF内容解析实战:mPLUG-DocOwl,让AI读懂PDF文档
本文介绍了AI解析PDF文档的挑战与解决方案,重点分析了阿里提出的多模态模型mPLUG-DocOwl。文章首先阐述了PDF解析面临的格式复杂、内容多样等难题,随后详细介绍了mPLUG-DocOwl的多模态理解能力和技术特点。通过代码示例展示了PDF基础解析实现方法,并探讨了文本、图像、布局的联合理解策略。最后总结了PDF解析在问答、摘要等场景的应用价值,提出提升准确率、处理复杂布局等思考方向,为开发者提供了工具选择和实践优化建议。
2026-01-10 21:41:55
3
原创 3.27 大模型中的Embedding:ChatGPT等大模型如何理解文本语义
大模型Embedding:基于Transformer架构特点:上下文相关、预训练+微调应用:各种NLP任务选择:根据任务选择合适模型。
2026-01-10 21:40:40
3
原创 3.26 文章去重实战:用Embedding技术识别重复内容,准确率99%+
文章去重实战:基于Embedding技术的99%+准确率解决方案 本文介绍了使用Embedding技术实现高效文章去重的方法。首先定义了文章去重的任务目标和挑战,包括处理语义相似但文字不同的内容、部分重复等场景。核心解决方案采用SentenceTransformer生成文本Embedding,通过余弦相似度计算实现重复识别,支持实时处理和大规模数据。系统提供了添加文章和查找重复功能,并针对大规模应用提出了优化方案,包括使用Faiss向量数据库、局部敏感哈希(LSH)、分块处理和缓存策略等。特别展示了如何集成
2026-01-10 21:38:58
1
原创 3.25 酒店推荐系统实战:用Embedding技术构建语义相似度推荐
本文介绍了使用Embedding技术构建酒店推荐系统的完整流程。系统通过提取酒店特征(名称、描述、位置等)和用户历史偏好,利用Sentence-BERT模型生成语义Embedding,再计算余弦相似度进行个性化推荐。文章包含特征提取、Embedding生成、相似度计算和推荐生成等核心模块的实现代码,并提出了特征优化、模型改进和推荐多样性等优化方向。该系统实现了基于语义理解的酒店推荐功能,为个性化推荐场景提供了实用解决方案。
2026-01-08 12:53:22
14
原创 3.24 Word Embedding算法详解:Word2Vec、GloVe、FastText原理与实现
本文详细解析了三种经典词向量方法:Word2Vec(包含Skip-gram和CBOW模型)、GloVe和FastText。通过Python代码示例展示了各模型的实现方式,包括模型训练、词相似度计算和词类比任务。文章对比了三种方法的原理和优劣:Word2Vec基于局部上下文窗口,GloVe利用全局词共现矩阵,FastText则通过子词(n-gram)处理未登录词。最后提出实践建议,建议从Word2Vec入手,根据任务需求选择合适方法,并利用预训练模型优化效果。
2026-01-08 12:52:41
13
原创 3.23 文本向量化技术详解:从Word2Vec到BERT,Embedding技术演进史
本文系统梳理了文本向量化技术的演进历程,从静态词向量到动态上下文表示。早期Word2Vec(2013)采用CBOW/Skip-gram生成静态词向量,GloVe(2014)引入全局统计信息,FastText(2016)通过子词解决未登录词问题。2018年ELMo开创上下文相关时代,采用双向LSTM生成动态词向量。同年BERT基于Transformer实现双向编码,成为NLP里程碑。GPT系列(2018-2023)则发展单向Transformer模型,规模不断扩大。这些技术从词级别发展到句子级别,从静态到动态
2026-01-08 12:51:56
20
原创 3.22 Embedding is All you need:文本向量化,让机器理解文字的核心技术
文本向量化(Embedding)是将文本转换为数值向量的核心技术,使计算机能够理解和处理自然语言。本文系统介绍了Embedding的概念、原理和应用:1)通过训练学习文本的向量表示,使语义相似的文本在向量空间中距离相近;2)在文本相似度计算、推荐系统等场景有广泛应用;3)详细解析了Word2Vec、BERT等主流方法的特点和适用场景。文章还提供了选择指南,帮助开发者根据任务类型选择合适的Embedding技术。作为NLP的基础,Embedding技术对提升各类文本处理任务的效果至关重要。
2026-01-08 12:41:18
12
原创 3.21 冷启动和低频场景推荐:新用户、新物品如何推荐?
文章摘要: 冷启动问题是推荐系统面临的核心挑战,主要包括用户冷启动、物品冷启动和系统冷启动三种类型。针对用户冷启动,可采用基于内容的推荐(利用用户注册信息构建画像)、热门推荐策略(推荐流行度高的物品)以及快速构建用户画像(结合注册信息和第三方数据)等方法。对于物品冷启动,解决方案包括基于物品特征的推荐、相似物品推荐以及新物品优先推荐策略。混合策略可结合多种方法,如内容推荐与协同过滤相结合,通过探索-利用机制平衡新旧物品推荐。冷启动问题的解决需要根据具体场景选择合适策略,并持续优化推荐效果。
2026-01-08 12:40:26
11
原创 3.20 房源特征工程实战:List Embedding,如何表示房源特征
本文详细介绍了房源特征工程中的List Embedding方法。主要内容包括:1) List Embedding概念,将房源表示为向量用于相似度计算和推荐;2) 房源特征设计,涵盖类别、数值、文本和位置特征;3) 两种实现方式:基于特征的Embedding模型和基于用户行为的Word2Vec方法;4) 相似度计算与推荐实现;5) 训练方法概述。通过房源向量化表示,可有效支持相似房源推荐、搜索排序和聚类分析等应用场景。
2026-01-08 12:39:38
11
原创 3.19 Airbnb个性化推荐场景:传统企业的千人十面推荐策略
Airbnb个性化推荐系统采用"千人十面"策略,通过用户画像和房源特征实现精准推荐。系统架构包含数据层(用户、房源、行为数据)、计算层(特征/Embedding计算)、服务层(推荐/搜索服务)和应用层(前端展示)。房源特征包括基础属性、统计指标和文本/图像特征,用户画像涵盖基础信息、行为记录和动态偏好。推荐算法结合协同过滤、内容推荐和深度学习,通过A/B测试持续优化。该策略有效提升了房源匹配度和预订转化率,是传统企业数字化转型的典型案例。
2026-01-08 12:38:47
10
原创 3.18 推荐系统特征处理:类别特征、数值特征、序列特征的处理方法
推荐系统特征处理主要包括三类特征:类别特征(One-Hot/Embedding)、数值特征(归一化/分桶)和序列特征(Embedding/RNN)。类别特征适合使用One-Hot编码或低维Embedding;数值特征需标准化处理或分桶离散化;序列特征可通过Embedding或RNN提取模式。特征工程最佳实践包括:高基数类别用Embedding(8-16维),数值特征标准化,序列特征考虑时序模式,并合理组合各类特征。不同特征处理方法的选择直接影响模型性能和训练效率。
2026-01-08 12:38:11
847
原创 3.17 基于DNN的推荐系统架构:深度学习在推荐系统中的实战应用
本文介绍了基于深度神经网络(DNN)的推荐系统架构设计与实现。主要内容包括:1) 系统整体架构流程,从输入特征到CTR预测;2) 特征处理模块,实现类别特征的Embedding和数值特征处理;3) 完整的DNN模型实现,包含多层全连接网络和输出层;4) 模型训练流程,使用BCELoss损失函数和Adam优化器;5) 模型优化技巧,涵盖网络结构设计、训练参数设置、特征工程和正则化方法等关键优化点。文章通过PyTorch代码示例详细展示了DNN推荐系统的实现过程。
2026-01-08 12:37:34
838
原创 3.16 YouTube推荐系统解析:视频推荐的工业级架构设计
YouTube推荐系统采用工业级架构设计,处理数十亿用户和视频数据。系统分为候选生成和排序两阶段:候选生成通过深度神经网络筛选数百个视频,排序阶段预测观看时长而非点击率。关键技术包括深度神经网络、Embedding技术和序列建模。系统优化注重多样性(类别、时间、来源)和性能(模型压缩、特征预计算)。这套架构平衡了精准推荐与用户体验,是工业级推荐系统的典范。
2026-01-08 12:36:58
9
原创 3.15 阿里移动推荐算法挑战赛实战:CTR预估完整案例解析
本文通过阿里移动推荐算法挑战赛案例,系统讲解了CTR预估的完整流程。首先对赛题进行分析,明确预测用户点击行为的目标。然后进行数据探索,处理用户行为、商品信息和用户特征等数据。在特征工程阶段,详细介绍了用户特征、商品特征和交叉特征的构建方法。模型训练部分对比了GBDT、逻辑回归等算法,并提供了评估指标实现。最后分享了优化技巧,包括特征选择、模型调参等实用方法。整个案例从数据理解到模型评估,展示了CTR预估的端到端解决方案,为推荐系统开发提供实战参考。
2026-01-08 12:36:25
11
原创 3.14 Wide & Deep算法详解:Google的深度学习推荐系统架构
Wide部分:记忆(Memorization),学习特征交互Deep部分:泛化(Generalization),学习特征表示fill:#333;important;important;fill:none;color:#333;color:#333;important;fill:none;fill:#333;height:1em;输入特征Wide部分Deep部分线性模型深度网络融合CTR预测架构设计:Wide记忆 + Deep泛化实现方式:线性模型 + 深度网络核心优势:记忆与泛化平衡。
2026-01-08 12:35:32
13
Hadoop存储与计算分离实践
2017-04-19
勇哥带你玩转git基本操作
2017-04-19
Elasticsearch技术解析与实战(朱林)
2018-12-21
史上最全vim配置带插件包,耗时一周打造,覆盖插件文件夹即可使用
2017-04-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅