自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

故事猝不及防,发量秃如其来

在代码与思想的交汇点,一起学点有用的、有趣的、能落地的东西,让学习成为持续进化的快乐旅程。

  • 博客(50)
  • 收藏
  • 关注

原创 Python异步(Asyncio)(一)

Python Asyncio 提供了使用协程的异步编程功能。异步编程是一种流行的编程范式,与线程相比,它允许大量轻量级任务并发运行,且内存开销非常小。这使得 asyncio 在 Python 网络开发、进行网络调用的 Python API 以及套接字编程的并发处理方面非常具有吸引力且被广泛使用。

2025-11-04 17:29:06 950

原创 NLP模型优化

在 AI 技术飞速演进的今天,模型优化早已不是实验室里的“锦上添花”,而是工业落地的“必经之路”。无论是剪枝带来的内存瘦身、知识蒸馏赋予的小模型“大智慧”,还是低秩分解与张量压缩对计算效率的极致压榨,这些技术正共同构筑起从云端到边缘、从通用大模型到垂直小模型的高效部署桥梁。

2025-10-30 18:23:22 793

原创 大型语言模型(LLM)架构大比拼

从 DeepSeek-V3 到 MiniMax-M2:现代 LLM 架构设计一览

2025-10-30 14:37:17 1496

原创 借助开源模型增强OCR处理流程

强大的视觉语言模型(Vision-Language Models, VLMs)的兴起,彻底改变了文档人工智能(Document AI)领域。每种模型都有其独特优势,这使得选择合适的模型变得颇具挑战性。开源权重模型(Open-weight Models)在成本效益和隐私性方面更具优势。本文将探讨 OCR 开源模型的现状、核心优势,以及 Hugging Face 生态中值得关注的开源 OCR 工具与模型

2025-10-24 16:24:08 981

原创 1024献礼:一份来自程序员的代码情书,致唐诗宋词

摘要: 在1024程序员节,代码与诗意碰撞出独特浪漫。当try-catch诠释"独怆然而涕下",worry++映射"举杯消愁",古典诗词在编程语法中焕发新生。从陈子昂的时空苍茫到李白的抽刀断水,从李清照的叠词悲叹到《红楼梦》的真假辩证,10组代码情书以if/else重构文学经典。这些数字时代的诗意表达,既是对程序员逻辑思维的致敬,也揭示了代码作为情感载体的可能性——在while循环与return null间,藏着与古人共鸣的哲思与浪漫。

2025-10-24 16:07:40 701

原创 知微集:Transformer

本文深入拆解Transformer架构核心机制,从注意力机制、位置编码到堆叠层设计,揭示其如何通过并行计算突破传统序列模型瓶颈,成为现代NLP的基石。一文读懂其技术原理、优势与局限。

2025-09-15 17:25:55 689

原创 知微集:Python中的线程(四)

本文深入探讨Python threading模块中的线程屏障(Barrier)机制,介绍如何通过Barrier类协调多个线程同步执行。主要内容包括:1) Barrier的基本概念和原理;2) 使用wait()、abort()和reset()等关键方法;3) 配置超时和动作(action)参数;4) 实际应用示例演示协调多个工作线程;5) 异常处理(BrokenBarrierError)技巧。文章还预告将讨论Python线程最佳实践和常见错误(竞态、死锁

2025-09-06 09:00:00 227

原创 知微集:Python中的线程(三)

本文是「NLP知微集」系列第三期,聚焦Python线程编程的细节应用。文章系统讲解了线程使用的关键场景:包括如何处理阻塞IO操作、利用释放GIL的外部C库、以及使用无GIL的第三方Python解释器(如Jython和IronPython)。深入分析了线程阻塞调用的三种类型(并发原语、IO操作和sleep),并详细阐述了线程局部数据的私有存储机制,强调其对多线程编程中数据隔离的重要性。通过具体代码示例,帮助开发者掌握线程安全编程的核心技术。

2025-09-05 18:44:25 922

原创 知微集:Python中的线程(二)

本文是《NLP知微集》系列中关于Python线程的第二期内容,主要探讨了Python线程的限制因素、Thread类属性配置及相关工具使用。文章首先解释了CPython解释器中的全局解释器锁(GIL)机制,指出其限制了多线程并行执行。随后详细介绍了线程实例的各种属性,包括线程名称、守护线程状态、标识符等查询方法,并通过代码示例展示了如何动态配置线程名称和设置守护线程。最后讨论了守护线程的适用场景,如日志记录、数据更新等后台任务。全文通过具体案例帮助开发者深入理解Python线程的细节特性。

2025-09-04 18:44:31 906

原创 知微集:Python中的线程(一)

本文介绍了Python线程的基本概念和使用方法。主要内容包括:1) Python线程是操作系统原生线程的对象表示,支持并发执行但不一定并行;2) 线程与进程的关系,线程存在于进程中;3) 线程的生命周期(新建、运行、终止);4) 创建线程的两种方式:直接运行函数和继承Thread类;5) 线程传参和返回值的实现方法。文章通过代码示例展示了如何使用threading.Thread类创建线程、传递参数以及从线程获取返回值,为Python并发编程提供了实践指导。

2025-09-03 18:47:03 1148

原创 知微集:进程、线程、同步、异步、并发、并行、串行

本文深入解析了自然语言处理中的基础执行单元和任务处理模式。首先对比了线程与进程的核心差异:线程是程序执行的基本单位,共享进程资源;进程则是资源分配的基本单位,具有独立内存空间。其次阐述了并发与并行的关键区别:并发关注任务管理,可在单核实现;并行强调物理执行,需多核支持。最后分析了同步与异步编程模型的特点:同步要求顺序执行,异步则允许非阻塞操作。这些概念构成了计算机程序执行的基础架构,对优化NLP系统性能至关重要。

2025-09-02 09:24:39 1065

原创 知微集:激活函数详解

摘要: 本文系统介绍了神经网络中的激活函数,重点分析其作用、类型及选择策略。激活函数通过引入非线性增强网络表达能力,不同函数各有优劣:Sigmoid适合二分类但易梯度消失;Tanh零中心输出但会饱和;ReLU计算高效但存在"死神经元"问题;Leaky ReLU和ELU等变体针对ReLU缺陷进行改进。实践推荐隐藏层优先使用ReLU,输出层根据任务选择Sigmoid(二分类)、Softmax(多分类)或线性函数(回归)。

2025-08-30 09:15:00 694

原创 知微集:宏观看神经网络

本文系统介绍了神经网络的核心知识:1)基本架构由输入层、隐藏层和输出层构成,通过权重连接实现特征提取;2)训练过程包括数据预处理、前向传播计算损失、反向传播优化权重;3)关键超参数如学习率、批量大小、激活函数等对模型性能有决定性影响;4)正则化技术能有效防止过拟合。

2025-08-29 11:08:30 691

原创 知微集:梯度下降详解

本文深入浅出地讲解了自然语言处理中的核心优化算法——梯度下降。通过下山寻谷的生动比喻,形象阐释了学习率、局部最小值、鞍点等关键概念;系统分析了批量、随机和小批量三种梯度下降算法的特点及适用场景;重点探讨了梯度消失、爆炸等常见挑战及其解决方案(如ReLU激活函数、梯度裁剪等)。

2025-08-28 18:47:16 676

原创 知微集:偏差、方差、欠拟合、过拟合详解

【NLP关键概念解析:偏差、方差、欠拟合与过拟合】 本文系统阐述了机器学习中的核心概念偏差与方差,以及由此衍生的欠拟合和过拟合问题。偏差反映模型预测与真实值的系统性差异,方差体现模型对数据波动的敏感性。理想模型需在二者间取得平衡(偏差-方差均衡)。欠拟合源于模型过于简单,表现为训练/测试误差双高;过拟合则因模型复杂度过高,导致训练误差低但测试误差高。文章通过打靶类比和决策边界图示形象说明这些概念,并分别提供了缓解欠拟合(如增加复杂度、降低正则化)和过拟合(如使用正则化、交叉验证)的具体方法。

2025-08-28 10:36:15 1015

原创 BERTopic详解--主题建模利器

本文将系统拆解BERTopic的技术内核,从工作流程到子模块实现,从C-TF-IDF算法原理到LLM微调实践,辅以代码示例与可视化演示,助你快速掌握这一主题建模利器。

2025-08-14 14:09:27 1439

原创 中文分词:分词工具及使用实践总结

本文总结了13种主流中文分词工具,包括jieba、cutword、pkuseg、baidu lac、jiagu、HanLP等,涵盖通用工具与垂域能力。这些工具基于不同算法实现,如统计词典、机器学习、深度学习等,支持精确、全模式和搜索引擎模式等分词方式。部分工具还提供词性标注、专名识别等附加功能。文章详细介绍了各工具的简介、GitHub地址、开源协议、安装方法和测试案例,为开发者在项目中快速选型和应用提供参考。

2025-07-10 21:00:00 1045

原创 中文分词:机械分词算法详解与实践总结

本文系统梳理中文分词中的机械分词算法 ,涵盖以下核心内容:1. 经典算法解析 :正向/逆向最大匹配、双向匹配、全切分法、DAG动态规划、N-最短路径等主流方法原理与实现差异;2. 代码实战:基于自定义词典的Python代码示例,直观展示算法运行逻辑

2025-06-16 15:32:44 961

原创 MCP(模型上下文协议)——AI生态的“万能插座”

MCP的诞生,不仅是技术协议的迭代,更是人工智能从“工具孤岛”走向“协作大陆”的第一步。它像一座桥梁,连接着模型的智能与现实世界的复杂需求——无论是企业供应链的实时数据整合,还是开发者对多模态工具的灵活调用,MCP都在试图构建一个更开放、更包容的AI生态。

2025-06-13 18:17:40 834

原创 我的创作纪念日

这篇文章分享了一位技术创作者的成长历程。作者从实战项目经验和日常学习笔记起步,逐渐将个人记录转化为公开文章,收获了761次收藏、2869次代码分享的技术社区认可,并促成了线下技术交流活动。1024天的持续创作不仅沉淀了知识体系,更推动了职业发展。未来,作者计划深耕NLP领域,通过技术写作构建个人影响力,实现从执行者到布道者的转变。文章最后表达了持续分享的初心,希望用文字为技术世界增添温度,与同行者共同进步。

2025-06-13 10:58:30 333

原创 中文分词总结:历程、问题、发展

想象一个孩子学习语言的过程:从牙牙学语到清晰表达,第一步总是从“字”到“词”的跨越。中文作为世界上使用人数最多的语言,其分词技术如同人工智能的“语言启蒙课”——没有精准的分词,机器便无法理解“北京”是地名还是“北+京”的组合,也无法区分“结婚”与“和尚”的边界。

2025-06-12 20:00:33 811

原创 TF-IDF算法的代码实践应用——关键词提取、文本分类、信息检索

**通过纯Python手写实现与调用`sklearn`工具包两种方式**,带你一步步完成TF-IDF在真实场景中的应用:关键词提取、文本分类、信息检索

2025-06-11 20:07:28 631

原创 TF-IDF算法详解与实践总结

本文主要介绍TF-IDF的算法内容以及面试中对于TF-IDF的相关问题,两种方式实现TF-IDF,一种是纯python实现一个TF-IDF,然后利用TF-IDF实现关键词提取,另一种是调用相关依赖实现关键词提取。

2025-06-10 19:36:56 898

原创 BM25算法详解与实践总结

BM25(Best Matching 25)是一种用于信息检索(Information Retrieval)和文本挖掘的算法,它被广泛应用于搜索引擎和相关领域。BM25 基于 TF-IDF(Term Frequency-Inverse Document Frequency)的思想,但对其进行了改进以考虑文档的长度等因素。

2025-06-09 19:00:00 798

原创 NLP--一起学习Word Vector【实践】

在大模型时代,embedding成为一项必不可少的技术,主要是因为它能够有效地将大量高维数据(如文本、图像和音频信息)转换成更低维的、密集的向量表示。这种表示可以捕捉到数据的本质特征,并且在处理和计算上更为高效。通过embedding,模型可以在这些压缩的向量空间中学习数据之间的复杂关系和模式,从而提高了处理速度和准确性。此外,embedding使得模型能够在较小的表示空间中进行操作,减少了计算资源的需求,同时也便于模型的训练和推理,这对于处理现代大规模数据集尤为关键。

2024-10-24 17:43:03 1350

原创 我的创作纪念日

强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能代理(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。多样性除了从原始数据中获取,也可以通过prompt_template方式构建,对prompt指令进行数据增强,比如中文翻译英文的指令可以拓展为,中译英,翻译中文为英文等相同语义的指令。RLHF的成功取决于人类提供的反馈的质量,根据任务和环境,反馈的质量可能是主观的和可变的。

2024-01-18 10:32:58 1104

原创 NLP--名词概述【笔记】

表中涵盖了自然语言处理(NLP)任务中大量的名词(简称词)以及其释义,该表只为你能简单了解其概念是什么。如:LSH、KLD、ICL等

2024-01-11 16:26:49 920

原创 NLP--Transformer概览【笔记】

你可以通俗易懂的了解,Transformer中的编码器、解码器是什么以及他们中间的细节所对应的概念是什么,具体中间是怎么变化的。

2024-01-11 11:47:39 981

原创 Neo4j使用记录--neo4j-community安装【实践】

neo4j community安装以及Windows下问题与解决方案

2023-07-18 13:11:51 2292

原创 NLP--ChatGPT的API参数总结【实践】

ChatGPT的在各项任务下的参数进行了总结、实践,对每个参数知其然、知其所以然,也对每个任务下模型的token花费进行总结。

2023-05-22 17:51:57 4376

原创 Git从底层到命令的综合【实践】

学习Git,从底层开始了解git的命令语句所执行的操作。看完文章,你能够快速掌握Git。虽说,大模型(LLMs)不断飞速发展,他们展现的基础能力,能超过基础人员的认知,但是在逻辑、思维能力上LLms是达不到,因此,开发人员,更应该扎实基础,在此基础上,不断提高个人的认知以及构思能力。近期,在不断的重温基础知识,厚积才能薄发。

2023-05-16 17:59:23 471

原创 Markdown文档语法以及数学公式【实践】

Markdown(md)文档的语法以及LaTex数学公式的编写

2023-05-13 12:52:41 1220

原创 Python--随机变量分布之伯努利分布、二项式分布、泊松分布、均匀分布、指数分布、正态分布 【实践】

伯努利分布、二项式分布、泊松分布、均匀分布、指数分布、正态分布 等随机变量Python代码实现

2023-05-06 00:00:43 2884

原创 NLP--词频统计和TF-IDF总结【实践】

词频统计以及TF-IDF原理以及代码实现,在TF-IDF中常被问的问题:为什么TF要进行标准化操作?为什么要取对数?为什么IDF分母中要进行+1(IDF如何进行平滑处理的)?为什么要词频 * 逆文档频率(TF-IDF要用乘法)?

2023-05-05 16:45:55 2568 1

原创 Python--凯撒密码【实践】

凯撒密码的原理以及Python实现加解密

2023-04-21 18:15:13 447

原创 Pycharm + Anaconda 离线环境迁移【实践】

Windows离线环境下pycharm + anaconda 迁移环境的全部过程,以及离线下载Python依赖的方法

2023-04-19 17:24:57 2782

原创 NLP--BPE、WordPiece、ULM、SentencePiece子词分词器总结【原理】

子词解决了词汇量问题,并在很大程度上有助于减少模型参数的数量,子词有助于保持词汇更加平衡。

2023-04-14 19:16:42 2196

原创 NLP--BERT你不知道的小细节【总结】

BERT论文中重读,记录其中额小细节。2阶段 + 2任务 + 3向量 + 11任务

2023-04-07 18:12:44 251

原创 NLP--词性标注(POS)、依存句法分析(DP)、语义依存分析(SDP)【实践】

本文主要对词性标注、依存句法分析、语义依存分析这三个任务,进行简单的调用code实现。词性标注(Part-of-speech tagging),依存句法分析(Dependency Parsing, DP) ,语义依存分析 (Semantic Dependency Parsing, SDP)

2023-03-15 17:48:37 6455

原创 NLP--Transformer探索(微观)【笔记】

Transformer学习细节,从微观上深入探索transformer,了解其发展与计算。

2023-03-15 15:24:46 327

日常所用的英文停用词词表

中英文停用词词表

2023-05-05

日常所用的中英文停用词词表

中英文停用词词表,可用来过滤词

2023-05-05

基于Neo4j和elasticsearch的知识图谱搜索查询

graphpoweredsearch-neo4j-elasticsearch.pdf

2023-04-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除