自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 TextCNN 模型文本分类实战:深度学习在自然语言处理中的应用

在自然语言处理(NLP)领域,文本分类是研究最多且应用最广泛的任务之一。从情感分析到主题识别,文本分类技术在众多场景中都发挥着重要作用。最近,我参与了一次基于 TextCNN 模型的文本分类实验,从数据准备到模型构建、训练、测试和预测,全程体验了这一过程。今天,我想和大家分享这次实验的详细过程和收获。

2025-04-22 19:41:50 1514

原创 FastText 模型文本分类实验:从零到一的实战探索

在自然语言处理(NLP)领域,文本分类是一个基础而重要的任务,广泛应用于情感分析、主题识别、垃圾邮件过滤等多个场景。最近,我参与了一次基于 FastText 模型的文本分类实验,从数据预处理到模型构建、训练和评估,全程体验了这一过程。今天,我想和大家分享这次实验的收获与体会。

2025-04-22 19:30:20 1042

原创 探索数据的内在结构:层次聚类分析

层次聚类分析是一种数据聚类技术,它通过构建一个多层次的嵌套聚类树来组织数据点。这种技术不需要预先指定簇的数量,而是生成一个树状图(Dendrogram),直观地展示数据点之间的相似性和差异性。

2025-04-06 01:48:53 531

原创 K-Means相关思考题

初始化:随机选择 k 个数据点作为初始聚类中心。分配:计算每个数据点与聚类中心的距离,将数据点分配到最近的聚类中心所在的簇。更新:重新计算每个簇的中心为该簇中所有点的均值。迭代:重复步骤 2 和 3,直到聚类中心不再变化或达到预设的迭代次数。

2025-04-06 00:53:26 941

原创 K-Means 与 K-Means++ 算法解析与对比

在机器学习领域,聚类算法是一种重要的无监督学习方法,用于将相似的数据点自动归为同一组。本文将详细介绍两种经典的聚类算法:K-Means 和 K-Means++,包括它们的原理、实现以及实验对比。

2025-04-06 00:26:45 658

原创 编辑距离算法详解与实现

编辑距离算法是数据科学中广泛应用的一种算法,尤其在机器翻译和语音识别领域,它被用作评价标准的基本算法。今天,我们就来深入了解一下这个神奇的算法。

2025-03-29 23:26:26 647

原创 markdown的基本语法(Windows)

markdown的基本语法(Windows)

2025-03-28 20:51:31 1166

原创 深入理解 Java 线程池:核心原理、实战优化与高级特性

线程池是 Java 并发编程中的核心组件,主要解决以下问题:资源复用:避免频繁创建和销毁线程的开销。流量削峰:通过队列缓冲突发任务,防止系统过载。可控性:限制并发线程数量,避免资源耗尽(如 CPU、内存)。统一管理:支持任务拒绝策略、线程监控和动态调参。

2025-03-24 15:46:48 1071

原创 什么是代理?正向代理与反向代理详解

代理服务器(Proxy Server)是位于客户端和目标服务器之间的中间服务器。它充当客户端和目标服务器之间的中介,负责转发客户端的请求并将目标服务器的响应返回给客户端。代理服务器可以用于多种目的,包括提高访问速度、隐藏真实IP地址、负载均衡等。正向代理(Forward Proxy)是客户端与目标服务器之间的代理服务器。客户端通过正向代理服务器向目标服务器发送请求,代理服务器将请求转发给目标服务器,并将目标服务器的响应返回给客户端。反向代理(Reverse Proxy)是目标服务器与客户端之间的代理服务器。

2025-03-23 01:21:51 1314

原创 L1 惩罚和 L2 惩罚的区别

L1 惩罚,也称为 Lasso(最小绝对值收缩和选择算子),是一种正则化方法,用于防止模型过拟合L2 惩罚,也称为 Ridge 回归,是另一种正则化方法。它通过在损失函数中添加参数的平方和来实现。

2025-03-22 23:18:11 909

原创 节点t的杂质度量定义为 MSE(均方误差)

处的预测值与实际值之间的平均平方误差。的杂质度量定义为均方误差(MSE),其含义是衡量在节点。中的所有样本,计算每个样本的实际值 与该节点的预测值。之间的平方差,然后对这些平方差求平均。

2025-03-22 23:07:56 566

原创 可决系数 R^2 和 均方误差 MSE 的关系

R^2 是 MSE 的重新缩放版本

2025-03-22 23:00:42 1164

原创 皮尔逊相关系数推导

皮尔逊相关系数是统计学中常用的度量两个变量线性相关程度的指标,其值介于-1和1之间,反映了变量间线性关系的强度和方向。

2025-03-22 22:54:21 1648

原创 线性模型方程定义

斜率的正负和大小反映了 x 对 y 的影响方向和强度。表示在没有解释变量影响时,因变量的基准值。表示 x 每增加一个单位,y的变化量。: 模型在 x=0 时的预测值。: x 对 y的线性影响程度。的概念,以及集合解释这个方程。当 x=0 时,y的值为。

2025-03-22 22:44:59 913

原创 朴素贝叶斯中文分类

本项目的主要目标是通过朴素贝叶斯算法对中文文本进行分类。我们将使用jieba进行中文分词,提供的进行文本向量化,并使用(多项式朴素贝叶斯)进行分类。训练模型:使用训练数据训练朴素贝叶斯分类器,并将模型和向量化器保存到本地。使用模型进行预测:加载训练好的模型和向量化器,对新的文本进行分类预测。通过本项目,我们学习了如何使用朴素贝叶斯算法进行中文文本分类。我们从数据预处理开始,逐步完成了分词、向量化、模型训练和预测的整个过程。朴素贝叶斯算法虽然简单,但在文本分类任务中表现出了良好的性能。

2025-03-22 22:35:46 948

原创 基于N-gram的新闻文本预测

简单易实现:N-gram模型的原理简单,实现起来相对容易。它不需要复杂的数学知识或高级的编程技巧,适合初学者入门自然语言处理。基于上下文:模型能够根据上下文信息预测单词,这使得它在一定程度上能够捕捉语言的局部规律。

2025-03-22 21:50:01 893 1

原创 基于 TF-IDF、TextRank 和 Word2Vec 的关键词提取方法对比与实践

本文介绍了三种常用的关键词提取方法:TF-IDF、TextRank 和 Word2Vec,并通过 Python 实现了它们。每种方法都有其优缺点,适用于不同的场景。在实际应用中,可以根据任务需求选择合适的方法,或结合多种方法提高效果。希望本文对你理解关键词提取有所帮助!如果你有任何问题或建议,欢迎在评论区留言。

2025-03-22 17:01:39 1176

原创 zhwiki:中文词向量训练(opencc繁简转换)

详细介绍了如何使用Python和Gensim库训练中文词向量,并结合OpenCC进行繁简转换。

2025-03-09 18:37:54 301

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除