- 博客(18)
- 收藏
- 关注
原创 TextCNN 模型文本分类实战:深度学习在自然语言处理中的应用
在自然语言处理(NLP)领域,文本分类是研究最多且应用最广泛的任务之一。从情感分析到主题识别,文本分类技术在众多场景中都发挥着重要作用。最近,我参与了一次基于 TextCNN 模型的文本分类实验,从数据准备到模型构建、训练、测试和预测,全程体验了这一过程。今天,我想和大家分享这次实验的详细过程和收获。
2025-04-22 19:41:50
1514
原创 FastText 模型文本分类实验:从零到一的实战探索
在自然语言处理(NLP)领域,文本分类是一个基础而重要的任务,广泛应用于情感分析、主题识别、垃圾邮件过滤等多个场景。最近,我参与了一次基于 FastText 模型的文本分类实验,从数据预处理到模型构建、训练和评估,全程体验了这一过程。今天,我想和大家分享这次实验的收获与体会。
2025-04-22 19:30:20
1042
原创 探索数据的内在结构:层次聚类分析
层次聚类分析是一种数据聚类技术,它通过构建一个多层次的嵌套聚类树来组织数据点。这种技术不需要预先指定簇的数量,而是生成一个树状图(Dendrogram),直观地展示数据点之间的相似性和差异性。
2025-04-06 01:48:53
531
原创 K-Means相关思考题
初始化:随机选择 k 个数据点作为初始聚类中心。分配:计算每个数据点与聚类中心的距离,将数据点分配到最近的聚类中心所在的簇。更新:重新计算每个簇的中心为该簇中所有点的均值。迭代:重复步骤 2 和 3,直到聚类中心不再变化或达到预设的迭代次数。
2025-04-06 00:53:26
941
原创 K-Means 与 K-Means++ 算法解析与对比
在机器学习领域,聚类算法是一种重要的无监督学习方法,用于将相似的数据点自动归为同一组。本文将详细介绍两种经典的聚类算法:K-Means 和 K-Means++,包括它们的原理、实现以及实验对比。
2025-04-06 00:26:45
658
原创 编辑距离算法详解与实现
编辑距离算法是数据科学中广泛应用的一种算法,尤其在机器翻译和语音识别领域,它被用作评价标准的基本算法。今天,我们就来深入了解一下这个神奇的算法。
2025-03-29 23:26:26
647
原创 深入理解 Java 线程池:核心原理、实战优化与高级特性
线程池是 Java 并发编程中的核心组件,主要解决以下问题:资源复用:避免频繁创建和销毁线程的开销。流量削峰:通过队列缓冲突发任务,防止系统过载。可控性:限制并发线程数量,避免资源耗尽(如 CPU、内存)。统一管理:支持任务拒绝策略、线程监控和动态调参。
2025-03-24 15:46:48
1071
原创 什么是代理?正向代理与反向代理详解
代理服务器(Proxy Server)是位于客户端和目标服务器之间的中间服务器。它充当客户端和目标服务器之间的中介,负责转发客户端的请求并将目标服务器的响应返回给客户端。代理服务器可以用于多种目的,包括提高访问速度、隐藏真实IP地址、负载均衡等。正向代理(Forward Proxy)是客户端与目标服务器之间的代理服务器。客户端通过正向代理服务器向目标服务器发送请求,代理服务器将请求转发给目标服务器,并将目标服务器的响应返回给客户端。反向代理(Reverse Proxy)是目标服务器与客户端之间的代理服务器。
2025-03-23 01:21:51
1314
原创 L1 惩罚和 L2 惩罚的区别
L1 惩罚,也称为 Lasso(最小绝对值收缩和选择算子),是一种正则化方法,用于防止模型过拟合L2 惩罚,也称为 Ridge 回归,是另一种正则化方法。它通过在损失函数中添加参数的平方和来实现。
2025-03-22 23:18:11
909
原创 节点t的杂质度量定义为 MSE(均方误差)
处的预测值与实际值之间的平均平方误差。的杂质度量定义为均方误差(MSE),其含义是衡量在节点。中的所有样本,计算每个样本的实际值 与该节点的预测值。之间的平方差,然后对这些平方差求平均。
2025-03-22 23:07:56
566
原创 线性模型方程定义
斜率的正负和大小反映了 x 对 y 的影响方向和强度。表示在没有解释变量影响时,因变量的基准值。表示 x 每增加一个单位,y的变化量。: 模型在 x=0 时的预测值。: x 对 y的线性影响程度。的概念,以及集合解释这个方程。当 x=0 时,y的值为。
2025-03-22 22:44:59
913
原创 朴素贝叶斯中文分类
本项目的主要目标是通过朴素贝叶斯算法对中文文本进行分类。我们将使用jieba进行中文分词,提供的进行文本向量化,并使用(多项式朴素贝叶斯)进行分类。训练模型:使用训练数据训练朴素贝叶斯分类器,并将模型和向量化器保存到本地。使用模型进行预测:加载训练好的模型和向量化器,对新的文本进行分类预测。通过本项目,我们学习了如何使用朴素贝叶斯算法进行中文文本分类。我们从数据预处理开始,逐步完成了分词、向量化、模型训练和预测的整个过程。朴素贝叶斯算法虽然简单,但在文本分类任务中表现出了良好的性能。
2025-03-22 22:35:46
948
原创 基于N-gram的新闻文本预测
简单易实现:N-gram模型的原理简单,实现起来相对容易。它不需要复杂的数学知识或高级的编程技巧,适合初学者入门自然语言处理。基于上下文:模型能够根据上下文信息预测单词,这使得它在一定程度上能够捕捉语言的局部规律。
2025-03-22 21:50:01
893
1
原创 基于 TF-IDF、TextRank 和 Word2Vec 的关键词提取方法对比与实践
本文介绍了三种常用的关键词提取方法:TF-IDF、TextRank 和 Word2Vec,并通过 Python 实现了它们。每种方法都有其优缺点,适用于不同的场景。在实际应用中,可以根据任务需求选择合适的方法,或结合多种方法提高效果。希望本文对你理解关键词提取有所帮助!如果你有任何问题或建议,欢迎在评论区留言。
2025-03-22 17:01:39
1176
原创 zhwiki:中文词向量训练(opencc繁简转换)
详细介绍了如何使用Python和Gensim库训练中文词向量,并结合OpenCC进行繁简转换。
2025-03-09 18:37:54
301
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅