弥十一-优快云博客

原创 Python滞后回归模型——自回归模型 (AR)

本文通过构建和应用自回归模型（AR），能够有效地利用时间序列数据的过去值来预测其未来值。本文详细介绍了从生成滞后值、确保数据平稳性、选择最优滞后阶数，到模型拟合、诊断和预测的完整流程。通过这些步骤，我们不仅确保了模型的有效性和可靠性，还提高了预测的准确性和解释能力。希望本文的内容能为读者在时间序列分析和预测方面提供有价值的参考和实践指导。

2024-11-05 13:57:03 2147

原创 Python机器学习算法——k-近邻算法（K-Nearest Neighbors,KNN）

K-近邻算法（K-Nearest Neighbors, KNN）是一种基于实例的学习方法，广泛应用于分类和回归任务。其基本原理是通过计算待预测样本与训练集中所有样本的距离，选取距离最近的 k 个邻居，并根据这些邻居的信息进行预测。对于分类任务，预测类别为 k 个最近邻中出现次数最多的类别；对于回归任务，预测值为 k 个最近邻的目标值的平均值。常用的距离度量方法包括欧氏距离、曼哈顿距离和闵可夫斯基距离，其中欧氏距离最为常用。

2024-09-18 14:49:21 1630

原创 Python机器学习算法——线性回归（Linear Regression）

线性回归是一种简单而强大的统计学习方法，广泛应用于数据分析和机器学习领域，通过建立因变量与一个或多个自变量之间的线性关系，帮助我们理解和预测数据中的趋势。无论是简单线性回归还是多元线性回归，都可以通过最小二乘法或梯度下降法求解参数，从而最小化残差平方和（RSS）。模型训练过程中，我们可以使用闭式解 () 或者通过迭代优化求解参数。模型评估时，通过决定系数、标准误差、t 检验和 F 检验等多种指标来衡量模型的性能。

2024-09-14 13:58:53 4045 2

原创 Python机器学习算法——支持向量机（SVM）

通过本文，我们介绍了支持向量机（SVM）的基本理论和Python实现。SVM是一种强大的监督学习方法，可用于分类和回归分析。我们探讨了以下几个关键概念：最大间隔超平面：SVM试图找到一个最优的超平面，使得正负样本之间的距离最大化。支持向量：最接近决策边界的样本点称为支持向量，它们决定了超平面的位置。硬间隔 vs 软间隔：对于线性可分的数据集，可以找到一个能够完全正确分类所有训练样本的超平面（硬间隔）。

2024-09-12 15:12:44 1341

原创 Python简单自动化脚本

Python主要依赖于第三方库的应用与实现，其中主要使用了os、requests、BeautifulSoup等库的使用。网页数据提取：使用requests和BeautifulSoup等库从网页中提取所需的数据，如文本、图片等。数据清洗：多个文件数据清洗，其中包括数据类型转换、异常值处理、缺失值处理、重复值处理等。查找和替换文本：在文件中查找特定文本并替换为所需文本，适用于文档编辑和批量修改。自动化文件排序：根据文件扩展名将文件分类到不同的子目录中，以组织文件结构。

2024-09-11 11:53:50 644

原创 Python机器学习算法——逻辑回归（Logistic Regression）

在评估方面，准确率、混淆矩阵和 AUC-ROC 曲线提供了全面的评价指标，帮助我们更好地理解模型的表现。而在实际应用中，逻辑回归被广泛用于信用评分、医疗诊断和市场营销等多个领域，展示了其强大的实用价值。本文将简单介绍逻辑回归的基本原理、模型构建、损失函数与优化方法、参数调整、模型评估以及应用场景。混淆矩阵：提供了更详细的分类结果信息，包括真阳性（TP）、假阳性（FP）、真阴性（TN）和假阴性（FN）。使用梯度下降法更新参数: 根据损失函数对参数的梯度来调整参数值，以最小化损失函数。

2024-09-10 14:26:22 1516

原创 Python机器学习算法——神经网络和深度学习

通过以上代码示例，我们详细介绍了神经网络和深度学习中的几个关键知识点，包括激活函数（ReLU、Sigmoid、Tanh）、损失函数（MSE、交叉熵损失）、优化器（SGD、Adam、RMSprop）、正则化（L1、L2、Dropout）以及卷积神经网络（CNN）和循环神经网络（RNN）。神经网络和深度学习是现代机器学习的重要组成部分，它们在图像识别、语音识别、自然语言处理等多个领域取得了显著的成功。常见的损失函数有均方误差（MSE）、交叉熵损失等。常见的优化器有SGD、Adam、RMSprop等。

2024-09-09 16:05:35 2029

原创 Python如何使用自定义情感词库进行中文情感分析

情感分析（Sentiment Analysis）是指通过自然语言处理技术自动判断文本的情感倾向，如正面、负面或中性。对于中文文本，情感分析通常需要考虑多种因素，包括停用词、程度级别词语、否定词等。停用词库通常包含一些常见的词汇，如“的”、“是”等，这些词汇对情感分析没有帮助，需要去除。程度级别词语用于调整情感得分，例如“非常”会增加情感得分，“稍微”会减少情感得分。否定词用于处理否定句，例如“不”、“没”等。情感词库：包括正面情绪词和负面情绪词。程度级别词语：用于调整情感得分。否定词：用于处理否定句。

2024-09-09 09:52:06 766

原创 Python spaCy 库进行中文简单文本分词

手动安装可以适应更多的电脑，首先访问 spaCy Model Releases 页面，然后找到 zh_core_web_sm 的最新版本，点击下载对应的 .tar.gz 文件。②下载模型文件：下载 zh_core_web_sm 的 whl 文件，假设下载的文件名为 en_core_web_md-3.7.1-py3-none-any.whl。spaCy 是一个非常强大的自然语言处理库，广泛应用于文本处理、实体识别、句法分析等领域。本文将介绍如何使用 spaCy 库进行文本分词，并提供详细的代码示例。

2024-09-06 14:05:33 958 1

原创 Pythonjieba库简单分词

jieba 库是一个用 Python 编写的用于中文文本处理的开源库，它的主要功能是将连续的中文字符序列切分成一个个单独的词语。jieba 分词支持多种分词模式，并且可以方便地加载自定义词典，以提高分词的准确率。jieba 分词库为中文文本处理提供了强大的工具，无论是学术研究还是工业应用，都能发挥重要作用。输出结果: 我 | 来到 | 北京 | 清华 | 华大 | 大学。搜索引擎模式会尽可能地给出精确的切分结果，并适当考虑未登录词。精确模式是最常用的分词模式，它会尽可能地切出有意义的词语。

2024-09-06 10:08:57 635

原创 Python如何实现简单文本词云图的生成

词云图是一种可视化工具，可以用来展示文本中出现频率较高的词汇。通过词云图，我们可以直观地看到哪些词汇在文本中更加突出。本文将介绍如何使用Python中的wordcloud库生成词云图，并展示一个完整的示例。假设你有一个文本文件“词云文件.txt” 或者“词云文件.csv”、“词云文件.xlsx”，其中包含了用于生成词云的文字。使用 wordcloud.WordCloud 类生成词云对象，并设置宽度、高度和背景颜色。使用 matplotlib 显示生成的词云图，并可以选择保存为图片文件。

2024-09-06 09:12:05 320

抖音圣诞树，搬运打包，可直接运行，小白也可以使用，下载到桌面使用浏览器打开即可

抖音圣诞树，搬运打包，可直接运行，小白也可以使用，下载到桌面使用浏览器打开即可。

2024-11-11

中文情感分析-情感词库

情感词库当中包括中文停用词库（chineseStopWords），利用进行分词处理。包括程度级别词语（中文）、否定词、正面情绪词和负面情绪词，停用词是指在信息检索中频繁出现但没有太多实际含义的词汇，如“的”、“是”、“在”等。去除这些词汇有助于减少噪音，提高文本处理效率。例如，在构建词袋模型或TF-IDF矩阵时，去除停用词能更准确地反映文本特征。程度级别词语指的是表示程度的副词，如“非常”、“极其”、“稍微”等。这些词语在情感分析中尤为重要，因为它们能够增强或减弱后续词语的情感强度。正确识别并处理这些词语有助于更准确地评估文本的情感倾向。否定词如“不”、“没”、“无”等，在情感分析中同样关键。一个否定词可能会改变其后词语的情感极性。例如，“不好”表达的是负面情感，而不是正面情感。因此，正确处理否定词对于情感分析准确性至关重要。情绪词库包含了表达正面或负面情感的词汇，如“好”、“快乐”、“坏”、“悲伤”等。这些词汇直接反映了文本的情感倾向，在情感分析中用于计算文本的整体情感得分。结合程度级别词语和否定词一起使用，可以更准确地捕捉文本中的复杂情感变化。

2024-09-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人