
python
文章平均质量分 87
passion更好
在读研究生,记录学习过程,私信看到就回
展开
-
【大数据】JSON文件解析,对其文本聚类/情感分析
K-means 聚类是一种非常流行的聚类算法,它属于无监督学习算法的一种。在图像处理中,K-means 算法可以用于图像分割,将图像中的像素点聚类成不同的区域,从而实现图像的简化或特征提取。函数通过加载停用词、读取JSON文件、解析评论内容、过滤停用词、重组文本以及进行情感分析,实现了对一系列评论的情感倾向评估,并将评估结果以分数的形式打印出来。微博评论数据weibo_comment.json,包含微博上的评论及其回复的详细信息,包括评论者和回复者的个人信息、评论和回复的内容、时间戳等。原创 2024-07-19 10:54:32 · 1482 阅读 · 0 评论 -
【python】多种回归算法对比气温预测
目录引言决策树回归(Decision Tree Regression)线性回归(Linear Regression)随机森林回归(Random Forest Regression)气温预测对比实例数据集预测值与实际值对比图模型评价指标代码实现定义与原理:构建过程:优缺点:应用场景:决策树回归在金融、医疗、零售等领域都有广泛的应用,如预测股票价格、货币汇率、疾病风险、药物反应、销量预测等。定义:类型:方法:优缺点:应用场景:线性回归在金融、经济学、流行病学等领域有广泛应用,如预测消费支出、固定投资支出、股票价原创 2024-07-17 17:29:35 · 1415 阅读 · 0 评论 -
【matlab】【python】爬虫实战
然而,这些数据大多以非结构化的形式存在,如网页、文档、图片、视频等,直接利用这些原始数据不仅效率低下,而且难以发挥其真正的价值。因此,爬虫技术应运而生,成为了数据获取与处理的重要工具。学习爬虫技术,不仅可以帮助我们高效地获取所需的数据资源,还能让我们更深入地理解互联网的工作原理和数据的流动方式。通过爬虫,我们可以实现数据的自动化收集、整理和分析,为后续的数据挖掘、机器学习、大数据分析等提供有力的支持。然而,值得注意的是,爬虫技术的使用应当遵守法律法规和网站的robots协议,尊重网站的版权和数据隐私。原创 2024-07-03 07:00:00 · 1372 阅读 · 0 评论 -
Logistic回归算法原理详解及应用
逻辑回归(Logistic Regression)是一种广泛用于分类问题的统计方法,尤其是二分类问题。逻辑回归通过逻辑函数(sigmoid函数)将线性回归模型的输出(通常是一个实数值)映射到(0,1)区间,从而得到属于某个类别的概率。:在二分类问题中,我们设定一个阈值(通常是0.5),如果Sigmoid函数的输出大于这个阈值,则认为样本属于正类(标签为1的类别),否则属于负类(标签为0的类别)总之,逻辑回归是一种简单而强大的分类算法,特别适用于处理二分类问题,并且其输出具有概率意义,便于理解和应用。原创 2024-07-16 21:43:08 · 992 阅读 · 0 评论 -
【python】随机森林预测汽车销售
独热编码(One-Hot Encoding)是一种常用的将类别型数据(Categorical Data)转换为数值型数据(Numerical Data)的方法,特别适用于机器学习算法中。在独热编码中,每个类别值都会被转换成一个新的二进制列(也称为哑变量),这些列中只有一个为1(表示该样本属于该类别),其余为0。在预测汽车销售方面,随机森林可以有效地处理包含多种特征(如车辆品牌、型号、年份、里程数、配置、价格等)的数据集,并预测销售数量、价格或顾客购买意向等。原创 2024-07-11 10:21:55 · 1927 阅读 · 0 评论 -
【python】基于随机森林和决策树的鸢尾花分类
决策树和随机森林都是强大的机器学习算法,它们在处理分类和回归问题时各有优势。决策树简单直观,但容易过拟合;随机森林通过集成多个决策树来提高模型的稳定性和准确性,是处理复杂数据集时的优选算法之一。原创 2024-07-15 21:55:26 · 1116 阅读 · 0 评论 -
【python】 对上市银行的年报信息进行语义挖掘,计算各银行年报中与金融科技有关的关键词的词向量的余弦相似性,衡量银行的金融科技发展程度。
Word2Vec 是一种广泛使用的词嵌入方法,它能够将词汇表中的单词或短语映射到高维向量空间中,使得语义上相似的单词在向量空间中的位置也相近。'云化', '数据模型', '智慧型', '网上支付', '数据仓库', '量子', 'B2C', '数据共享', '声纹识别','网银', '网上银行', '电商', '网上', '数据中心', '机器人', '分布式', '电子化', '5G',数字化', '智能', '互联网', '线上', '智能化', '供应链', '在线', '人工智能', '自动化',原创 2024-07-12 10:46:28 · 2242 阅读 · 0 评论 -
【python】基于决策树的语音识别
决策树模型呈树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,每个叶节点代表一种分类结果。决策树的构建主要基于贪心算法,它遵循“分而治之”的原则,通过不断地选择最优特征对数据集进行划分,直到满足某个停止条件(如:所有样本都属于同一类别,或者没有更多的特征可供选择等)。决策树被广泛应用于各种领域,包括金融、医疗、市场营销、生物信息学等。总的来说,决策树是一种简单而强大的机器学习算法,它能够以直观的方式展现数据的分类过程,并且具有良好的解释性和泛化能力。原创 2024-07-13 17:34:46 · 777 阅读 · 0 评论 -
【Python】数据分析与可视化——爬虫搭建词云
题目:某年度政府工作报告的词云绘制要求:利用所学知识爬取某年度政府工作报告,并进行词频排序,输出top50,在将top50绘制成词云,词云颜色可自选,形状是某年。原创 2023-10-25 11:50:14 · 1345 阅读 · 1 评论 -
【Python】数据分析与可视化——文本数据分析
文本数据分析是指对文本数据进行收集、清理、加工和分析的过程,旨在从大量的文本信息中抽取有用的信息和知识。原创 2024-06-28 11:26:46 · 374 阅读 · 0 评论 -
Kafka消息队列python开发环境搭建
Kafka 支持多个消费者群组(consumer group)同时消费同一个 topic,每个消费者群组内的消费者可以共同分担处理数据的任务。:Kafka 中的消息被分类存储在名为 topic 的容器中。:同一个消费者群组内的消费者可以并行地消费同一个 topic 的不同分区,但每个分区只能被一个消费者群组内的一个消费者消费,以确保消息的有序性。:Kafka 中的每条消息都有一个唯一的偏移量,用于标识消息在分区中的位置。每个分区可以分布在不同的 broker 上,同时每个分区内的消息都是有序的。原创 2024-07-17 15:54:04 · 1241 阅读 · 0 评论