
数据挖掘
文章平均质量分 87
passion更好
在读研究生,记录学习过程,私信看到就回
展开
-
【大数据】JSON文件解析,对其文本聚类/情感分析
K-means 聚类是一种非常流行的聚类算法,它属于无监督学习算法的一种。在图像处理中,K-means 算法可以用于图像分割,将图像中的像素点聚类成不同的区域,从而实现图像的简化或特征提取。函数通过加载停用词、读取JSON文件、解析评论内容、过滤停用词、重组文本以及进行情感分析,实现了对一系列评论的情感倾向评估,并将评估结果以分数的形式打印出来。微博评论数据weibo_comment.json,包含微博上的评论及其回复的详细信息,包括评论者和回复者的个人信息、评论和回复的内容、时间戳等。原创 2024-07-19 10:54:32 · 1482 阅读 · 0 评论 -
【matlab】大数据基础与应用实例
独热编码使用N位状态寄存器来对N个状态进行编码,每个状态都有其独立的寄存器位,且在任意时刻,只有一位是有效的(即设置为1),其余位都是0。独热编码(One-Hot Encoding),又称一位有效编码,是数据预处理中常用的一种技术,主要用于处理分类数据。在机器学习和数据科学领域,独热编码是一种将分类变量(离散特征、无序特征)转换为数值型数据的方法,以便机器学习算法能够处理。线性回归模型是一种用于预测连续值输出(或称为因变量)的统计方法,它基于一个或多个自变量(或称为解释变量、特征)与因变量之间的线性关系。原创 2024-07-13 21:56:53 · 1222 阅读 · 0 评论 -
【python】 对上市银行的年报信息进行语义挖掘,计算各银行年报中与金融科技有关的关键词的词向量的余弦相似性,衡量银行的金融科技发展程度。
Word2Vec 是一种广泛使用的词嵌入方法,它能够将词汇表中的单词或短语映射到高维向量空间中,使得语义上相似的单词在向量空间中的位置也相近。'云化', '数据模型', '智慧型', '网上支付', '数据仓库', '量子', 'B2C', '数据共享', '声纹识别','网银', '网上银行', '电商', '网上', '数据中心', '机器人', '分布式', '电子化', '5G',数字化', '智能', '互联网', '线上', '智能化', '供应链', '在线', '人工智能', '自动化',原创 2024-07-12 10:46:28 · 2242 阅读 · 0 评论 -
【Python】数据分析与可视化——文本数据分析
文本数据分析是指对文本数据进行收集、清理、加工和分析的过程,旨在从大量的文本信息中抽取有用的信息和知识。原创 2024-06-28 11:26:46 · 374 阅读 · 0 评论 -
【matlab】【python】爬虫实战
然而,这些数据大多以非结构化的形式存在,如网页、文档、图片、视频等,直接利用这些原始数据不仅效率低下,而且难以发挥其真正的价值。因此,爬虫技术应运而生,成为了数据获取与处理的重要工具。学习爬虫技术,不仅可以帮助我们高效地获取所需的数据资源,还能让我们更深入地理解互联网的工作原理和数据的流动方式。通过爬虫,我们可以实现数据的自动化收集、整理和分析,为后续的数据挖掘、机器学习、大数据分析等提供有力的支持。然而,值得注意的是,爬虫技术的使用应当遵守法律法规和网站的robots协议,尊重网站的版权和数据隐私。原创 2024-07-03 07:00:00 · 1372 阅读 · 0 评论 -
【Python】数据分析与可视化——爬虫搭建词云
题目:某年度政府工作报告的词云绘制要求:利用所学知识爬取某年度政府工作报告,并进行词频排序,输出top50,在将top50绘制成词云,词云颜色可自选,形状是某年。原创 2023-10-25 11:50:14 · 1345 阅读 · 1 评论