大数据学习爱好者-优快云博客

原创基于Spark和Hive的酒店数据分析与推荐系统

爬虫：Selenium大数据框架：Spark#数据分析 #数据可视化 #可视化设计 #大数据 #hive #软件开发。技术介绍前端：html，css，js，Echats。推荐算法：基于用户的协同过滤（UserCF）数据库：MySQL, Hive。

2025-02-20 18:48:44 810 2

✔️主营：指导解答anaconda、python数据分析、数据挖掘、词频统计、词云、情感分析、python机器学习、Flask Django web、jupyter、tensorflowpytorch 安装、python 爬虫、opencv、hadoop、hive、hbase、pypyspark 数据分析等项目#数据可视化 #数据 #数据分析#大数据时代 #计算机 #Python #计算机专业。✔️情绪分析、文本挖掘、文本分类，词频统计、情感分析，词云制作，词语共现网络图、人物关系网络建立等。

2025-02-18 12:33:26 673

原创基于flask+vue的租房信息可视化系统

✔️本项目利用 python 网络爬虫抓取某租房网站的租房信息，完成数据清洗和结构化，存储到数据库中，搭建web系统对各个市区的租金、房源信息进行展示，根据各种条件对租金进行预测。将爬取到的数据进行展示，实时展示详细的房屋数据，支持根据市级筛选数据，点击详情按钮可跳转到原始网站房屋详情页面。通过城市、租赁方式、房屋朝向、面积范围对租金进行分析，得出各个租金范围内房屋比例。通过城市、区（县）、租赁方式、面积范围等条件对租金进行预测。分析每个城市区（县）的房源数量进行展示。

2025-02-17 18:04:55 618

原创基于豆瓣2025电影数据可视化分析系统的设计与实现

✔️首先，我们使用爬虫技术从豆瓣电影网站获取丰富的电影数据，包括电影基本信息、评分、评论等存储到Mysql数据库。最终，我们将分析结果以交互式的可视化界面呈现，用户可以通过系统自定义的查询与过滤功能，深入挖掘他们感兴趣#数据可视化 #数据分析 #开发 #深度学习 #网页制作 #网站制作 #数据库 #计算机 #大数据 #Python。通过数据爬取收集、清洗、分析豆瓣电影数据，我们提供了一个全面的电影信息平台，为用户提供深入了解电影产业趋势、影片评价与演员表现的工具。

2025-02-17 14:55:32 860

原创基于2025Python电商商品评论数据采集与分析可视化系统

在情感分析部分，本研究采用了贝叶斯算法，通过训练模型识别评论中的正面、负面情绪，展示了贝叶斯方法在文本情感分类中的有效性。系统的搭建基于以上研究成果，整合了数据采集、处理和情感分析的流程，构建了一个用户友好的界面，允许用户输入特定产品的评论数据，并迅速得到情感分析的结果。✔️Flask框架、MySQL数据库、 requests爬虫、可抓取指定商品评论、Echarts可视化、评论多维度分析、NLP情感分析、LDA主题分析、Bayes评论分类。✔️关于数据的说明：小米手机京东旗舰店，爬取的评论数据。

2025-02-16 14:43:29 1241

原创基于Python的Flask微博话题舆情分析可视化系统

技术栈:爬虫➕Flask后端框架➕bert深度学习模型➕mysql数据库系统功能：爬取微博数据（可以是同类型文章或者制定文章），微博文章情感分析，微博评论情感分析，微博热搜话题分析，爬取数据更新，删除爬取数据饼状图，柱状图，折线图，词云图，地区分布图等各种图表分析！涉及技术：flask+mysql+echarts+SnowNlP情感分析+文本分析+前端 html/js/css。③微博数据分析可视化，文章分析、IP分析、评论分析、舆情分析。②微博数据描述性统计、热词统计、舆情统计。3.热词统计，舆情统计。

2025-02-16 14:23:49 1198 2

原创基于Python的Flask微博话题舆情分析可视化系统

涉及技术：flask+mysql+echarts+SnowNlP情感分析+文本分析+前端 html/js/css。③微博数据分析可视化，文章分析、IP分析、评论分析、舆情分析。✅️修复bug不会突然打不开网页系统稳定。②微博数据描述性统计、热词统计、舆情统计。✅️标价源码远程部署加 20。✅️爬虫可用有六月数据。3.热词统计，舆情统计。编程语言：python。

2025-02-16 12:20:34 571

原创基于Python的深度学习音乐推荐系统（有配套论文）

管理员功能：用户管理、系统设置、音乐管理、音乐推荐管理、系统监控。Python、Django、深度学习、卷积神经网络、算法。利用深度学习和卷积神经网络技术提升音乐推荐的准确性和个性化。提供实时音乐推荐功能，根据用户行为和偏好动态调整推荐内容。用户功能：登录、音乐搜索、音乐播放、音乐推荐接收。系统包含角色：管理员、用户。

2025-02-16 12:13:20 412

原创基于Python豆瓣电影数据可视化分析系统的设计与实现

通过数据爬取收集、清洗、分析豆瓣电影数据，我们提供了一个全面的电影信息平台，为用户提供深入了解电影产业趋势、影片评价与演员表现的工具。首先，我们使用爬虫技术从豆瓣电影网站获取丰富的电影数据，包括电影基本信息、评分、评论等存储到Mysql数据库。基于Flask框架和Echarts图标进行可视化展示，借助Python中的数据分析库（如Pandas、NumPy）和可视化库（如Matplotlib、Seaborn），我们能够以图表的形式清晰地展示电影数据的特征和趋势。❗️❗️❗️大数据可视化项目。

2025-02-15 17:15:10 888

原创 python旅游推荐系统+爬虫+可视化（协同过滤算法）

这个旅游数据分析推荐系统采用了Python语言、Django框架、MySQL数据库、requests库进行网络爬虫开发、机器学习中的协同过滤算法、ECharts数据可视化技术，以实现从网站抓取旅游数据、个性化推荐和直观展示分析结果的全面功能。技术栈: Django框架、协同过滤推荐算法。✅️基于用户的协同过滤算法。

2025-02-15 17:10:49 1841 6

原创 Python基于卷积神经网络的车牌识别仿真（有配套文档）

系统功能模块：登录、首页、车牌识别、车牌管理、修改密码、用户信息、用户管理项目关键技术编程语言: Python数据库: MySQL5.7+框架：B/S、django框架关键技术：MYSQL、Python

2025-02-15 10:09:24 263

原创 Python房屋信息可视化及价格预测系统(含开发文档和PPT）

首页、房价预测、房屋管理、房屋分析、操作管理、用户管理、修改密码、个人信息。

2025-02-15 10:04:37 185

原创 python基于网易新闻评论的舆情热点分析平台（有配套文档）

系统功能模块：登录、首页、评论分析、新闻管理、评论管理、个人信息、修改密码、用户管理项目关键技术开发工具：Eclipse编程语言: Python数据库: MySQL5.7+框架：B/S、关键技术：MYSQL、Python、HTML5。

2025-02-15 09:55:19 258

原创 python基于语音识别的智能垃圾分类系统的设计

系统功能:首页、垃圾分类、修改密码、垃圾分类管理、用户管理关键技术：Django、Mysql、Python、DW。python基于语音识别的智能垃圾分类系统的设计。

2025-02-15 09:45:36 230

原创 python动物识别深度学习分析系统

✔️该系统基于深度学习中的卷积神经网络（CNN），利用 TensorFlow 或 PyTorch 框架，针对动物图像进行高效的分类和识别。通过数据增强技术（如旋转、缩放、裁剪等）扩展数据集，提高模型的鲁棒性和泛化能力，实现对多种动物种类的准确识别。系统支持高分辨率图像的识别，并采用先进的深度可分离卷积和残差连接技术，优化模型性能，降低计算资源消耗。通过图像数据库管理，用户可以轻松上传图像进行识别，并获取详细的识别结果与动物信息。

2025-02-10 09:35:59 412

原创基于python商品比价系统requests爬虫+可视化+Django框架

数据爬取和存储：系统会使用requests发送HTTP请求获取商品页面，并使用爬虫技术从页面中提取所需的商品信息。商品搜索和展示：用户可以输入关键字进行商品搜索，并展示搜索结果。搜索结果包括商品名称、价格、销量等信息。技术栈：Python语言、MySQL数据库、Django框架、requests爬虫技术、HTML。基于python商品比价系统requests爬虫+可视化+Django框架。用户登录和注册：用户可以通过系统进行登录和注册，以获得更好的爬取体验。数据展示和导出：用户可以查看已爬取的商品信息。

2025-02-10 09:21:40 303

原创国内数字人文领域文献主题识别及框架研究商品评论

这一过程中，游客在旅游景区留下的评论数据成为了一种宝贵的资源，它不仅反映了游客的个人体验和感受，也为旅游景区的管理和服务提供了宝贵的反馈信息。基于预处理后的数据进行情感分析，并使用LDA主题模型提取评论关键信息，以了解游客的需求、意见、旅游动机及景区的优缺点等，最终提出改善景区服务和设施的建议，以提升游客满意度，促进旅游业的可持续发展。这些词语反映了游客对景点的基本信息和游览体验的关注。同时，旅游评论中可能包含对旅游安全问题的反馈，通过对这些数据的分析，可以及时发现并处理潜在的安全风险，保障游客的安全。

2025-02-09 20:00:44 981

原创大数据面试SQL-奖金瓜分问题

大数据面试SQL-奖金瓜分问题

2025-01-10 16:59:40 114

原创大厂真实面试题(二)

已知有购买记录表t_order,包含自增id:id,用户ID:user_id，商品ID:goods_id,订单时间：order_time,商品类别：goods_type;购买记录表t_order期望结果。

2024-06-06 11:11:43 272

原创大厂真实面试题(一)

已知有表t_cost_detail包含id和money两列，id为自增，请累加计算money值，并求出累加值与1000差值最小的记录。

2024-06-06 09:45:39 2038

原创 Streampark 入门到生产实践

实时即未来,在实时处理流域和是一个伟大的进步,尤其是被普遍认为是下一代大数据流计算引擎, 我们在使用FlinkSpark时发现从编程模型, 启动配置到运维管理都有很多可以抽象共用的地方, 我们将一些好的经验固化下来并结合业内的最佳实践, 通过不断努力诞生了今天的框架 ——StreamPark, 项目的初衷是 —— 让流处理更简单, 使用StreamPark开发流处理作业, 可以极大降低学习成本和开发门槛, 让开发者只用关心最核心的业务,StreamPark。

2024-03-18 11:44:27 1222

原创 sqoop 抽数报错com.mysql.cj.exceptions.WrongArgumentException: HOUR_OF_DAY: 2 -＞ 3

【代码】sqoop 抽数报错com.mysql.cj.exceptions.WrongArgumentException: HOUR_OF_DAY: 2 -＞ 3。

2023-10-31 17:22:13 927

原创 python 入门到精通（二）

python 的条件判断

2023-09-10 15:05:14 257

原创 python 入门到精通（一）

python 基础介绍和基本数据类型实践

2023-09-09 13:36:00 431

原创辉哥带你学hive第十讲--实战需求(一) 数据准备

hive 中级sql 练习，并且配套sql讲解视频

2023-07-08 23:16:20 278

原创辉哥带你学hive第八讲

根据用户自定义函数类别分为以下三种：一进一出。用户自定义聚合函数，多进一出。类似于：count/max/min用户自定义表生成函数，一进多出。如lateral view explode()

2023-07-02 14:30:18 214

原创辉哥带你学hive第四讲--实战需求(一)

hive实战一

2023-05-15 23:48:24 496 2

原创辉哥带你学hive第一讲 hive基本介绍以及环境搭建

hive基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表。Hive是一个Hadoop客户端，用于将HQL（Hive SQL）转化成MapReduce程序。其中Hive中每张表的数据存储在HDFS，Hive分析数据底层的实现是MapReduce（也可配置为Spark或者Tez）并且执行程序运行在yarn上。

2023-05-11 22:00:56 779 1

原创 Flink 1.14从简单到源码第三讲

Flink 简单到源码第三讲

2023-02-12 18:56:52 454

原创辉哥带你学hive第三讲

Hive的函数

2023-01-01 18:08:30 325

原创辉哥带你学hive第二讲

hive 基本概念

2022-12-26 16:24:57 416

原创离线数据仓库第二讲

数据仓库建模1.ODS层建模方法2.DIM层和DWD层1.ODS层建模方法1.HDFS用户行为数据创建一个表日志表，里面只需要一个字段就行了。这个表然后就是按天分区。每天日志采集2.HDFS业务数据1.同步那些表就建立那些表2.表结构，需要哪些同步那些表的字段。按天进行分区。2.DIM层和DWD层DIM层DWD层需构建维度模型，一般采用星型模型，呈现的状态一般为星座模型。 DIM 对应的是维度表，DWD对应的是事实表维度建模一般按照以下四个步骤：选择业务过程→声明粒度→确认维度→确认事

2022-11-21 23:24:08 1555