- 博客(36)
- 收藏
- 关注
原创 从爬虫到可视化:Python分析豆瓣Top250电影数据
使用Python爬虫技术,通过Requests和lxml采集豆瓣Top250电影数据(含名称、评分、评价人数等),并利用Pandas进行数据清洗与分析。结合Matplotlib/Seaborn绘制评分分布、国家统计等可视化图表,WordCloud生成类型词云,完整实现从数据采集到分析的全流程,揭示高分电影特征与观众偏好。
2025-04-05 14:29:26
398
原创 Python爬虫逆袭:1小时搞定链家全网二手房数据,新手也能轻松抄作业!
本文详细介绍基于Python的链家二手房数据爬虫实现,通过requests和BeautifulSoup库抓取房源信息。代码分为五大模块:环境准备、反爬策略配置、分页URL动态收集、数据解析提取及异常处理与存储。爬虫模拟浏览器请求,自动解析分页逻辑,高效提取房源标题、价格、面积等关键字段,并通过pandas导出为结构化Excel文件。项目注重健壮性设计,包含随机延时、异常捕获等机制,适合作为数据采集入门实战参考,同时强调合法合规的爬虫开发原则。
2025-03-31 13:56:30
1370
原创 基于机器学习的睡眠障碍预测模型对比分析
睡眠障碍对人类健康有着深远的影响,尤其是睡眠呼吸暂停和失眠等问题,会导致注意力下降、慢性疲劳、甚至增加心血管疾病的风险。本研究利用机器学习模型对不同人群的睡眠障碍进行预测和分析,旨在通过数据挖掘找到影响睡眠障碍的关键因素,并对不同模型的预测效果进行对比,以找到最优方案。
2025-03-17 10:34:00
1736
原创 Python中很常用的100个函数整理
Python 内置函数提供了强大的工具,涵盖数据处理、数学运算、迭代控制、类型转换等。本文总结了 100 个常用内置函数,并配备示例代码,提高编程效率。
2025-03-10 14:54:21
5115
3
原创 文本挖掘+情感分析+主题建模+K-Meas聚类+词频统计+词云(景区游客评论情感分析)
本文介绍了如何通过情感分析技术对景区游客评论进行深入挖掘。通过数据预处理、情感分类和文本挖掘方法,提取游客评论中的关键信息,分析了游客对景区的评价与情感倾向。利用朴素贝叶斯和支持向量机(SVM)等机器学习模型进行情感预测,结合评论的点赞量和评分数据,深入探讨了游客的满意度及其与情感之间的关系。通过KMeans聚类分析和LDA主题模型,进一步提取了游客关心的主要话题和潜在问题,为景区管理提供了优化建议。
2025-03-03 17:12:31
1704
原创 揭秘朴素贝叶斯(Naive Bayes)算法:从基础原理到情感分析实践应用
朴素贝叶斯算法是一种基于贝叶斯定理的经典分类算法,以其简单高效的特点在各种分类任务中得到了广泛应用。该算法的核心假设是特征之间相互独立,这使得其能够快速处理大量数据,适用于文本分类、垃圾邮件过滤、情感分析等任务。尽管朴素贝叶斯具有处理小样本数据、计算速度快等优势,但其独立性假设在实际应用中可能影响分类性能,尤其是在特征间存在强相关性的情况下。
2025-02-24 09:35:33
1286
原创 数字识别系统设计与实现
该研究表明,深度学习方法在数字识别任务中表现优异,可进一步推广至更复杂的图像识别应用,如车牌识别、验证码解析等。未来可通过数据增强、迁移学习等方式提升模型泛化能力,使其更适用于多种现实场景。
2025-02-20 22:32:16
1536
原创 Python 数据清洗与处理常用方法全解析
在数据处理与分析过程中,缺失值、重复值、异常值等问题是常见的挑战。本文总结了多种数据清洗与处理方法:缺失值处理包括删除缺失值、固定值填充、前后向填充以及删除缺失率高的列;重复值处理通过删除或标记重复项解决数据冗余问题;异常值处理采用替换或标记方法控制数据质量;数据类型转换确保数据格式符合分析需求,例如转换为整数或日期类型;文本清洗包括去空格、字符替换及转换大小写等操作。此外,还介绍了数据分组统计、数据分箱与标准化的应用。例如,分组统计可按列求均值,数据分箱能为连续变量赋予分类标签,而归一化则通过压缩数据范围
2025-01-27 11:25:02
2894
1
原创 Python读写各类数据文件
Python 提供了多种强大的工具和库,可以轻松实现对各种类型文件的读写操作,满足不同场景的数据处理需求。常见的文件类型包括文本文件(txt)、表格文件(CSV、Excel)、结构化数据文件(JSON、YAML、XML)、二进制数据文件(Parquet)、数据库文件(SQLite),以及其他格式如日志文件(log)、压缩文件(ZIP)和PDF文件等。
2025-01-24 11:50:34
1695
原创 Python机器学习:糖尿病数据集分析与预测
数据集经过清洗与特征选择后,构建了三种不同的机器学习模型:逻辑回归、随机森林和 XGBoost。三者性能依次提升,XGBoost 模型表现最佳。可视化手段有效帮助分析了年龄、性别分布以及关键健康指标与糖尿病诊断的关系。模型评估中,XGBoost 在精度、召回率、F1 分数和 ROC 曲线表现上均优于其他模型,适合用于此类医学诊断任务。
2024-12-29 13:22:30
865
9
原创 pycharm报错AttributeError: module ‘backend_interagg‘ has no attribute ‘FigureCanvas‘. Did you mean: ‘F
解决pycharm使用matplotlib时报错
2024-11-04 21:30:24
4414
2
原创 毕设猫咪交易分析网系统
本项目旨在建立一个猫咪交易分析网,提供用户便捷的数据分析与可视化工具,以帮助其更好地理解市场动态。用户通过注册和登录后,可以获取关于在售猫咪的详细信息,包括品种、年龄、价格等多维度数据,进而进行智能决策。
2024-08-15 15:22:53
294
原创 python报错如下:SyntaxError: Non-UTF-8 code starting with ‘\xca‘ in file
python报错如下:SyntaxError: Non-UTF-8 code starting with '\xca' in file
2023-03-15 20:12:58
663
2
原创 解决进入VMware Workstation Pro中一直在登陆页面无限循环进不去的问题
解决进入VMware Workstation Pro中一直在登陆页面无限循环进不去的问题
2022-10-19 20:24:04
10761
11
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人