- 博客(23)
- 收藏
- 关注
原创 大数据技术实训:Zookeeper集群配置
是万一集群中的Leader服务器挂了,需要一个端口来重新进行选举,选出一个新的Leader,而这个端口就是用来执行选举时服务器相互通信的端口。(1)重命名/opt/module/zookeeper-3.5.7/conf这个目录下的zoo_sample.cfg为zoo.cfg。(2)在/opt/module/zookeeper-3.5.7/zkData目录下创建一个myid的文件。集群模式下配置一个文件myid,这个文件在dataDir目录下,这个文件里面有一个数据就是A的值,
2025-01-11 14:40:18
1042
原创 大数据技术实训:Hadoop完全分布式运行模式配置
1)各个服务组件逐一启动/停止(1)分别启动/停止HDFS组件(2)启动/停止YARN2)各个模块分开启动/停止(配置ssh是前提)常用(1)整体启动/停止HDFS(2)启动/停止YARN。
2025-01-11 14:21:47
1315
原创 大数据技术实训:Hadoop单机配置
模板虚拟机:内存4G,硬盘50G,安装必要环境,为安装hadoop做准备使用yum安装需要虚拟机可以正常上网,yum安装前可以先测试下虚拟机联网情况(1)在/opt目录下创建module、software文件夹(2)修改module、software文件夹的所有者和所属组均为你的用户(3)查看module、software文件夹的所有者和所属组(1)修改克隆虚拟机的静态IP改成(2)查看Linux虚拟机的虚拟网络编辑器,编辑->虚拟网络编辑器->VMnet8。
2025-01-10 15:28:30
643
原创 数据挖掘实训:基于CEEMDAN与多种机器学习模型股票预测与时间序列建模
最后,我们通过可视化预测结果与实际值的对比,直观地展示每个模型的效果。通过图形,可以清楚地看到哪些模型在股票价格预测中表现得更好。plt.show()通过结合CEEMDAN和多种机器学习模型(如SVM、XGBoost、LSTM等),我们能够更准确地预测股票价格。每种模型在不同数据集上的表现有所不同,通过评估指标的比较,我们可以选择最佳的模型进行未来的预测。通过这种方法,不仅能提升股票预测的准确性,还能为金融分析师和投资者提供更有力的数据支持。
2025-01-10 14:15:13
1473
原创 数据挖掘实训:天气数据分析与机器学习模型构建
Location:表示获取该信息的气象站的名称。MinTemp:以摄氏度为单位的最低温度。MaxTemp:以摄氏度为单位的最高温度。Rainfall:当天记录的降雨量,单位为毫米(mm)。:到早上9点之前的24小时内的A级蒸发量,单位为毫米(mm)。Sunshine:白天日照的完整小时数,表示当天白昼时段阳光的强度。:表示在午夜12点前24小时内,最强风的风向。:表示在午夜12点前24小时内,最强风的风速,单位为千米每小时(km/h)。WindDir9am:上午9点时的风向。
2025-01-10 13:35:23
1252
原创 使用CNN进行验证码识别:深度学习与图像预处理教程
通过图像预处理技术、数据增强、以及卷积神经网络的结合,我们可以构建一个高效的验证码识别系统。在实际应用中,可以根据具体的验证码类型调整预处理和模型参数,以提高准确性和泛化能力。
2024-11-14 23:12:46
1252
1
原创 基础:用卷积神经网络(CNN)进行猫狗图像分类
输入层和卷积层# 添加更多卷积层和池化层# 全连接层# 输出层通过本教程,你已经学会了如何使用卷积神经网络进行猫狗图像分类。我们涵盖了数据加载、预处理、CNN模型构建、训练及评估,并展示了如何在测试数据上进行预测。你可以根据自己的需求调整网络结构、优化器和超参数,以获得更好的分类效果。
2024-11-14 22:57:57
966
原创 基于 Python 的 Bilibili 评论分析与可视化
本项目利用 Python 对 Bilibili (哔哩哔哩)平台上的视频评论数据进行爬取、清洗和分析,并通过可视化展示数据的主要特征。数据爬取:使用 Bilibili 提供的 API 获取指定视频的评论数据。数据清洗:对评论内容进行文本预处理,清除无关信息,并对 IP 地址进行地区解析。数据分析数据可视化:使用pyecharts库生成词云图、柱状图、折线图等多种图表,展示评论的分布与趋势。本文将详细介绍每一步的实现过程,以及如何利用 Python 工具处理和分析海量的网络评论数据。
2024-11-14 22:44:00
1386
原创 基于Python 和 pyecharts 制作招聘数据可视化分析大屏
使用WordCloud图展示职位介绍中的高频词。wordcloud.set_global_opts(title_opts=opts.TitleOpts(title="职位介绍词云图"))本教程展示了如何利用 Python 和pyecharts库,从招聘数据中提取关键信息,并通过多种可视化图表呈现分析结果。你可以根据自己的需求调整数据来源和图表类型,进一步扩展和优化你的数据分析大屏。
2024-11-14 22:14:53
1374
原创 基于Spider异步爬虫框架+JS动态参数逆向+隧道代理+自定义中间件的猎聘招聘数据爬取
本项目通过 Scrapy 框架结合 JS 逆向技术和自定义中间件,成功地爬取了猎聘招聘平台的数据,并存储在本地 CSV 文件中。重试机制和代理设置保证了爬虫的稳定性和反爬虫防护。该方案适用于类似需要绕过反爬虫机制的招聘网站或其他数据来源。如果你对 Web 爬虫的其他技术和最佳实践感兴趣,欢迎关注本博客。
2024-11-14 21:52:42
1895
原创 大数据技术基础之Hadoop MapReduce 平均值计算教程
在这个教程中,我们详细介绍了如何使用 Hadoop MapReduce 计算一组数字的平均值。通过逐步分析代码,我们突出了关键逻辑和易错点,帮助你避免常见的错误。希望这能帮助你在实践中更好地应用 Hadoop 技术!
2024-10-28 23:05:46
1020
2
原创 Python自动化登录教务网系统,可实现自动化抢课(以GDTSU为例)
项目的主要目标是通过模拟登录教务系统,实现自动化操作,包括验证码识别、密码加密、登录页面获取、课程表查询以及成绩查询。整个项目基于Python实现,使用了requests库进行HTTP请求,lxml库进行HTML解析,以及一个验证码识别客户端库。这篇博客介绍了如何使用Python实现一个自动化登录系统,并且完成了从验证码识别到成绩保存的整个流程。通过这个项目,你可以学习到许多网络爬虫的实战技巧,例如请求伪装、验证码识别、RSA加密等。希望这篇文章对你有所帮助,欢迎在实践中改进和扩展此项目!
2024-08-28 23:10:16
1460
原创 Python 爬取 TED演讲英文资料视频
通过这篇博客,我们完成了一个完整的 Python 爬虫项目,能够自动化地从 TED 网站上抓取视频和音频流,并通过 FFmpeg 将其合成为本地视频文件。在实际应用中,这种技术不仅可以应用于 TED 视频,还可以扩展到其他提供流媒体服务的网站。需要注意的是,在使用爬虫抓取数据时,应尊重目标网站的版权和使用条款。
2024-08-28 22:42:24
858
原创 使用 Python 多线程高并发快速爬取荣耀社区论坛评论及用户信息
通过这个项目,我们实现了从荣耀社区论坛爬取评论及用户信息的功能,并将数据保存到 CSV 文件中。这个项目展示了如何使用 Python 的requests和lxml进行网页数据抓取,以及如何使用csv模块保存数据。通过多线程加速了爬取过程,使得整个过程更加高效。最后,提醒大家在进行爬虫操作时要遵守目标网站的爬虫规则,并合理设置爬取频率以避免给服务器带来过大负载。
2024-08-28 22:23:36
703
原创 零基础爬取链家二手房信息并保存到 MongoDB 和 MySQL 可视化分析
requests确保你的本地环境中已安装并启动 MongoDB 和 MySQL 数据库。在这个例子中,MongoDB 使用默认的连接,MySQL 使用默认的连接,用户为root,密码为root,数据库为house。
2024-08-28 22:05:25
898
原创 爬取汽车之家:基于selenium和request自动获取汽车信息并保存到CSV文件matplotlib和seaborn可视化分析
接下来,我们定义一个函数用于获取汽车网站的主页面信息。在这个函数中,我们首先设置了请求头headers,然后发送HTTP请求并解析得到HTML树。Win64;
2024-03-17 20:27:27
1045
1
原创 用Python爬取电影信息和图片:零基础教程(电影)
在这篇教程中,我们将一步步介绍如何使用Python爬取喜剧电影的信息和图片。如果你是零基础或者对爬虫不太了解,也不用担心,我们将会详细解释每一个细节。
2024-03-17 19:55:50
5061
1
原创 使用requests爬取58同城二手房信息并使用matplotlib进行可视化展示
这个简单的爬虫示例演示了如何使用Python编写一个网络爬虫,从58同城网站上爬取二手房信息,并将结果保存到CSV文件中。通过了解这个示例,你可以进一步学习和掌握网络爬虫的原理和实践应用。我们展示了如何利用Python中的数据处理和可视化工具对58同城网站上的二手房信息进行分析和展示。这些可视化图表可以帮助我们更好地理解房屋信息的特征和趋势,从而做出更明智的决策。
2024-03-17 19:35:10
2375
1
原创 使用 Scrapy 和 Selenium 爬取 Boss 直聘职位信息(可视化结果)
在这个示例中,我们将创建一个 Scrapy 爬虫,使用 Selenium 来模拟浏览器操作,以抓取 Boss 直聘网站上特定城市的 Python 职位信息。我们将获取职位名称、工资、福利、地区、招聘类型、学历要求、关键词、详细要求、公司名称、是否上市、公司规模、所属行业、公司介绍、详细地址、HR 姓名和职位的信息。以下是实现这一目标的详细步骤。
2024-01-11 21:19:47
5475
11
原创 使用 OpenCV 追踪指定颜色的物体
追踪指定颜色的物体是计算机视觉中的一个有趣的任务。例如,你可以用摄像头捕捉实时视频,并追踪红色的物体。这可以用于各种应用,如机器人导航、交互式游戏或简单的趣味实验。下面是实现这一目标的详细步骤。
2023-09-14 22:37:46
475
1
原创 # 创建实时人脸识别器与有趣装饰物
在这个教程中,我们将使用Python和OpenCV来创建一个实时人脸识别器,它可以检测摄像头捕获的视频流中的人脸,并在人脸上添加有趣的装饰物,例如太阳镜或帽子。这将演示如何使用OpenCV进行基本的图像处理和人脸识别。您需要准备一个装饰物图像,例如太阳镜图像。使用OpenCV的人脸识别分类器来检测人脸。您可以从OpenCV提供的已经训练好的分类器中选择一个。这只是一个简单的示例,您可以根据自己的创意和兴趣添加更多的有趣效果和装饰。运行程序后,您将看到一个实时的视频窗口,其中检测到的人脸上会添加太阳镜。
2023-09-04 12:47:54
191
1
原创 Selenium 基础学习
Selenium是一个用于自动化Web应用程序测试的强大工具,它可以模拟用户在浏览器中的操作。Selenium 4是Selenium WebDriver的最新版本,它带来了许多新功能和改进,使Web自动化更加强大和稳定。本教程将介绍如何使用Selenium 4进行Web自动化测试,并提供一些示例代码来帮助您入门。
2023-09-04 12:40:18
118
1
空空如也
关于scipy的问题,如何解决?(语言-python)
2023-02-24
TA创建的收藏夹 TA关注的收藏夹
TA关注的人