- 博客(21)
- 收藏
- 关注
原创 大数据技术原理-spark编程与应用
本实验总结了在"大数据技术原理"课程中进行的Spark编程实验。实验环境基于Apache Spark,旨在通过实践加深对Spark数据处理能力的理解。实验的主要内容包括开启Spark shell、导入必要的包、读入数据集、数据预处理、聚类模型训练、确定数据模型的中心点、样本聚类归属识别、聚类有效性度量,以及对单点数据的测试。实验过程中没有遇到技术难题,顺利完成了所有预定任务。使得Spark在处理速度和性能上相较于Hadoop有显著提升,特别适合需Spark编程;聚类分析;大数据技术;Hadoop;数据处理
2024-08-02 01:16:23
1233
2
原创 大数据技术原理-spark的安装
本实验报告详细记录了在"大数据技术原理"课程中进行的Spark安装与应用实验。实验环境包括Spark、Hadoop和Java。实验内容涵盖了Spark的安装、配置、启动,以及使用Spark进行基本的数据操作,如读取本地文件、文件内容计数、模式匹配和行数统计。此外,实验还包括了对HDFS文件的读取和操作,以及使用Spark实现的词频统计程序。实验总结指出,Spark不仅继承了Hadoop MapReduce的优点,还通过将中间结果存储在内存中,避免了频繁的磁盘I/O操作,从而显著提高了数据处理速度。
2024-08-01 15:51:38
847
1
原创 大数据技术原理-NoSQL数据库的应用
本实验报告聚焦于"大数据技术原理"课程中的NoSQL数据库实验。实验环境包括MySQL、Redis、MongoDB、Java以及Hadoop。实验内容涉及Redis和MongoDB的安装、配置和基本操作,包括数据的插入、删除和查询。此外,实验还包括使用Java API对MongoDB进行访问和操作。总体强调了Redis作为缓存数据库的优势,以及MongoDB作为文档型NoSQL数据库的特点。Redis以其快速的读取速度和高效的运行效率著称,而MongoDB以其灵活的模式和丰富的查询语言为开发者提供了强大的数
2024-08-01 15:23:15
1101
1
原创 大数据技术原理-MapReduce的应用
本实验报告详细阐述了在“大数据技术原理”课程中进行的MapReduce编程实验。实验环境基于Hadoop平台和Ubuntu操作系统。实验的核心内容包括使用MapReduce编程模型实现文件的合并去重、排序以及对给定表格信息的挖掘。实验结果表明,MapReduce模型能够有效地处理大规模数据集,通过Map函数和Reduce函数的协同工作,实现了数据的高效合并、去重和排序。本实验不仅加深了对MapReduce编程原理的理解,而且提升了解决实际大数据问题的能力。关键词:MapReduce;Hadoop;大数据
2024-08-01 15:03:45
1057
1
原创 大数据技术原理-HDFS的安装与应用
本实验报告详细记录了“大数据技术原理”课程中的HDFS(Hadoop分布式文件系统)实验。实验环境基于Ubuntu操作系统,Hadoop框架,以及开发工具JDK和Eclipse。实验内容涵盖了Hadoop的启动、HDFS命令的操作,包括目录的创建、文件的查看、复制、移动和删除,以及通过Java应用程序与HDFS的交互。通过本次实验,深入了解了HDFS的基本命令及其作用,掌握了在Hadoop平台上进行文件操作的方法,并提高了使用Java进行大数据处理的能力。关键词:HDFS;Hadoop;大数据;文件系统
2024-08-01 00:37:19
559
1
原创 大数据技术原理-Hbase的安装和应用
本实验报告详细介绍了在“大数据技术原理”课程中进行的HBase实验。实验环境基于Hadoop生态系统,包括HBase和Java。实验内容涵盖了HBase的安装、版本查询、SSH登录、Hadoop与HBase的启动与关闭,以及通过HBase Shell命令实现数据的基本操作,如表的创建、数据的插入、删除和查询。关键词:HBase;大数据;Hadoop;Shell命令;数据操作
2024-08-01 00:22:53
1114
1
原创 大数据技术原理-Hadoop的安装
随着大数据时代的到来,Hadoop作为一项重要的分布式计算框架,其安装与配置是大数据技术学习者必须掌握的技能。本文通过实验报告的形式,详细记录了在虚拟机环境下安装Hadoop并配置其为伪分布式模式的全过程。实验过程中,遇到了虚拟机无法上网的问题,并通过调整网络配置成功解决。此外,实验还涉及到文件的复制与输出操作,以及Hadoop grep命令的执行,最终通过手动命令安全关闭Hadoop服务以防止数据丢失。本文不仅提供了一个完整的Hadoop安装与配置指南,还分享了实验过程中的问题解决策略和个人感悟,旨在为大
2024-07-31 23:53:53
363
1
原创 脑科学基础--课程论文 --探索大脑的奥秘:认知功能与神经机制
本研究的意义在于为理解大脑如何在执行复杂认知任务时进行动态调节提供了新的视角,并对教育和医疗领域提供了潜在的应用前景。然而,研究也存在局限性,如样本量较小、技术捕捉的局限性以及实验室环境与现实世界的差异等。未来的研究需要在更大的样本和更多样化的任务中进行验证,并考虑结合新的神经成像技术,探索个体差异的来源,以及在更自然的环境中进行研究。[关键词] 脑科学,认知功能,神经机制,神经网络,神经可塑性
2024-07-19 17:18:33
1891
1
原创 基于数据挖掘(朴素贝叶斯算法)的豆辦评论文本情感分析(修改版)
本文探讨了基于朴素贝叶斯算法的文本情感分析方法,特别针对豆瓣网站上的评论数据。文章首先概述了情感分析的重要性和发展历程,指出了现有方法的局限性,包括文本数据的多样性和复杂性、多语言和跨文化情感分析的困难,以及处理大规模数据集时的效率和可扩展性问题。针对这些问题,文章提出了一种改进策略,梳理了基于机器学习和深度学习的情感分析方法,并探讨了如何利用大数据技术提高情感分析的效率和可扩展性。作者提出了一种结合传统机器学习和深度学习的方法,旨在提高情感分析的准确性和效率。朴素贝叶斯算法;文本情感分析;数据挖掘;豆
2024-07-19 16:24:38
1668
6
原创 数据挖掘论文-基于朴素贝叶斯的豆辦评论文本情感分析
本文探讨了基于朴素贝叶斯算法的文本情感分析方法,特别针对豆瓣网站上的评论数据。文章首先概述了情感分析的重要性和发展历程,指出了现有方法的局限性,包括文本数据的多样性和复杂性、多语言和跨文化情感分析的困难,以及处理大规模数据集时的效率和可扩展性问题。针对这些问题,文章提出了一种改进策略,梳理了基于机器学习和深度学习的情感分析方法,并探讨了如何利用大数据技术提高情感分析的效率和可扩展性。作者提出了一种结合传统机器学习和深度学习的方法,旨在提高情感分析的准确性和效率。
2024-07-17 18:19:11
1080
3
原创 操作系统-实验部分截图
1、 编写程序,解决生产者及消费者问题。分别创建6个生产者及消费者进程,使用信号量机制实现生产者及消费者进程间的同步及互斥。每个生产者进程随机睡眠0~9秒模拟生产数据的过程,然后把自己的进程号写入共享存储区,每个消费者进程从中读取数据并输出并且同步输出自己的进程号。要求程序结果可完整演示生产者及消费者同步生产数据及接受数据的全过程。
2024-07-17 18:16:05
240
1
原创 机器学习--实现ROC,PR曲线
ROC曲线是模型在不同阈值下的真正例率(TPR)和假正例率(FPR)绘制成曲线。TPR与FPR的计算:真正例率(TPR):在实际为正例的样本中,模型正确预测为正例的比率。假正例率(FPR):在实际为负例的样本中,模型错误预测为正例的比率。
2023-10-23 21:06:17
136
1
原创 K近邻算法实现
二.算法的原理1.从本次实验中,我明白了K近邻算法是一种简单而有效的分类和回归算法。K近邻算法的简单性也使得它成为一种常用的分类和回归方法之一,通过计算样本之间的相似度,K近邻算法可以对新样本进行分类或回归预测。总结起来,K近邻算法的关键是选择合适的k值和距离度量方法。合理选择这些参数,结合适当的特征选择和数据预处理,可以提高算法的准确性。
2023-10-09 19:25:10
79
1
集美大学自然语言处理(NLP)的课程设计报告模版
2024-08-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人