大数据
文章平均质量分 67
lyeennnn
美女新人小白
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【无标题】
Apache Spark 是一种开源的集群计算框架,用于快速处理大数据。它是由加州大学伯克利分校AMPLab 开发的,并于 2013 年开源。Spark 提供了一种高效、可扩展和易于使用的编程模型,支持多种编程语言,如 Scala、Java、Python 和 R。Spark 的核心是 Resilient Distributed Dataset(RDD),它是一个可以并行处理的分布式内存数据结构。RDD 可以通过多个操作进行转换和操作,从而实现对数据的高效处理和分析。这些操作包括过滤、映射、聚合、排序等。原创 2023-11-15 12:27:59 · 112 阅读 · 0 评论 -
Spark大数据快速运算实训三:虚拟机进行hadoop安装及配置+工作原理流程解释
Hadoop是一个开源框架,用于分布式存储和处理大型数据集。它基于Google的MapReduce算法和Google文件系统(GFS),旨在提供一种可扩展的、分布式的处理大数据集的平台。Hadoop包括两个核心组件:Hadoop分布式文件系统(HDFS)和Hadoop MapReduce。HDFS是一个可靠的分布式文件系统,用于存储大数据集,而Hadoop MapReduce则是一种用于处理HDFS中存储的数据的编程模型和计算框架。Hadoop被广泛用于大数据处理、数据仓库、日志分析、搜索和机器学习等领域。原创 2023-11-09 15:28:01 · 583 阅读 · 1 评论 -
机器学习项目五:支持向量机(概念题+实操[附代码])
from sklearn.model_selection import train_test_split # 从scikit-learn中导train_test_split用于数据集划分。from sklearn.datasets import load_iris # 从scikit-learn中导入load_iris数据集。(3)求解对偶目标函数W(α),即可获得更新后的α_i、α_j。(2)选取一对需要更新的变量α_i、α_j。(1)固定α_i、α_j以外的参数。原创 2023-11-07 15:53:14 · 609 阅读 · 0 评论 -
爬虫案例一:BeautifulSoup库+request库--爬取学校官网信息
【代码】爬虫案例一:爬取学校官网信息。原创 2023-10-30 15:06:16 · 449 阅读 · 0 评论 -
机器学习项目三:KNN算法
sklearn库有自带的数据集,sklearn.datasets.load_iris()可加载得到鸢尾花数据集。利用KNN算法实现对鸢尾花分类模型的构建及模型性能的基本评估。print('精确度评估结果为:',accuracy_score(label_te, pred))(2)返回前k个点出现频率最高的类别作为当前点的预测分类。(4)计算已知类别数据集中的点与当前点之间的距离。(1)确定前k个点所在类别对应的出现频率。(5)选取与当前点距离最小的k个点。(3)按照距离递增次序排序。原创 2023-11-03 10:08:06 · 95 阅读 · 0 评论 -
Spark大数据快速运算实训二:linux系统的配置基础操作
vi /etc/hostname #在hostname里面只需输入: s0766(也就是要修改的主机名)vim /etc/sudoers #在上一题的基础上继续操作,也就是在root用户下操作。spark ALL=(ALL) NOPASSWD:ALL #文件添加的句子。ls -l /home/ #这里是查看/home目录详细信息。passwd spark #输入密码是不会显示的,输完直接回车。cd apps #切换到/opt/apps目录下。原创 2023-11-02 14:43:15 · 489 阅读 · 0 评论 -
Spark大数据快速运算实训一:linux虚拟机安装及JAVA安装
因为下载java用到的是xshell,所以需要有xshell的运行环境。以下是代码合集,可以直接复制。图片是截图以及添加了说明。原创 2023-11-01 10:33:56 · 699 阅读 · 1 评论
分享