零基础入门深度学习之-002-徒手搭建Spark

最新推荐文章于 2025-08-11 15:12:22 发布

MachineIntellect

最新推荐文章于 2025-08-11 15:12:22 发布

阅读量1.1k

点赞数

CC 4.0 BY-SA版权

分类专栏： spark 文章标签： spark 深度学习 ubuntu python 机器学习

本文链接：https://blog.youkuaiyun.com/MachineIntellect/article/details/55806487

spark 专栏收录该内容

1 篇文章

订阅专栏

本文介绍如何在Ubuntu14环境下安装配置Spark与Python环境，并实现两者的深度整合。通过具体的步骤说明，包括环境变量设置、Py4J安装及Spark与Python交互测试等，帮助读者快速上手使用Spark进行大数据处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

深度学习是机器学习的一个分支，机器学习的入门神器是Spark

提前准备

Ubuntu 14 (自带 Python 2.7)
py4j-0.10.4.tar.gz
spark-2.1.0-bin-hadoop2.7.tgz
jdk-8u121-linux-x64.tar.gz

各种解压略过

这里写图片描述

设置环境变量

nano ~/.bashrc
export JAVA_HOME=~/jdk/jdk1.8.0_121
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
export SPARK_HOME=~/spark/spark-2.1.0-bin-hadoop2.7
export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH
export PATH=${SPARK_HOME}/bin:$PATH
# export PYSPARK_PYTHON=python3

安装 py4j

tar xf py4j-0.10.4.tar.gz
cd py4j-0.10.4/
sudo python setup.py install

run following code in python shell

from pyspark import SparkConf, SparkContext

conf = SparkConf().setMaster("local").setAppName("My App")
sc = SparkContext(conf = conf)
print (sc)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

MachineIntellect

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spring Boot入门(02)：【教程】轻松搭建Spring Boot开发环境，启动你的第一个Web项目！

**My Coding Family**

08-11

3万+

快速搭建开发环境和启动项目是每个开发人员必备的技能。本文将为您提供一些简单易懂的方法和技巧，以帮助您快速搭建开发环境和启动项目。我们将介绍如何选择适合您的开发工具、配置您的操作系统、安装必要的软件包和依赖项，并开始编写您的第一个应用程序。无论您是一位新手还是一位经验丰富的开发人员，本文都会给您提供有用的信息和实用的建议，让您在最短时间内快速搭建和启动开发项目。

Spark (Python版) 零基础学习笔记（一）—— 快速入门

weixin_30235225的博客

11-12

310

由于Scala才刚刚开始学习，还是对python更为熟悉，因此在这记录一下自己的学习过程，主要内容来自于spark的官方帮助文档，这一节的地址为： http://spark.apache.org/docs/latest/quick-start.html 文章主要是翻译了文档的内容，但也在里边加入了一些自己在实际操作中遇到的问题及解决的方案，和一些补充的小知识，一起学习。环境：Ubuntu ...

参与评论您还未登录，请先登录后发表或查看评论

密码学入门：几种简单的密码

热门推荐

听雪楼主

02-12

4万+

密码学入门：几种简单的密码一.维吉尼亚密码维吉尼亚密码引入了“密钥”的概念，即根据密钥来决定用哪一行的密表来进行替换，以此来对抗字频统计。假如以上面第一行代表明文字母，左面第一列代表密钥字母，对如下明文加密：TO BE OR NOT TO BE THAT IS THE QUESTION 当选定RELATIONS作为密钥时，加密过程是：明文一个字母为T，第一个密钥字母为R，因此...

从0开始学pyspark（十）：使用pyspark.ml.clustering模块对商场顾客聚类

泛泛之素

11-16

8913

数据下载：数据为kaggle上的关于商场客户的数据，地址：https://www.kaggle.com/vjchoudhary7/customer-segmentation-tutorial-in-python 数据准备：数据集很小，四个特征值：性别，年龄，收入能力，消费能力，这里我们用收入能力和消费能力两项对客户进行聚类处理 from pyspark.sql import SparkSess...

Spark2.3.0之pyspark实现原理分析

A Vimer's World

03-06

2645

背景 PySpark Performance Enhancements: [SPARK-22216][SPARK-21187] Significant improvements in python performance and interoperability by fast data serialization and vectorized execution. SPARK-222...

深度学习-机器视觉part2

weixin_43186779的博客

04-02

1427

未完待续。

springMVC入门-从零搭建一个springMVC项目

qq_52747920的博客

10-09

569

Spring MVC是Spring Framework提供的Web组件，全称是Spring Web MVC,是目前主流的实现MVC设计模式的框架，提供前端路由映射、视图解析等功能，把软件按照模型，视图，控制器来划分。Model:模型层，指工程中的JavaBean，用来处理数据，主要指的是实体类。这里我们需要选择对应的maven支撑，并选择对应框架，然后新建得到一个web项目。五.书写对应的配置文件，spring.xml与web.xml。具体版本视个人而定，这里使用的是jdk1.8版本。

【PB案例学习笔记】-13 徒手做个电子时钟

再小的帆也能远航，把分享变成一种习惯

05-29

1301

这是PB案例学习笔记系列文章的第11篇，该系列文章适合具有一定PB基础的读者。通过一个个由浅入深的编程实战案例学习，提高编程技巧，以保证小伙伴们能应付公司的各种开发需求。

SpringBoot【一】零基础入门 springboot 及 idea 搭建

mf97532的博客

12-09

841

springboot 零基础入门教学，介绍了 springboot 是什么及使用好处，包括快速创建项目、嵌入 Tomcat 等。通过 maven 构建项目从官网拿 demo 或用 idea 徒手搭建两种方式创建 springboot 项目，并展示了运行步骤及添加依赖等操作，还提供了热门推荐及文末鼓励。

徒手素描的深度学习：综述论文（Deep Learning for Free-Hand Sketch）【NTU】.zip

01-12

徒手写生具有高度的象形性和说明性，自古至今一直被人们广泛地用于描绘物体或故事。最近流行的触摸屏设备使素描创作比...深度学习的繁荣也极大地促进了对徒手写生的研究。本文对面向手绘草图的深度学习技术进行了综述。

AI基础知识图文教程---入门知识学习.docx

10-10

"AI基础知识图文教程---入门知识学习" 从给定的文件信息中，我们可以生成以下重要知识点：一、Illustrator 简介及应用领域 * Illustrator 是美国 Adobe 公司出品的重量级矢量绘图软件，是出版、多媒体和网络图像...

AI基础知识图文教程--入门知识学习.docx

10-10

AI基础知识图文教程--入门知识学习 AI基础知识图文教程是为了帮助初学者快速入门AI相关知识，而本教程的重点是 Illustrator 软件的使用和矢量图形设计。下面是本教程的知识点概况：一、Illustrator 简介及应用...

yolo算法-防护手套和徒手数据集数据集-10944张图像带标签-手套-手-手戴手套.zip

11-24

yolo系列算法目标检测数据集，包含标签，可以直接训练模型和验证测试，数据集已经划分好，包含数据集配置文件data.yaml，适用yolov5,yolov8,yolov9,yolov7,yolov10,yolo11算法；包含两种标签格:yolo格式（txt文件）...

分享一个基于Python和Hadoop的的电信客户特征可视化分析平台基于Spark平台的电信客服数据存储与处理系统源码

m0_72599287的博客

08-10

1254

本文介绍了一个基于Python和Hadoop的电信客户特征可视化分析平台，该系统利用Hadoop平台处理海量电信数据，通过客户流失分析、消费行为分析、服务使用分析、客户特征分析等核心模块，帮助企业优化客户服务策略。平台采用数据仪表板实时展示关键指标，并提供新闻资讯模块支持行业动态。文章展示了系统页面设计效果，并附有核心代码片段（数据加载和分析功能）。该系统可提升电信企业的数据分析能力，通过精准预测客户流失和消费行为，辅助制定营销策略，增强市场竞争力。

Spark AI 算力通平台全球正式上线，引领算力新时代

caijingshiye的博客

08-11

209

SparkAI算力通平台于2025年8月10日全球上线，标志着算力市场进入新纪元。该平台整合全球优质算力资源，采用去中心化分布式技术，实现高效调度和低成本服务，有效解决当前GPU供需失衡问题。在人工智能和大数据需求激增的背景下，平台突破传统算力中心局限，为各行业智能化转型提供支撑，推动全球算力服务向智能化、普惠化发展。未来，SparkAI将持续优化技术，引领算力产业升级。

Spark执行计划与UI分析

分享学习的知识，记录我的技术成长道路

08-10

1049

其中stage 0包含3个task，共Shuffle Write了376.0B，stage 1包含4个task，共Shuffle Write了988.0B，而stage 2包含3个task，一共Shuffle Read了1364.0B=376.0B+988.0B。每个黑色实心圆圈代表一个RDD，但这个图稍显混乱，stage 0中parallelize操作生成的RDD应该是被stage 2中的partitionBy处理的，与stage 1中的parallelize无关，但是没有展示Stage的连接关系。

Hadoop和Spark的区别