
虚拟机+大数据
pyswt
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python+sparkStreaming+kafka之大数据实时流
首先需要的是环境,我安装的是spark2…1,kafka0-10,hadoop2.7,scala2.11,因为spark是Scala语言写的,所以这个必须的安装,大数据传输存储需要用到Hadoop,HDFS,所以Hadoop需要安装,streaming接受流数据源有两种大的方式,一种是文件和套接字,直接读取文件和通过套接字传输,另一种是高级API形式,可以通过额外的实用程序类获得诸如Kafka,F...原创 2019-12-23 16:31:20 · 2166 阅读 · 0 评论 -
pyspark之RDD,Data Frame,SQL Context 转换与操作
# 加载数据 Path='file:/home/swt/pythonwork/PythonProject/' RawUserRDD = sc.textFile(Path+'data/u.user') RawUserRDD.count() # 查看RDD数据 RawUserRDD.take(5) ['1|24|M|technician|85711', '2|53|F|other|94043',...原创 2019-12-18 11:12:43 · 1242 阅读 · 0 评论 -
pyspark之LogisticRegression算法
import sys import time import pandas as pd import matplotlib.pyplot as plt from pyspark import SparkConf,SparkContext from pyspark.mllib.classification import LogisticRegressionWithSGD from pyspark.ml...原创 2019-12-17 11:48:55 · 769 阅读 · 0 评论 -
pyspark之二分类决策树算法
# 首先还是设定数据目录,取决于你的pyspark是什么方式启动的 global Path if sc.master[0:5] == 'local': Path = 'file:/home/swt/pythonwork/PythonProject/' else: Path = "hdfs://localhost:9000/user/swt/" import numpy as np...原创 2019-12-17 11:29:17 · 1324 阅读 · 0 评论 -
pyspark运行ALS推荐算法
首先创建读取路径,这个取决于你的pyspark是以什么方式启动的 global Path if sc.master[0:5] == 'local': Path='file:/home/swt/pythonwork/PythonProject/' else: Path="hdfs://ubuntu:9000/user/swt/" 我是本地启动 sc.master 'local[*]...原创 2019-12-16 12:30:40 · 1748 阅读 · 0 评论 -
pyspark RDD基本操作
RDD转换运算 # 创建intRDD intRDD = sc.parallelize([3,1,2,5,5,6]) intRDD.collect() [3, 1, 2, 5, 5, 6] # 创建stringRDD stringRDD = sc.parallelize(['apple','pen','banana']) stringRDD.collect() ['apple', 'pen',...原创 2019-12-13 18:11:42 · 338 阅读 · 0 评论 -
Linux安装kafka,flink并运行word count.py测试demo
Linux上安装kafka与flink非常简单(前提需要Java环境),首先到官网下载压缩包,kafka官网选择适合自己的tgz包,下载完可以放到usr/local/下(我的放到这个目录下,可以根据自己的情况), 之后进行解压缩 tar -xzvf 压缩包.tgz 然后进入解压目录启动zookeeper,(因为现在安装kafka无需安装zookeeper,kafka自带) bin/zookeep...原创 2019-11-21 15:55:25 · 671 阅读 · 0 评论 -
基于python+spark环境下的虚拟机中安装Java
虚拟机下安装Java环境,首先得先下载jdk压缩包,这个可以到官网上下载,在这里就不再阐述了。下一步就是把下载下来的压缩包移动到虚拟机下,建议直接移动到home/用户名/ 目录下,也就是终端打开之后默认目录,然后就是解压,命令是 我下载的是jdk-8u101-linux-x64.tar.gz这个版本,可以根据个人需求下载 sudo tar -zxvf jdk-8u101-linux-x64...原创 2019-01-03 11:05:27 · 397 阅读 · 0 评论 -
虚拟机安装单机python+spark环境
python环境Linux系统是自带的,你可以输入python来查看版本(python2版本),输入python3(python3版本)查看。spark安装前提是要下载压缩包,根据个人需求在官网下载压缩包,放到虚拟机得 /home/用户 目录下(我下的是spark-2.1.1-bin-hadoop2.7.tgz这个包)然后开始解压 tar -xzvf spark-2.1.1-bin-hadoo...原创 2019-01-03 17:14:41 · 1064 阅读 · 1 评论