
大数据
学习大数据开发和应用知识记录
玩家_名狱
不积跬步,无以至千里
展开
-
Ubuntu安装spark(伪分布式)
首先下载spark安装包到主机,2.4.0版本的spark我是在林子雨老师分享的网盘中下的该网址里有讲到http://dblab.xmu.edu.cn/blog/2441-2/# 解压sudo tar -zxvf spark-2.4.0-bin-without-hadoop.tgz -C /usr/local/cd /usr/lcoal# 改名sudo mv spark-2.4.0-bin-without-hadoop.tgz spark# 设置文件所有者和所有组,我的主机名是zhongsu原创 2020-12-08 22:51:26 · 719 阅读 · 2 评论 -
Python操作spark
本文的内容参考Spark编程基础(Python版) 厦门大学 林子雨在学习下面之前最好先理解Python原生的map函数和reduce函数的作用菜鸟教程Python map() 函数>>> data = [1, 2, 3, 4, 5]>>> for i in map((lambda x: x+5), data):... print(i)...678910菜鸟教程Python reduce() 函数>>> from f原创 2020-12-08 00:41:05 · 6788 阅读 · 0 评论 -
Python使用pyhive库远程操作hive的配置和使用
请先安装好hive,林子雨老师的配置方法,该配置方法是可以配置成功的,请注意配置hive-site.xml文件的时候,里面添加的信息都是在标签里的尾部添加配置hive环境到hive安装的conf目录下,把hive-env.sh.template复制一份并改名为hive-env.shcd /usr/local/hive/conf/cp hive-env.sh.template hive-env.sh然后配置hive-env.sh文件,进入里面会发现里面都是被注释了的。使用命令vim /usr/l原创 2020-11-21 00:41:34 · 6274 阅读 · 17 评论 -
python使用hdfs库操作Hadoop的HDFS
此次使用python的hdfs库操作HDFS,首相安装该库:pip install hdfs其次,要保证HDFS可用,如下图就代表可用,当然你列出的文件和我的不同老规矩,先来看看它这个库的大概结构,方便以后调用。先 import hdfs ,然后跟进hdfs库,查看定义它的地方。如下,既然是连接的库,那么这个client就是连接的客户端了,这里出现了三个client,它们有什么不同首先是Client类,转到定义处之后,可以发现它里面有很多操作,基本的增删查改都有了,看它的 __init__ 方法,原创 2020-11-01 15:38:42 · 12218 阅读 · 0 评论 -
python使用happybase库操作hbase
若想深入理解Hbase的系统架构,推荐:https://www.jianshu.com/p/479bc6308381happybase官方文档:https://happybase.readthedocs.io/en/latest/api.html#使用happybase库操作hbase先安装该库 pip install happybase然后确保 hadoop 和 hbase 可用并开启能进行hdfs操作就代表hadoop正常运行能在 hbase shell 下使用 list 命令并不报错就代原创 2020-10-17 20:05:32 · 5830 阅读 · 1 评论 -
matplotlib简单使用汇总
参考链接:https://www.jianshu.com/p/da385a35f68d画点图、线图import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom matplotlib.ticker import MultipleLocator# 使用numpy产生函数数据x = np.arange(6, 100, 0.5)y = x * 2x2 = np.arange(0, 10, 0.1)y2 .原创 2020-10-06 23:27:17 · 402 阅读 · 0 评论