
大数据
文章平均质量分 57
南方划水的banana
这个作者很懒,什么都没留下…
展开
-
scala编程入门(理解)
参考书籍Scala编程 Martin Odersky, LexSpoon, Bill Venners Scala 是高层级的Scala 可以通过让你提升你设计和使用的接口的抽象级别来帮助你管理复杂性。例如,假设你有一个 String 变量name,你想弄清楚是否 String 包含一个大写字符。在 Java 里,你或许这么写:// 在Java 里 boolean nam原创 2017-05-23 21:32:40 · 385 阅读 · 0 评论 -
flume与spark-streaming联通(测试过程)
安装好flume 配置flume配置文件,确定flume数据源以及要将数据发送给谁安装telnet apt-getinstall xinetd telnetd 安装后使用显示 root@master:/usr/local/hadoop-2.7.5/sbin#telnet bash:telnet: command not ...原创 2018-07-05 08:16:39 · 882 阅读 · 0 评论 -
spark中python读取json
找到json文件 /usr/local/spark/examples/src/main/resources/people.json编写应用程序jsontext.py frompyspark import SparkContext importjson sc=SparkContext('local','JSONAPP') inputFile...原创 2018-07-05 08:13:38 · 1422 阅读 · 0 评论 -
在集群上运行python编写的spark应用程序(过程记录)
启动hadooproot@master:/usr/local/hadoop-2.7.5/sbin#./start-all.sh This script is Deprecated. Instead use start-dfs.shand start-yarn.shStarting namenodes on [master]master: starting namenode, logging to/...原创 2018-07-05 08:12:32 · 10894 阅读 · 0 评论 -
pyspark之词频统计(解释)
要让python程序具有spark的功能,能够编写出在spark上运行的程序,需要先导入pyspark的包 frompyspark import SparkContext然后假设要从一个文本文件中读取数据,进行词频统计,那么就要先读取文本文件 textFile= sc.textFile("file:///usr/local/spark/mycode/wordcount/wo...原创 2018-07-05 08:09:26 · 5881 阅读 · 0 评论 -
docker中hadoop分布式集群导出保存
步骤 将容器保存为镜像 将镜像打包 将打包文件导出将容器保存为镜像 $sudo docker ps CONTAINERID IMAGE COMMAND CREATED STATUS PORTS N...原创 2018-07-05 08:08:08 · 361 阅读 · 0 评论 -
docker内搭建spark分布式集群(python)
原创 2018-06-29 14:48:39 · 795 阅读 · 0 评论 -
docker搭建hadoop分布式集群
查看当前镜像 spc@spc-virtual-machine:~$ sudo docker images //这是镜像REPOSITORY TAG IMAGE ID CREATED SIZEhello-world latest e38bc07ac1...原创 2018-06-29 14:47:01 · 624 阅读 · 1 评论 -
MapReduce计算成绩
原创 2018-06-22 10:10:38 · 923 阅读 · 0 评论 -
Docker常用命令
1. docker版本hduser@hadoop:~/Desktop$ sudo docker versionClient: Version: 17.04.0-ce API version: 1.28 Go version: go1.7.5 Git commit: 4845c56 Built: Mon Apr 3 18:01:08 2017 OS...原创 2018-04-16 16:42:55 · 477 阅读 · 0 评论 -
Docker内安装Flume
1. 复制文件到docker(主机内复制到docker内)root@hadoop:/var/lib/docker/aufs/mnt# sudo docker cp --helpUsage: docker cp [OPTIONS] CONTAINER:SRC_PATH DEST_PATH|- docker cp [OPTIONS] SRC_PATH|- CONTAINER:DEST_PAT原创 2017-05-09 17:20:25 · 4473 阅读 · 0 评论 -
docker 内sbt安装
安装 准备安装1.0 1) 官网安装方式 ubuntu和其他debian的发行版echo "deb https://dl.bintray.com/sbt/debian /" | sudo tee -a /etc/apt/sources.list.d/sbt.listsudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv原创 2017-05-16 14:57:50 · 1114 阅读 · 0 评论 -
Hadoop完全分布式搭建 【可行】
1. 首先根据之前的文章搭建好hadoop单节点环境2. 分布式集群规划名称 IP HDFS YARNmaster 192.168.56.100 NameNode ResourceManagerdata1 192.168.56.101 DataNode NodeManagerdata2 192.168.56.102 DataNode NodeMa原创 2017-04-22 16:48:57 · 519 阅读 · 0 评论 -
Docker内flume http source & hdfs sink
场景: 使用flume的http source 获取数据,hdfs sink将数据输入到hdfs ,下面是进行的配置和说明 Sink-hdfs 查看用户文档 http://flume.apache.org/FlumeUserGuide.html#netcat-source 修改配置文件 1. 官方文档的例子 2. 修改配置 root@master:/usr/local原创 2017-05-13 15:47:01 · 467 阅读 · 0 评论 -
spark安装:在hadoop YARN上运行spark-shell
详见:http://www.jianshu.com/p/ca08f2f5ec50原创 2017-04-22 20:08:46 · 444 阅读 · 0 评论 -
Hadoop完全分布式搭建(2)
1. 首先根据之前的文章搭建好hadoop单节点环境2. 分布式集群规划名称IPHDFSYARNmaster192.168.56.100NameNodeResourceManagerdata1192.168.56.101原创 2017-04-22 16:54:34 · 399 阅读 · 0 评论 -
Hadoop 单节点搭建【可行】
Hadoop 单节点搭建 环境: VirtualBox Unbuntu14.04 LTS安装JDK查看当前java版本java -version更新最新的软件包信息sudo apt-get updata安装JDKsudo apt-get install default-jdk再查看java版本java -version安装SSHsudo apt-get install ssh安装rs转载 2017-04-22 15:29:56 · 509 阅读 · 0 评论 -
python+flask+socket-io+echarts数据可视化
查看本机python版本安装psutil 打开window power shell安装psutil PSC:\Users\space> pip install psutil Collectingpsutil Downloadinghttps://files.pythonhosted.org/packages/c6/bf/09b13c17f5...原创 2018-07-05 08:17:51 · 1847 阅读 · 0 评论