
大数据
文章平均质量分 50
IT_NEU_Lee
大数据开发 深度学习 机器学习 数据挖掘 Java开发 Python程序设计 软件测试开发
展开
-
Spark为什么要在Hadoop基础之上搭建
今天突然想到这个问题 但网上都是些复制粘贴的内容 不能很好地解答 经过查找资料 我在这里给出我的说明 仅供参考: 尽管Spark相对于Hadoop而言具有较大优势(速度快),但Spark并不能完全替代Hadoop,主要用于替代Hadoop中的MapReduce计算模型。(spark中也有MapReduce 但还有更多的用于处理的算子 相对来说处理更加多样化 更重...原创 2018-05-23 23:38:28 · 3384 阅读 · 0 评论 -
简单 解析spark RDD
弹性分布式数据集 RDD(只读,可分区) 这个数据集的部分或者全部可以缓存在内存中。所谓弹性,是指内存不够时可以与磁盘进行交换。RDD 作为数据结构,本质上是一个只读的分区记录集合。一个rdd可以包含多个分区,每个分区就是一个数据集片段。 宽依赖和窄依赖的区别:narrow dependecies 可以支持同一个cluster node 还是哪个以pipeline形式执行多条命...原创 2018-12-02 21:18:07 · 364 阅读 · 1 评论 -
spark基础理论学习
SparkContext负责与ClusterManager通信,进行资源的申请 任务的分配和监控 Worker:集群中任何可以运行appliction代码的节点,类似于yarn中的nodemanager。共享变量:在spark application 运行时,可能需要共享一些变量,提供给task或者driver使用。1可以缓存到各个节点的广播变量 2 只支持加法操作的可以实现求和的累加...原创 2018-11-28 09:38:07 · 214 阅读 · 0 评论 -
spark的RDD
spark的RDD是一个分布式对象集合,每个RDD可以分为多个片(partitions)。分片可以在集群环境的不同节点上计算。创建RDD的两种方式:加载外部数据集或者在驱动程序中部署对象集合。1通过加载一个文本文件作为RDD2 现有的内存集合把他传递给SparkContext的并行化方法。在shell中快速创建RDD 我们知道,RDD有两种操作 转换和动作,RDDs在...原创 2018-11-28 10:17:55 · 196 阅读 · 0 评论 -
linux 的grep操作以及Linux自带wc命令
使用spark进行wordcount后可以通过Linux自带的wc命令进行验证比如 spark命令是求出某个文档中spark的数量 使用wc验证 grep spark README.md | wc 求出README.md中spark的数量 下面介绍一下用到的grep 和 wc命令grep (global search regular expression(RE) an...原创 2018-12-01 09:46:04 · 510 阅读 · 0 评论 -
spark运行模式 standlone mesos yarn
不同的运行模式的主要区别就是他们有自己特定的资源分配和任务调度模块,这些模块用来执行实际的计算任务。常用spark-submit提交spark application 格式如下submit可选参数如下: standalone模式:资源调度是spark框架自己实现,节点分为master和worker节点如果是运行spark-shell等交互式的运行spark任务,那...原创 2018-12-03 23:36:43 · 520 阅读 · 0 评论 -
flume使用注意事项
flume可以有多个source 多个channel 多个sink 为什么要把flume分为source chanel sink多个组件呢?有多个组件是为了更加灵活,可以得到不同的来源,传入不同的地方 也可以只有一个source channel 而没有sink也可以是其他情况agent---flumesource搜集数据(如:每次来一行数据,就读...原创 2019-03-21 11:24:39 · 916 阅读 · 0 评论 -
find根目录(查找某个字段)
linux中在所有文件中查找某个字段 最近在配置文件的过程中,发现有个配置不知道在哪个文件里配置着,试了很多配置文件都没找到 很是奇怪 干脆就在根目录下查找查找这个让人心烦的东西在哪个文件里面 如果强行find的话 会运行太慢,甚至Linux卡死 所以使用下面的命令 提高查询速度find / -maxdepth 5 -type f -size +10c -si...原创 2019-04-09 09:05:03 · 797 阅读 · 0 评论 -
启动hadoop成功后,再次启动datanode 和namenode都没有 但有nodeManager
安装hadoop 启动后发现成功 但之后因为某些原因重新启动 发现重新启动不起来了datanode和namenode都没有了 怎么找也找不到 但可以看到nodeManager还在 这是个什么幺蛾子我重新删除log tmp文件夹 然后format 啊哈 没有一点用最后发现后台进程中JVM占用了50010端口 这我就知道了 因为之前没有合理的关闭ha...原创 2019-07-24 10:58:11 · 1210 阅读 · 0 评论 -
spark子框架汇总
SQL 实时数据流处理 机器学习 图计算 4大子框架1图计算GraphX,下面是一栈式解决GraphX和GraphLab的对比 相比之下 虽然GraphX没有GraphLab快 但一栈式解决让整体更好图存储模式:巨型图的存储有边分割(每个顶点都存储一次,但边可能被分到不同的机器,如果基于边的计算,那么跨机器通信变大)和点分割(边只存储一次) 2实时流处理框架spark ...原创 2018-11-30 11:10:21 · 714 阅读 · 0 评论 -
spark补充
每个应用在一个WorkerNode上只会有一个Executor。每个partition都会由一个task负责运行,有多少partition就有多少task。DAGScheduler给TaskScheduler发送任务时候以stage为单位提交的TaskSet 其实就是task组成的一个数组...原创 2018-12-04 10:50:12 · 223 阅读 · 0 评论 -
Linux查看内存大小与内存插槽数
查看内存插槽数:sudo dmidecode|grep -P -A5 "Memory\s+Device"|grep Size|grep -v Range 查看最大容量:sudo dmidecode | grep -P 'Maximum\s+Capacity'原创 2018-06-27 15:54:14 · 2115 阅读 · 0 评论 -
损失函数
最近正在看数据流算法 里面用到损失函数 竟然还有各种不同类型的损失函数 上网一查还真有然后觉得这篇写的不错 记下来作为自己的记录 以后方便查看 https://blog.youkuaiyun.com/u010976453/article/details/78488279以上链接仅作为学习用途 如有侵权还是什么的 请及时联系...转载 2018-07-16 21:46:48 · 274 阅读 · 0 评论 -
安装Hadoop的时候,ssh另一台主机,切换到另一个用户后只显示$问题 而没有用户名和目录的问题
转载自一下用户:https://blog.youkuaiyun.com/fenmaque00/article/details/49816837/ 只为作为学习记录,如有侵权 请联系亲测可用:问题 : linux新建用户,切换后只显示$的问题,而且有些命令也使用不了,解决方法如下。1、新建用户命令root登录# useradd –d /usr/sam -m jiang此命令创建了一个用户jiang其中-d和-...转载 2018-07-07 21:06:39 · 1565 阅读 · 1 评论 -
电商用户评论情感分析
文本主题模型之:LDA: https://www.cnblogs.com/pinard/p/6831308.html转载 2018-08-28 15:09:22 · 4325 阅读 · 0 评论 -
hadoop集群状态监控之Ganglia
ganglia安装 如下链接内容可供参考 (亲测可用):https://blog.youkuaiyun.com/wuzhongfei88/article/details/45317651 https://blog.youkuaiyun.com/knowledgeaaa/article/...转载 2018-09-01 16:15:09 · 418 阅读 · 0 评论 -
hadoop上传文件时WARN hdfs.DFSClient: DataStreamorg.apache.hadoop.ipc.RemoteException(java.io.IOException)
安装好Hadoop后一直没有用 今天往hdfs上传文件的时候突然出现如下bug,翻看别人的博客和相关查找后 发现是自己当时可能使用了两次hadoop namenode -format 命令 hadoop dfs -put ~/words.txt /testDEPRECATED: Use of this script to execute hdfs command is depreca...原创 2018-09-15 20:49:01 · 3538 阅读 · 0 评论 -
序列化问题
学习Java 大数据Hadoop的时候都有关于序列化的问题 以前一直是模模糊糊,只知道干什么必须要序列化 而不知道为什么要序列化,不序列化又会有什么问题 今天具体查找了一下 略有收获 点击下面:https://blog.youkuaiyun.com/wy0123/article/details/79345842...转载 2018-09-17 18:07:48 · 244 阅读 · 0 评论 -
python源码中明明没有逻辑代码 为什么还能执行呢
最近看Python代码 按照一个函数递进的看下去,最后发现,遇到很多源码什么逻辑都没写,仅仅以一个pass 结尾 但却能得到应该得到的结果,这点真的很奇怪,上网查找后 觉得下面的说法还挺符合我的想法 在这里粘贴出来,以后学习深入后继续增加或者修改相关表述:python是C语言实现的,尽管有很多标准库是由python代码实现,但是涉及到底层支撑架构的功能还是C代码。...原创 2018-10-10 22:24:51 · 2677 阅读 · 0 评论 -
mat格式转换成csv格式
最近发现了一个超好的工具 也可以说是代码 值得推广 能够吧mat格式批量转变成csv格式 超赞 网上的大部分都不是特别好,很多代码都不能很好的运行,现在有个Python版本的,分享给大家# coding=utf-8import scipy.io as sioimport pandas as pdimport osdef mat2csv(): """ 将当前目录...原创 2018-10-28 22:59:08 · 8276 阅读 · 22 评论