- 博客(34)
- 资源 (2)
- 收藏
- 关注
原创 leetcode 15 三数之和
给定一个包含 n 个整数的数组 nums,判断 nums 中是否存在三个元素 a,b,c ,使得 a + b + c = 0 ?找出所有满足条件且不重复的三元组。注意:答案中不可以包含重复的三元组。示例:给定数组 nums = [-1, 0, 1, 2, -1, -4],满足要求的三元组集合为:[ [-1, 0, 1], [-1, -1, 2]]解法一两层for循...
2020-02-08 10:27:58
199
原创 hive select 报错
Hive用 load data数据到建好的表里后使用select查询语句报错,一直报java.io.IOException: org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.ClassCastException经过检查,发现是数据文件中的字段顺序和表字段顺序不对应。原因:select查询插入数据,字段值顺序要与表中...
2019-08-23 11:28:13
1149
原创 大数据之路 阿里巴巴大数据实践 读书笔记
一 、总述人类正在从IT时代走向DT时代。现在的数据呈爆炸式增长,其潜在的巨大价值有待发掘。但是如果不对数据进行有序、有结构的分类组织和存储,它将变成一场灾难。在阿里内部,数据的存储达到EB级别。这些给数据采集、存储、计算都带来了极大的挑战。随着数阿里内部数据量的剧增,以及日益丰富的业态,这些都给大数据系统的构建提供了更复杂的要求。本书介绍的阿里巴巴大数据系统架构,就是为了满足不断变化的业务...
2019-03-19 16:52:43
2405
原创 Tuning Spark( 内存管理和数据序列化)
由于大多数spark计算的内存特性,spark程序可能会受到集群中任何资源的瓶颈:CPU、网络带宽或内存。大多数情况下,如果数据适合内存,瓶颈是网络带宽,但有时还需要进行一些调整,例如以序列化形式存储RDD,以减少内存使用。数据序列化序列化在任何分布式应用程序的性能中起着重要的作用。 很慢的将对象序列化或消费大量字节的格式将会大大减慢计算速度。 这可能是优化 Spark 应用程序的第一件事。 ...
2019-03-13 17:01:40
201
原创 部署指南——部署模式
Spark Standalone ModeSpark 提供了一个简单的 standalone 部署模式。您可以手动启动 master 和 worker 来启动 standalone 集群,或者使用我们提供的 launch scripts 脚本。可以为了测试而在单个机器上运行这些进程。安装 Spark Standalone 集群安装 Spark Standalone 集群,只需要将编译好的版本...
2019-03-13 16:43:09
807
原创 部署指南——集群模式概述和提交应用
集群模式概述组件Spark 应用在集群上作为独立的进程组来运行,在您的 main 程序中通过 SparkContext 来协调(称之为 driver 程序)。具体的说,为了运行在集群上,SparkContext 可以连接至几种类型的 Cluster Manager(既可以用 Spark 自己的 Standlone Cluster Manager,或者 Mesos,也可以使用 YARN),它们...
2019-03-13 16:25:36
245
原创 Structured Streaming Programming Guide
概述结构化流是一种基于Spark SQL引擎的可扩展且容错的流处理引擎。他可以像表达静态数据的批处理计算一样表达流式计算。快速示例监听本地netcat服务器的输入内容 实时计算每个单词出现的次数在屏幕上打印可以通过运行下载的Spark目录下的程序直接启动 再另外启动一个netcat服务器 再服务器终端输入内容即可在控制台看见相应的输出编程模型结构化流中的关键思想是将实时数据流视为连续追...
2019-03-13 16:01:39
382
原创 Spark SQL, DataFrames and Datasets Guide——性能调优
对于某些工作负载,可以通过缓存内存中的数据或打开一些实验选项来提高性能。Spark SQL可以通过调用spark.catalog.cacheTable(“tableName”)或使用内存中的列式格式来缓存表dataFrame.cache()。然后,Spark SQL将仅扫描所需的列,并自动调整压缩以最小化内存使用和GC压力。您可以调用spark.catalog.uncacheTable(“tab...
2019-03-13 13:59:01
219
原创 Spark SQL, DataFrames and Datasets Guide——数据源
Generic Load/Save Functions(通用加载保存功能)在最简单的形式中, 默认数据源(parquet, 除非另有配置 spark.sql.sources.default )将用于所有操作。也可以指定选项。DataFrames 也可以使用 saveAsTable 命令作为 persistent tables (持久表)保存到 Hive metastore 中,对于 file-...
2019-03-13 13:50:45
203
原创 Spark SQL, DataFrames and Datasets Guide——Getting Started
Getting Started起点: SparkSessionSpark中所有功能的入口点都是SparkSession类。要创建基本的SparkSession,只需使用SparkSession.builder():import org.apache.spark.sql.SparkSessionval spark = SparkSession .builder() .appName...
2019-03-13 13:01:23
154
原创 Spark编程指南-RDD编程指南
概述Spark 应用程序由一个在集群上运行着用户的 main 函数和执行各种并行操作的 driver program(驱动程序)组成。Spark 提供的主要抽象是一个弹性分布式数据集(RDD)RDD 可以从一个 Hadoop 文件系统或其他地方获得。了让它在整个并行操作中更高效的重用,也许会让 Spark persist(持久化)一个 RDD 到内存中。最后,RDD 会自动的从节点故障中恢复。...
2019-03-13 11:41:43
211
原创 Spark编程指南-快速开始
本教程简要介绍了如何使用Spark。我们将首先通过Spark的交互式shell(在Python或Scala中)介绍API,然后展示如何使用Java,Scala和Python编写应用程序。首先,从Spark网站下载Spark的打包版本 。由于我们不会使用HDFS,您可以下载任何版本的Hadoop的软件包。请注意,在Spark 2.0之前,Spark的主要编程接口是Resilient Distri...
2019-03-12 19:56:02
363
原创 Spark的scala版本和sbt的scala版本不同打包提交运行失败
在提交sbt的jar包到Sprak运行时:报异常:Caused by: java.lang.BootstrapMethodError: java.lang.NoClassDefFoundError: scala/runtime/LambdaDeserialize at SimpleApp$.$deserializeLambda$(SimpleApp.scala) ... 60 moreC...
2019-03-12 19:33:59
1826
原创 Spark官方文档读书笔记概述
序言本读书笔记基于Spark官方文档2.4.0版本,在阅读英文源文档时候借助谷歌翻译完成。同时在具有疑惑的地方参考网上已翻译的基于2.2.0版本的Spark文档。概述Apache Spark是一种快速通用的集群计算系统。它提供Java,Scala,Python和R中的高级API,以及支持通用执行图的优化引擎。它还支持一组丰富的更高级别的工具,包括Spark SQL用于SQL和结构化数据的处理...
2019-03-12 17:04:24
158
原创 strom运行jar包报异常 Exception in thread "main" java.lang.NoClassDefFoundError: backtype/storm/topology/I
storm集群提交jar包运行时 一直报异常:Exception in thread "main" java.lang.NoClassDefFoundError: backtype/storm/topology/IRichSpout经过几天的挣扎 发现是strom版本问题strom官网有句话:In the latest version, the class packages have ...
2019-02-05 13:56:57
1769
原创 hbase启动后hmaster一会自动挂掉,hregionserver启动不了
背景是这样 hbase单机伪分布式 zookeeper采用的虚拟机的单节点zookeeper执行start-hbase.sh后问题一启动了hmaster 一会自己又挂掉了解决:zookeeper问题 没启动好检查zoo.cfg发现里面配置的server ip 不对问题二hregionserver无法启动: 查看日志 显示16020端口占用和hmaster冲突解决:使...
2019-01-17 16:43:38
3090
原创 Hadoop集群中DataNode启动不了
主要原因是因为datanode的clusterID 和 namenode的clusterID 不匹配解决办法停止Hadoop的所有进程删除每个节点Hadoop目录下 logs 和 tmp手动创建每个节点下 logs 和 tmp 文件夹到Hadoop/bin目录下,重新格式化:hdfs namenode -format没有问题后,重新启动hadoop集群,DataNode...
2018-12-20 14:52:25
1570
1
转载 hadoop分布式集群搭建
Hadoop的搭建有三种方式,单机版适合开发调试;伪分布式版,适合模拟集群学习;完全分布式,生产使用的模式。这篇文件介绍如何搭建完全分布式的hadoop集群,一个主节点,三个数据节点为例来讲解。基础环境环境准备1、软件版本四台服务器配置,系统:centos6.5、内存:1G、硬盘:20G四台服务器分配的IP地址:192.168.0.71/72/73/74规划:71用作主节点用作hado...
2018-12-20 14:47:39
129
原创 集群各机器时间问题
集群搭建遇到什么怪莫名其妙的问题 注意集群中机器的时间一定要保持一致 最好和现在真实时间相同hadoop集群各种问题都是由于此导致的 解决了整整一天才发现这个问题下次一定提醒自己要注意集群之间 各机器时间的问题...
2018-12-15 23:17:39
422
原创 linux主机之间的免密登录
两台机器 mini1 和mini2 现在要实现mini1登录mini2免密检查~/.ssh目录下有没有公钥私钥文件(id_rsa.pub和id_rsa) 如果没有使用命令ssh-keygen生成(提示时候 直接回车即可)然后将mini1自己的公钥拷贝并追加到mini2的授权列表文件authorized_keys中使用命令ssh-copy-id root@mini2(root指定mi...
2018-12-15 14:10:16
252
原创 Hive安装
我搭建的大数据学习环境 hadoop是四台机器的一个集群安装Hive的时候只需要安装在一个节点上即可上传tar包到安装目录下 /usr/local解压tar -zxvf apache-hive-1.2.1-src.tar.gz /usr/local/apache-hive-1.2.1安装mysql数据库(切换到root用户)(装在哪里没有限制,只有能联通hadoop集群的节点...
2018-12-14 15:14:53
1185
原创 登录mysql出错 Access denied for user 'root'@'localhost'
登录mysql的时候一直出错ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES)结合网上好多文章解决如编辑mysql配置文件my.ini(不知道在哪请搜索),在[mysqld]这个条目下加入skip-grant-tables保存退出后重启mysql /etc/in...
2018-12-12 21:52:56
223
原创 leetcode28实现strStr()
实现 strStr() 函数。给定一个 haystack 字符串和一个 needle 字符串,在 haystack 字符串中找出 needle 字符串出现的第一个位置 (从0开始)。如果不存在,则返回 -1。示例 1:输入: haystack = “hello”, needle = “ll”输出: 2示例 2:输入: haystack = “aaaaa”, needle = “bba...
2018-12-10 22:13:59
97
原创 leetcode127 单词接龙
给定两个单词(beginWord 和 endWord)和一个字典,找到从 beginWord 到 endWord 的最短转换序列的长度。转换需遵循如下规则:每次转换只能改变一个字母。转换过程中的中间单词必须是字典中的单词。说明:如果不存在这样的转换序列,返回 0。所有单词具有相同的长度。所有单词只由小写字母组成。字典中不存在重复的单词。你可以假设 beginWord 和 endW...
2018-12-09 18:25:48
361
原创 leetcode98 验证二叉搜索树
给定一个二叉树,判断其是否是一个有效的二叉搜索树。假设一个二叉搜索树具有如下特征:节点的左子树只包含小于当前节点的数。节点的右子树只包含大于当前节点的数。所有左子树和右子树自身必须也是二叉搜索树。示例 1:输入:2/ 1 3输出: true示例 2:输入:5/ 1 4/ 3 6输出: false解释: 输入为: [5,1,4,null,null,...
2018-12-08 23:18:00
93
原创 leetcode73 矩阵置零
给定一个 m x n 的矩阵,如果一个元素为 0,则将其所在行和列的所有元素都设为 0。请使用原地算法。示例 1:输入:[[1,1,1],[1,0,1],[1,1,1]]输出:[[1,0,1],[0,0,0],[1,0,1]]示例 2:输入:[[0,1,2,0],[3,4,5,2],[1,3,1,5]]输出:[[0,0,0,0],[0,4,5,0],...
2018-12-05 11:36:20
209
原创 mac下读取ntfs
最近需要在mac下读取ntfs 有两种方式开启mac原生的读取ntfs的方式具体操作 网上一搜就有了但是在我的电脑上 开启后那个分区无法挂载 等于没用使用ntfs for mac破解版paragon ntfs for mac 15破解版...
2018-12-04 11:01:48
923
原创 解决本地调试远程hdfs用户名权限问题
解决本地调试远程hdfs用户名权限问题自己使用idea运行mapreduce程序 本地的hadoop访问远程hdfs本地用户名lilinglin hdfs用户名root 启动时会导致以下异常:Exception in thread "main" org.apache.hadoop.security.AccessControlException: org.apache.hadoop.secu...
2018-12-03 20:09:06
1240
原创 mapreduce程序启动时日志警告
mapreduce程序启动时日志警告log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory).log4j:WARN Please initialize the log4j system properly.log4j:WARN See htt...
2018-12-03 19:20:22
336
原创 二维数组空指针,打印杨辉三角
需求:输出杨辉三角错误代码:import java.util.Scanner;class arraydemo3{ public static void main(String[] args){ Scanner sc = new Scanner(System.in); System.out.println("请输入你要打印的杨辉三角形的行数"); int h = sc.nextI
2017-01-21 23:32:56
473
翻译 水仙花数案列,如何求一个数字个位百位等的具体数值。
int x=1375;int geiwei=x%10;int shiwei=x/10%10;int baiwei=x/100%10;int qianwei=x/1000%10;
2017-01-19 23:42:49
300
paragon ntfs for mac15破解版
2018-12-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人