
技术-大数据
爱萨萨
快乐工作、快乐生活~
展开
-
转:spark项目实战-电商分析平台
spark 电商分析转载 2022-09-20 14:14:13 · 508 阅读 · 0 评论 -
转:Hadoop安装搭建伪分布式教程
hadoop伪分布式安装配置转载 2022-06-02 09:41:42 · 324 阅读 · 0 评论 -
转:大数据处理与开发课程设计——纽约出租车大数据分析
大数据处理与开发课程设计——纽约出租车大数据分析_LHR13的博客-优快云博客_出租车大数据分析一、设计目的综合应用所学的Hadoop/Spark/Storm/Mongdb等技术,设计并实现一个较为完整的小型大数据处理和分析系统。通过系统分析、系统设计、编程调试、撰写实验报告等环节,初步掌握大数据分析软件系统设计的方法和步骤,灵活运用Java高级编程等语言进行软件开发,提高分析问题和解决问题的能力。提高Java高级程序设计水平,培养必要的工程实践动手能力。理解 HDFS 文件系统转载 2022-05-09 15:35:20 · 4483 阅读 · 1 评论 -
(转)hadoop3.2.1安装(vm版)
hadoop安装及配置,包括eclipse、idea的配置及使用。转载 2022-03-20 14:35:54 · 797 阅读 · 0 评论 -
转:spark的练习题(6)
https://blog.youkuaiyun.com/qq_42721694/article/details/850015781.排序: 定义三个文件对文件内容进行排序(数字) package com.hyxy.spark01 import org.apache.spark.{SparkConf, SparkContext} object listarray { def main(args: Array[String]): Unit =...转载 2020-11-19 08:19:32 · 581 阅读 · 0 评论 -
转:scala常见笔试题
scala最近几年很火,主要是因为其在大数据领域的应用。下面这些面试题,基本上是scala函数式编程的精髓。Q1 var,val和def三个关键字之间的区别? 答:var是变量声明关键字,类似于Java中的变量,变量值可以更改,但是变量类型不能更改。 val常量声明关键字。 def 关键字用于创建方法(注意方法和函数的区别) 还有一个lazy val(惰性val)声明,意思是当需要计算时才使用,避免重复计算 代码示例: var x = 3 // x是I..转载 2020-11-18 18:30:25 · 495 阅读 · 0 评论 -
转:scala习题精选100道
https://www.cnblogs.com/steamedbundad/p/scalaExercise.html转载 2020-11-18 17:53:34 · 413 阅读 · 0 评论 -
转:Dataset之CIFAR-10:CIFAR-10数据集简介、下载、使用方法之详细攻略
Dataset之CIFAR-10:CIFAR-10数据集简介、下载、使用方法之详细攻略目录CIFAR-10简介1、与MNIST 数据集中目比, CIFAR-10 真高以下不同点2、TensorFlow 官方示例的CIFAR-10 代码文件3、CIFAR-10 数据集的数据文件名及用途CIFAR-10下载1、下载CIFAR-10 数据集的全部数据CIFAR-10使用方法1、使用TF读取CIFAR-10 数据CIFAR-10简介官网链接:...转载 2020-11-07 15:11:22 · 1633 阅读 · 0 评论 -
转:Intellij IDEA 创建Hadoop开发工程
1. 将Centos 上搭建好的 Hadoop配置环境,打包传到 Windows 目录D:\tools\hadoop2. 下载 Hadoop 在 Window 上的相关库文件,并将相关文件复制到D:\tools\hadoop-2.5.0\bin 如下图,将hadoop.dll和winutile.exe放到hadoop的bin文件夹里.zip 放在 hadoop.xx/bin 目录下3. Windows 需要配置Java环境。将 HADOOP_HOME\bin, HA...转载 2020-11-02 20:04:37 · 912 阅读 · 0 评论 -
转:Hbase创建表,出现ERROR: Table already exists: (表名)student!
原文引用自https://blog.youkuaiyun.com/qq_38025219/article/details/96828950。原因是以前创建过这个表,但是hbase暴力删除了这个表后,zookeeper还保留了这个表的信息。在linux 下用hbase zkcli 命令进入ls /hbase/table 可以查看存在的表信息然后用命令rmr /hbase/table/表名进入hbase shell 后就可以创建刚刚删除的表了。...转载 2020-10-28 21:54:47 · 1130 阅读 · 0 评论 -
转:大数据面试之_01_IT 从业人员面试小技巧
IT从业人员面试小技巧 一般来说,面试你的人都不是一个很好对付的人。别看他彬彬有礼,看上去笑眯眯的,很和气的样子。但没准儿一肚子坏水。 有些人待人特别客气,说话还稍稍有点结巴的,更容易让人上当。 所以,牢记一点,面试的时候保持高度警觉,对方不经意问出来的问题,很可能是他最想知道的。 举例来说,我每次面试的时候,最喜欢说的话就是:哦,我不是HR的,你别拘束,咱们就当是聊天……...转载 2020-03-24 14:36:36 · 450 阅读 · 0 评论 -
转:Flume+Kafka整合案例实现
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.youkuaiyun.com/a_drjiaoda/article/details/85003929一、为什么要集成Flume和Kafka我们很多人在在使用Flume和kafka时,都会问一句为什么要将Flume和Kafka集成?那首先就应该明白业务需求,一般使...转载 2019-12-05 14:10:36 · 312 阅读 · 0 评论 -
转:使用Flume+Kafka+SparkStreaming进行实时日志分析
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.youkuaiyun.com/Trigl/article/details/70237981每个公司想要进行数据分析或数据挖掘,收集日志、ETL都是第一步的,今天就讲一下如何实时地(准实时,每分钟分析一次)收集日志,处理日志,把处理后的记录存入Hive中,并附上完整实战...转载 2019-12-05 14:09:35 · 974 阅读 · 0 评论 -
转:Hadoop 之 日志管理——应用在 YARN 中运行时的日志
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.youkuaiyun.com/andrewgb/article/details/50621006背景:在写这篇博文前,自己一直没有弄明白一个问题,“在 Map 函数和 Reduce 函数中使用 System.out.print 打印日志时,输出内容在哪里显示?”。...转载 2019-12-04 18:55:47 · 251 阅读 · 0 评论 -
转:遇到问题---hadoop----local-dirs are bad
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.youkuaiyun.com/q383965374/article/details/79428818遇到的问题我们的hadoop集群在运作过程中部分节点报错local-dirs are bad原因hadoop集群硬盘目录默认的使用阈值是90%空间不足,...转载 2019-12-03 11:10:49 · 641 阅读 · 0 评论 -
转:hadoop 多次格式化format namenode 导致节点不能启动解决
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.youkuaiyun.com/qq_41059374/article/details/806955811.具体配置我用的是vmware配的虚拟机,一个master,2个slave2. 遇到的问题hadoop 多次格式化format namenod...转载 2019-12-02 13:04:51 · 1739 阅读 · 0 评论 -
转:集群提交MapReduce作业执行卡住问题解决方案
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.youkuaiyun.com/WYpersist/article/details/80202055关于MapReduce,Map能完全执行,Reduce执行到一半卡住不执行住了几个小时,死活停滞不前,发现后根据提示开始排错,进入50030,进入作业发现这说明作...转载 2019-11-29 20:11:05 · 2642 阅读 · 0 评论 -
转:初次启动hive,解决 ls: cannot access /home/hadoop/spark-2.2.0-bin-hadoop2.6/lib/spark-assembly-*.jar: No
刚刚安装好hive,进行第一次启动[hadoop@ltt1 bin]$ ./hivels: cannot access /home/hadoop/spark-2.2.0-bin-hadoop2.6/lib/spark-assembly-*.jar: No such file or directorywhich: no hbase in (/home/hadoop/hive110/bin:...转载 2019-11-07 13:52:26 · 417 阅读 · 0 评论 -
转:parquet简单介绍与总结
==>什么是parquetParquet是列式存储的一种文件类型==>官网描述:Apache Parquet is a columnar storage format available to any project in the Hadoop ecosystem, regardless of the choice ...转载 2019-11-07 12:38:02 · 533 阅读 · 0 评论 -
转:Spark案例:Scala版统计单词个数
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.youkuaiyun.com/howard2005/article/details/79331556利用Spark的RDD可以对本机或集群上的文件进行词频统计。1、创建Scala项目SparkScalaWordCount2、创建lib目录,添加spark的ja...转载 2019-10-18 10:51:45 · 2005 阅读 · 0 评论 -
转:Scala的map实现key和value排序及各种排序比较等知识讨论
问题导读1.map能否直接排序?2.如何转换,才能排序?3.排序结果可以存储在哪两个集合中?4._*如何使用?5.排序函数中,哪个可以进行升序和降序排列?6.他们的排序性能如何?如过想要对一个map排序,该如何实现。首先给一个不可变的map? 1 2 3 4 5 6 7 scala&...转载 2019-10-18 10:35:38 · 3508 阅读 · 0 评论 -
转:scala之map操作史上最全
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.youkuaiyun.com/xianpanjia4616/article/details/80947616Map(映射)是一种可迭代的键值对(key/value)结构。所有的值都可以通过键来获取。Map 中的键都是唯一的。Map 也叫哈希表(Hash tabl...转载 2019-10-18 09:33:20 · 1118 阅读 · 0 评论 -
转:sparksql练习
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.youkuaiyun.com/优快云_Hzx/article/details/82381013题目:-------学生表//学号//学生姓名//学生性别 //学生出生年月//学生所在班级--------课程表//课程号//课程名称/...转载 2019-10-17 09:59:14 · 451 阅读 · 0 评论 -
转:Spark 算法练习两则
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.youkuaiyun.com/weixin_42712876/article/details/85170876练习一:求最大最小值在文件中获取数据求浮点数和整数的最大值和最小值1,2.33,4,1.55,2.56,55,55,55,23.77,1.88987...转载 2019-10-17 09:54:58 · 298 阅读 · 0 评论 -
转:Spark RDD算子练习题
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.youkuaiyun.com/qq_40825218/article/details/83720732给定数据如下:12 张三 25 男 chinese 5012 张三 25 男 math 6012 张三 25 男 english 7012 李四 20 男 ...转载 2019-10-17 09:50:45 · 761 阅读 · 0 评论 -
转:sparkRDD练习题
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.youkuaiyun.com/weixin_41290471/article/details/83685335给定数据如下:班级ID 姓名 年龄 性别 科目 成绩12 张三 25 男 chinese 5012 张三 25 男 math 6012 张三 25 男...转载 2019-10-17 09:49:32 · 959 阅读 · 0 评论 -
转:SparkStreaming--小案例2对于爬虫来的数据进行分析
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.youkuaiyun.com/qq_42721694/article/details/85267653请注意本博客中代码头和尾是固定模式,而lines是需要根据你的数据特点进行切分和整理的,我会附上我的一部分数据供参考,附在文档末尾。1.统计某一时间段输入数据出现...转载 2019-10-17 09:47:37 · 388 阅读 · 0 评论 -
转:基于Spark的电影推荐系统(包含爬虫项目、web网站、后台管理系统以及spark推荐系统)
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.youkuaiyun.com/u011254180/article/details/80006453本次项目是基于大数据过滤引擎的电影推荐系统–“懂你”电影网站,包含了爬虫、电影网站(前端和后端)、后台管理系统以及推荐系统(Spark)。项目代码托管于github...转载 2019-10-17 09:45:48 · 3136 阅读 · 1 评论 -
转:spark的练习题(6)
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.youkuaiyun.com/qq_42721694/article/details/850015781.排序:定义三个文件对文件内容进行排序(数字)package com.hyxy.spark01import org.apache.spar...转载 2019-10-17 09:42:56 · 961 阅读 · 0 评论 -
CAP原理和BASE思想
1、分布式领域CAP理论,Consistency(一致性), 数据一致更新,所有数据变动都是同步的Availability(可用性), 好的响应性能Partition tolerance(分区容忍性) 可靠性定理:任何分布式系统只可同时满足二点,没法三者兼顾。忠告:架构师不要将精力浪费在如何设计能满足三者的完美分布式系统,而是应该进行取舍。2、关系数据库的ACID模型拥有高一致性 + 可用性很难进...转载 2018-03-06 20:34:44 · 318 阅读 · 0 评论 -
分布式系列文章——Paxos算法原理与推导
Paxos算法在分布式领域具有非常重要的地位。但是Paxos算法有两个比较明显的缺点:1.难以理解 2.工程实现更难。网上有很多讲解Paxos算法的文章,但是质量参差不齐。看了很多关于Paxos的资料后发现,学习Paxos最好的资料是论文《Paxos Made Simple》,其次是中、英文版维基百科对Paxos的介绍。本文试图带大家一步步揭开Paxos神秘的面纱。Paxos是什么Paxos算法是...转载 2018-03-06 20:41:23 · 458 阅读 · 0 评论 -
数据分布的六种策略
1.1. 解决数据架构难点数据分布的六种策略from:PYY 数据分布的六种策略1) 独立Schema(Separate-schema)2) 集中(Centralized)3) 分区(Partitioned)4) 复制(Replicated)5) 子集(Subset)6) 重组(Recorganized) 1.1.1. 独立Sche...转载 2018-03-06 20:44:08 · 2905 阅读 · 0 评论 -
中心化副本控制协议:primary-secondary协议
副本控制协议指按特定的协议流程控制副本数据的读写行为,使得副本满足一定的可用性和一致性要求的分布式协议。副本控制协议可以分为两大类“中心化(centralized)副本控制协议”和“去中心化(decentralized)副本控制协议”。 中心化副本控制协议的基本思路:由一个中心节点协调副本数据的更新、维护副本之间的一致性。所有副本相关的控制交由中心节点完成,并发控制由中心节点完成,从而简化一个分布...转载 2018-03-06 20:45:39 · 594 阅读 · 0 评论 -
hdfs的读写策略
读数据过程: 1.客户端调用FileSystem 实例的open 方法,获得这个文件对应的输入流InputStream2.访问NameNode,获取文件对应数据块的保存位置,包括副本位置。3.获得输入流之后,客户端便调用read()方法读取数据。选择最近的datanode进行连接并读取数据。4.如果客户端与一个datanode位于用一台机架,那么直接从本地读取数据。5.到达数据块...转载 2018-03-06 20:51:41 · 1120 阅读 · 0 评论 -
hdfs的架构
目录· HDFS 是做什么的· HDFS 从何而来· 为什么选择 HDFS 存储数据· HDFS 如何存储数据· HDFS 如何读取文件· HDFS 如何写入文件· HDFS 副本存放策略· Hadoop2.x新特性1、HDFS 是做什么的HDFS(HadoopDistributed File System)是Hadoop项目的核心子项目,是分布式计...转载 2018-03-06 20:54:41 · 661 阅读 · 0 评论 -
自定义Writable类型
对处理较复杂数据时, Writable自带的类型不能满足要求,可以创建一个类是使用Writable接口,实现一个write()和readFields()方法,还需要无参的构造(用于反射),和toString()(用于输出)网上看到了一个统计手机流量的代码,大致数据如下2323,13083012211,apmac,acmac,host,type,pack,pack,1000,1200,yes2323...转载 2018-03-06 20:55:45 · 594 阅读 · 0 评论 -
MapReduce工作机制总结
总结从MapReduce程序中的JobClient.runJob(conf)开始,给出了MapReduce执行的流程图(如下),并分析了流程图中的四个核心实体,结合实际代码介绍了MapReduce执行的详细流程。 MapReduce的执行流程简单概括如下:· 用户作业执行JobClient.runJob(conf)代码会在Hadoop集群上将其启动。· 启动之后JobC...转载 2018-03-06 20:57:00 · 279 阅读 · 0 评论 -
Ubuntu server版中安装虚拟工具条open-vm-tools,共享文件夹
环境:VMware Workstation 11.0虚拟机中的系统:Ubuntu 16.04.2物理机:window 7 安装VMware Tools经常会出现兼容性不好,系统之间复制文件失灵,并且安装时提示建议使用open-vm-tools,于是放弃vmware-tools的安装,尝试使用open-vm-toolsopen-vm-tools 是 VMware Tools 的开源实施,由一套虚拟化...转载 2018-03-16 07:27:53 · 1036 阅读 · 0 评论 -
大数据工程师面试题(1)
1. 选择题1.1. 下面哪个程序负责 HDFS 数据存储。c)Datanode 答案 C datanode1.2. HDfS 中的 block 默认保存几份?a)3 份 答案 A 默认 3 份1.3. 下列哪个程序通常与 NameNode 在一个节点启动?d)Jobtracker答案 D1.4. HDFS 默认 Block Sizec)128MB答案:C1.5. 下列哪项通常是集群...转载 2018-03-18 05:57:51 · 534 阅读 · 0 评论 -
大数据工程师面试题(2)
2.7. 用mapreduce来实现下面需求?现在有10个文件夹,每个文件夹都有1000000个url.现在让你找出top1000000url。方法一:运用2个job,第一个job直接用filesystem读取10个文件夹作为map输入,url做key,reduce计算url的sum,下一个job map用url作key,运用sum作二次排序,reduce中取top100000001:首先进行w...转载 2018-03-18 05:59:36 · 379 阅读 · 0 评论