
大数据
文章平均质量分 61
阿布的进击
python爬虫,大数据
展开
-
输出一下前十个18周岁男孩中借书最多的名字以及书本数量
一道阿里的大数据面试sql题目,输出一下前十个18周岁男孩中借书最多的名字以及书本数量,检验代码能力原创 2023-02-01 18:51:19 · 440 阅读 · 0 评论 -
Spark Sql查询Hive 数据不一致
请问,你的梦想是什么?在大数据公司中,任何一家公司都不会只使用一个框架吧?!skr,skr~~那我们今天就来聊一段 Hive 与 Spark的爱恨情仇就像在一些场景中,需要将外部的数据导入到Hive表中,然后再对这些数据进行额外的处理,提供给不同的部门使用。当导完数据之后,需要用到Spark进行后续的处理时,发现数据多了一条Spark:Omg,我顶你个肺~这种情况的排查,我们需要从数据源头一步步检验,找出来这突然多出来的数据究竟是何方妖怪,想想是一件很恐怖的事情Hiv原创 2020-11-06 11:43:07 · 1646 阅读 · 0 评论 -
Linux g++ 提示/usr/bin/ld: 找不到 -lthrift 问题解决办法
在使用g++ 编译 thrift的时候,返回报错提示:/usr/bin/ld: 找不到 -lthrift错误代码展示:[root@master gen-cpp]# g++ -I /usr/local/src/thrift-0.10.0/lib/cpp/src/thrift/ -lthrift RecSys.cpp RecSys_constants.cpp RecSys_types.cpp RecSys_server.skeleton.cpp -o server/usr/bin/ld: 找不到 -转载 2020-09-01 10:25:59 · 1436 阅读 · 0 评论 -
Hive:Execution Error, return code -101 from org.apache.hadoop.hive.ql.exec.FunctionTask Ask
I wrote atest.sqlfile and ran it with hive. I got the error when hive was parsing to the code(show below):[CODE]:CREATE TEMPORARY FUNCTION foo AS "com.mytest.udaf.HelloWorldFoo";[ERROR]:This que...翻译 2018-04-28 17:05:40 · 9525 阅读 · 0 评论 -
Hive 查看函数(udf)定义及示例
1、desc function split ;返回split(str, regex) - Splits str around occurances that match regexTime taken: 0.056 seconds2、desc function extended split ;返回:split(str, regex) - Splits str around occura...原创 2018-04-28 16:43:59 · 8910 阅读 · 0 评论 -
CentOS关机与重启命令详解
Linux centos关机与重启命令详解与实战 Linux centos重启命令: 1、reboot 2、shutdown -r now 立刻重启(root用户使用) 3、shutdown -r 10 过10分钟自动重启(root用户使用) 4、shutdown -r 20:35 在时间为20:35时候重启(root用户使用) 如果是通过shutdown命令设置重启的话,可以用shut...转载 2018-05-06 23:29:21 · 481 阅读 · 0 评论 -
linux系统中关闭/开启防火墙详解
从配置菜单关闭防火墙是不起作用的,索性在安装的时候就不要装防火墙查看防火墙状态:/etc/init.d/iptables status暂时关闭防火墙:/etc/init.d/iptables stop禁止防火墙在系统启动时启动/sbin/chkconfig --level 2345 iptables off重启iptables:/etc/init.d/iptables restart题外话:BT或...原创 2018-05-18 15:00:52 · 433 阅读 · 0 评论 -
Hive分区、分桶操作及其区别
1,Hive分区。 是指按照数据表的某列或某些列分为多个区,区从形式上可以理解为文件夹,比如我们要收集某个大型网站的日志数据,一个网站每天的日志数据存在同一张表上,由于每天会生成大量的日志,导致数据表的内容巨大,在查询时进行全表扫描耗费的资源非常多。那其实这个情况下,我们可以按照日期对数据表进行分区,不同日期的数据存放在不同的分区,在查询时只要指定分区字段的值就可以直接从该分区查找。下面从...转载 2018-05-11 18:31:46 · 10110 阅读 · 0 评论 -
Hdfs面试题1
Hdfs原理读写过程https://blog.youkuaiyun.com/wypersist/article/details/79797565存储机制https://blog.youkuaiyun.com/wypersist/article/details/79797569HDFS FSimage和edit合并过程https://blog.youkuaiyun.com/WYpersist/article/details/80...转载 2018-05-11 13:22:37 · 1573 阅读 · 0 评论 -
hadoop集群之物理机通过master:50030访问web界面
通过修改物理机的hosts文件达到这个目的。文件位置:添加对应关系:【并保存】执行结果:原创 2018-05-21 15:44:41 · 537 阅读 · 0 评论 -
hadoop坏死节点的重启
当你的主从节点配置好之后,但是由于部分原因,子节点坏死掉,打不开【不管怎么说,你的子节点重启了】子节点操作: 进入bin目录,执行:1.hadoop-daemon.sh start datanode 2.hadoop-daemon.sh start tasktracker主节点操作 : 进入bin目录,执行:hadoop d...原创 2018-05-31 13:06:09 · 2217 阅读 · 0 评论 -
sys.stdin读取数据
用python尝试了几天的算法题,发现在用sys.stdin读取数据的时候很容易出错,就是while循环和for循环的区别。看下例子(对于输入的一个整数,希望得到整数值。例如:输入31,最后得到的结果为31):使用while循环:继续看for循环:可以发现,使用for循环是对每一行数据都进行迭代...转载 2018-05-15 16:38:28 · 5028 阅读 · 0 评论 -
CentOS下安装Anaconda3详细步骤(实现python2和python3共存)
一:Anaconda的安装安装过程中会有两次提示选择yes/no,都选yes就ok。【安装完anaconda,修改~/.bash_profile文件,添加anaconda的bin目录到PATH中(如果最后一个提示你yes/no,选择yes就不需要更改)】然后重开一个terminal终端,你会发现,Centos自带的python2和python3是共存的。二:A...原创 2018-05-15 18:32:09 · 11611 阅读 · 1 评论 -
Linux CentOS7安装MySQL
MySQL安装检查是否已经安装mysqlrpm -qa | grep mysql如果已经安装,卸载掉原mysqlrpm -e mysql 【一般删除,如果提示依赖的其他文件,则不能删除】rpm -e --nodeps mysql 【强力删除,包含各种依赖包】通过yum来进行mysql安装yum install -y mysql-server mys...原创 2018-06-04 13:48:42 · 242 阅读 · 0 评论 -
大数据项目性能优化实战
项目背景领导:项目 X 二期接近交付,目前性能问题比较严重,解决一下;原因可能是 kafka 单线程效率不足。客户:该模块每 2 分钟经清洗计算生成的处理结果量应该在 13 万,实际查询到的数量只有 7 万。原研发:可能是 kafka 性能问题,因为硬件上不足以修改多进程,多线程版本应该可以。该模块数据流是读取 kafka--> 过滤 --> 写入 snappy。Part 1: 头痛的...转载 2018-05-29 14:10:24 · 5833 阅读 · 0 评论 -
Hadoop排序工具用法小结
Hadoop用于对key的排序和分桶的设置选项比较多和复杂,目前在公司内主要以KeyFieldBasePartitioner和KeyFieldBaseComparator被hadoop用户广泛使用。基本概念Partition:分桶过程,用户输出的key经过partition分发到不同的reduce里,因而partitioner就是分桶器,一般用平台默认的hash分桶也可以自己指定。Key:是需要...原创 2018-05-31 14:23:07 · 1525 阅读 · 0 评论 -
极大似然估计思想的最简单解释
极大似然估计法的理解可以从三个角度入手,一个是整体性的思想,然后两个分别是离散状态的极大似然估计和连续状态的极大似然估计的简单例子。一、思想极大似然估计可以拆成三个词,分别是“极大”、“似然”、“估计”,分别的意思如下:极大:最大的概率似然:看起来是这个样子的估计:就是这个样子的连起来就是,最大的概率看起来是这个样子的那就是这个样子的。举个例子:有两个妈妈带着一个小孩到了你的面...转载 2018-08-15 16:56:37 · 5462 阅读 · 1 评论 -
Hadoop面试题
1)列出Hadoop集群的Hadoop守护进程和相关的角色。Namenode:它运行上Master节点上,负责存储的文件和目录所有元数据。它管理文件的块信息,以及块在集群中分布的信息。Datanode:它是一个存储实际数据的Slave节点。它定时向Namenode发送本节点上块的信息。Secondary Namenode:它会定期通过Editlog合并NameNode的变化,从而它r的日志不会过大...转载 2018-05-11 13:19:05 · 601 阅读 · 0 评论 -
python实现Spark(Hive) SQL中UDF的使用
相对于使用MapReduce或者Spark Application的方式进行数据分析,使用Hive SQL或Spark SQL能为我们省去不少的代码工作量,而Hive SQL或Spark SQL本身内置的各类UDF也为我们的数据处理提供了不少便利的工具,当这些内置的UDF不能满足于我们的需要时,Hive SQL或Spark SQL还为我们提供了自定义UDF的相关接口,方便我们根据自己的需求进行扩展...转载 2018-05-10 11:55:58 · 2771 阅读 · 0 评论 -
MapReduce之:大白话讲解Map/Reduce原理
Hadoop简介Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰富,包括ZooKeeper,Pig,Chukwa,Hive,Hbase,Mahout,flume等.这里详细分解这里面的概念让大家通过这篇文章了解到底是什么hadoop:1.什么是Map/Reduce,...转载 2018-05-10 11:31:41 · 3034 阅读 · 2 评论 -
MapReduce工作原理图文详解
目录:1.MapReduce作业运行流程2.Map、Reduce任务中Shuffle和排序的过程 正文: 1.MapReduce作业运行流程下面贴出我用visio2010画出的流程示意图: 流程分析:1.在客户端启动一个作业。2.向JobTracker请求一个Job ID。3.将运行作业所需要的资源文件复制到HDFS上,包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入...转载 2018-05-10 11:30:10 · 234 阅读 · 0 评论 -
MapReduce原理与设计思想
简单解释 MapReduce 算法一个有趣的例子你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑桃?MapReduce方法则是:给在座的所有玩家中分配这摞牌让每个玩家数自己手中的牌有几张是黑桃,然后把这个数目汇报给你你把所有玩家告诉你的数字加起来,得到最后的结论拆分MapReduce合并了两种经典函数:映射(Mapping)对集合里的每个目标应用同一个操作。即,如果你想把表...转载 2018-05-10 11:28:12 · 285 阅读 · 0 评论 -
MapReduce之:详解shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里...转载 2018-05-10 11:20:10 · 303 阅读 · 1 评论 -
关于spark RDD trans action算子、lineage、宽窄依赖详解
这篇文章想从spark当初设计时为何提出RDD概念,相对于hadoop,RDD真的能给spark带来何等优势。之前本想开篇是想总体介绍spark,以及环境搭建过程,但个人感觉RDD更为重要铺垫在hadoop中一个独立的计算,例如在一个迭代过程中,除可复制的文件系统(HDFS)外没有提供其他存储的概念,这就导致在网络上进行数据复制而增加了大量的消耗,而对于两个的MapReduce作业之间数据共享只有...转载 2018-05-11 13:19:18 · 2128 阅读 · 0 评论 -
HDFS 四个配置文件(core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml )的简单介绍
一 core-site.xml<configuration><!--指定namenode的地址--> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value>...原创 2018-05-11 13:19:57 · 2248 阅读 · 0 评论 -
hadoop 三个配置文件的参数含义说明(core-site.xml、hdfs-site.xml、mapred-site.xml)
配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法:1.选择相应版本的hadoop,下载解压后,搜索*.xml,找到core-default.xml,hdfs-...转载 2018-05-10 15:16:26 · 6042 阅读 · 1 评论 -
用python实现Hive中的UDF函数
简介Hive为我们提供了众多的内置函数,但是在实际的运用过程中仍然不能满足我们所有的需求.hive是用java开发的,本身提供了使用java去开发UDF的方式.而这里我们采用python的方式去实现UDF函数.DEMO实现我们这里用python自定义函数,去实现一个方法,利用身份证号去判断性别(18位身份证的倒数第二位偶数为女,奇数为男.15位身份证的倒数第一位偶数为女,奇数为男.)....转载 2018-05-10 11:59:47 · 19826 阅读 · 10 评论 -
ZooKeeper 原理及其在 Hadoop 和 HBase 中的应用
ZooKeeper是一个开源的分布式协调服务,由雅虎创建,是Google Chubby的开源实现。分布式应用程序可以基于ZooKeeper实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、分布式锁和分布式队列等功能。简介ZooKeeper是一个开源的分布式协调服务,由雅虎创建,是Google Chubby的开源实现。分布式应用程序可以基于ZooKeeper实...转载 2018-05-10 13:46:14 · 189 阅读 · 0 评论 -
Merkle Tree(默克尔树或梅尔克尔树)基础概念及操作
Merkle Tree概念 Merkle Tree,通常也被称作Hash Tree,顾名思义,就是存储hash值的一棵树。Merkle树的叶子是数据块(例如,文件或者文件的集合)的hash值。非叶节点是其对应子节点串联字符串的hash。[1] 1. Hash Hash是一个把任意长度的数据映射成固定长度数据的函数[2]。例如,对于数据完整性校验,最简单的方法是对整个数据做Hash运算得到...转载 2018-04-30 21:36:10 · 1384 阅读 · 0 评论