
大数据基本学习
文章平均质量分 70
xiaoxiaoniaoQ
这个作者很懒,什么都没留下…
展开
-
1安装hadoop
hadoop---------------- 开源软件,可靠的、分布式、可伸缩的。大数据---------------- 去IOE------------- IBM //ibm小型机. Oracle //oracle数据库服务器 RAC EMC //EMC共享存储设备。Cluste...原创 2018-11-01 11:20:32 · 155 阅读 · 0 评论 -
6hive
数据------------ [customers.txt] 1,tom,12 2,tom,13 3,tom,14 4,tom,15 [orders.txt] 1,no001,12.23,1 2,no001,12.23,1 3,no001,12.23,2 4,no001,12.23,2 5,no00...原创 2018-11-22 15:14:07 · 172 阅读 · 1 评论 -
7cloudera下找mysql连接驱动,
1cloudera下找mysql驱动, 使用cloudera 安装hive,抛出mysql驱动找不到,可以查看/usr/share/java/目录下是否有mysql的驱动存在。如果没有可以手动创建。然后就可以正常安装了。2 找mysql.....https://blog.youkuaiyun.com/oyym_mv/article/details/80135939 hive 的目...原创 2018-11-28 14:05:38 · 525 阅读 · 0 评论 -
8springboot 调用hive 操作数据库的bug
1 java.lang.NoClassDefFoundError: org/apache/hive/service/cli/thrift/TCLIService$Iface解决加载类加载不进去的方法:https://blog.youkuaiyun.com/u010429286/article/details/78780145 特此:粘出最终板的pom文件<project xmln...原创 2018-11-28 15:11:24 · 1194 阅读 · 0 评论 -
9Java 通过Request请求获取IP地址对应省份、城市
Java 通过Request请求获取IP地址对应省份、城市项目需要将不同省份的用户,展示不同内容,所以需要通过Request请求获取IP地址, 然后通过IP获取IP对应省份。这里的操作步骤一共有步: 1. 通过Request获取IP 2. 通过IP获取对应省份、城市 3. 通过设置的省份和IP对应省份进行比对,展示内容通过Request获取IPpublic class IpA...原创 2018-12-05 09:58:53 · 423 阅读 · 0 评论 -
10 Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x
return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapRedTaskhadoop 中的yarn.xml今天在使用之前用CDH装的集群中的Hive时,一些常规的操作可以执行,但是使用了select操作的时候就会报出下面的错误:org.apache.hadoop.security.AccessControlException...原创 2018-12-11 11:22:43 · 714 阅读 · 0 评论 -
13 spark 机器语言
https://blog.youkuaiyun.com/YCM1101743158/article/details/70170549转载 2018-12-28 14:10:51 · 124 阅读 · 0 评论 -
14-1 scala 集成到eclipse
https://blog.youkuaiyun.com/longyangaaoo/article/details/78530117转载 2018-12-28 16:17:52 · 140 阅读 · 0 评论 -
5数据仓库的架构与设计
公司之前的数据都是直接传到Hdfs上进行操作,没有一个数据仓库,趁着最近空出几台服务器,搭了个简陋的数据仓库,这里记录一下数据仓库的一些知识。涉及的主要内容有:什么是数据仓库?数据仓库的架构数据仓库多维数据模型的设计1. 什么是数据仓库1.1 数据仓库的概念官方定义数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。这个定义...转载 2018-11-16 11:07:29 · 264 阅读 · 0 评论 -
4kafka
flume-------------- 收集日志、移动、聚合框架。 基于事件。agent------------- source //接收数据,生产者 //put() //NetcatSource //ExecSource,实时收集 tai...原创 2018-11-08 16:11:22 · 138 阅读 · 0 评论 -
2伪分布继续 and 完全分布式
hadoop-------------- 1.独立模式(standalone|local) nothing! 本地文件系统。 不需要启用单独进程。 2.pesudo(伪分布模式) 等同于完全分布式,只有一个节点。 SSH: //(Socket), ...原创 2018-11-01 15:05:03 · 261 阅读 · 0 评论 -
2-1对于在VMware克隆虚拟机centOSLinux的时候,找不到IP地址的解决办法
我们在VMware克隆虚拟机centOSLinux的时候,找不到IP地址,如图。 开启网关会报错 Device eth0 does not seem to be present,delaying initialization. 重启网关也会报错重点内容 解决打开/etc/udev/rules.d/70-persistent-net.rulesvim /etc/...原创 2018-11-09 09:52:28 · 250 阅读 · 0 评论 -
2-2ssh登录 The authenticity of host 192.168.0.xxx can't be established. 的问题
用ssh登录一个机器(换过ip地址),提示输入yes后,屏幕不断出现y,只有按ctrl + c结束 错误是:The authenticity of host 192.168.0.xxx can't be established. 以前和同事碰到过这个问题,解决了,没有记录,这次又碰到了不知道怎么处理,还好有QQ聊天记录,查找到一下,找到解决方案: 执行ssh -o Str...原创 2018-11-09 11:04:00 · 317 阅读 · 0 评论 -
0本地主机Xshell连接虚拟机Linux CentOS
一、前期环境准备:在虚拟机安装Linux系统,并安装CentOS。笔者在这里的镜像为CentOS7Xshell下载地址:http://rj.baidu.com/soft/detail/15201.html?ald二、配置信息如下:安装完CentOS 7,虚拟机的IP都是默认动态的。当我们想要Xshell远程来操作虚拟机时,每次都需要查看虚拟机的IP才能连接使用。针对这种情况,我们需...转载 2018-11-07 09:49:10 · 208 阅读 · 0 评论 -
0-1jdk下载 window 和linux
jdk下载: http://blog.51cto.com/xqtesting/2055831原创 2018-11-07 11:08:08 · 134 阅读 · 0 评论 -
0-2安装jdk,tomcat.mysql
阿里云linux服务器安装手册 安装jdkcd /usr/java 上传jdk安装包 安装包名称 jdk-8u144-linux-x64.tar.gz 解压安装包tar -zxvf jdk-8u144-linux-x64.tar.gz配置jdk环境根目录下命令 vim /etc/profileJAVA_HOME=/usr/java/jdk1.8.0_171...原创 2018-11-07 15:06:22 · 104 阅读 · 0 评论 -
3flum
课外篇: 下载下载的是netcat-0.7.1.tar.gz版本,存放在当前目录下wget http://sourceforge.net/projects/netcat/files/netcat/0.7.1/解压将 netcat-0.7.1.tar.gz 解压到 /usr/local 目录下tar -zxvf netcat-0.7.1.tar.gz -C /usr/lo...原创 2018-11-07 16:34:04 · 247 阅读 · 0 评论 -
2-3安装zoekeeper
zk选举有种简单的理解方式,当zk启动时候,假如有5个节点,当第一个zk节点启动的时候,它会比较一下自己的id是否大于总节点数的一半(1<5/2),不大于,所以它不是master,同理第二个启动的时候(2<5/2),所以它也不是,第三个启动的时候(3>5/2),所以第三个就是master了,后边的节点都不是了。当master挂了以后,也按此法选举Zookeeper详解zoo...转载 2018-11-11 15:59:44 · 360 阅读 · 0 评论 -
11spark
并行------------- 集群计算。 并行计算。并发------------- 并发执行。Spark------------------------ Lightning-fast cluster computing。 快如闪电的集群计算。 大规模快速通用的计算引擎。 速度: 比hadoop 100x,磁盘计算快10x...原创 2018-12-24 16:30:26 · 140 阅读 · 0 评论