
Hadoop
lbship
工科专业转行大数据分析
展开
-
Sqoop1.99 从SQL Server导数据到HDFS
一、创建link1.创建mssql 的link 启动sqoop2-shell设置端口 set server --host master --port 12000 --webapp sqoop创建连接 create link -c generic-jdbc-connectorName: mssqlJDBC Driver Class: com.microsoft.sqlserv...原创 2018-11-12 17:03:04 · 595 阅读 · 0 评论 -
SQOOP2 1.99安装和使用以及各种踩坑
一、sqoop安装和配置1.下载和解压,设置环境变量(略)这里吐槽一下:sqoop2的配置和1差很多,网上很多都是1的。更坑的是1.99.4和1.99.7页差很多。2.配置修改sqoop/server/conf/catalina.properties(1.99.4需要设置,1.99.7不用设置这个)把common.loader改成common.loader=${catali...原创 2018-10-09 18:04:21 · 1325 阅读 · 0 评论 -
Hive使用python编写的自定义函数UDF进行ETL
Hadoop使用Streaming技术来替代Java编程,允许用户使用其他语言实现业务逻辑处理Streaming采用UNIX标准输入输出机制(stdin/stdout)作为应用程序和Hadoop计算框架之间的数据接口标准只要符合标准I/O接口,开发人员便可以选择任意语言编写Map/Reduce模块 下面来做个测试:表里一共有两列数据,当第二列的sex...原创 2019-04-11 10:44:20 · 3022 阅读 · 0 评论 -
实时大数据平台搭建Flume+Kafka+HDFS+SparkStreaming
整体架构图一、python模拟生成日志import randomimport timeiplist=[101,198,65,177,98,21,34,61,19,11,112,114]urllist=['baidu.com','google.com','sougou.com','360.com','yahoo.com','yisou.com']mobile=['xiaomi'...原创 2019-04-06 13:34:10 · 1937 阅读 · 11 评论 -
hive使用技巧:把很多小文件导入一张表中、显示在文件中位置和行数等。
1.使用MSCK命令导入输入到hive表我们有时候会遇到很多小文件需要导入到一张hive表里面,但是一个个导入非常麻烦。假设创建一个外部表,这个表在hdfs的order文件夹里,但是这个文件夹现在是空的。所以用select * 是没有数据的。CREATE EXTERNAL TABLE order( order STRING , time STRING)ROW FOR...原创 2018-11-18 12:36:59 · 1968 阅读 · 0 评论 -
如何将HDFS文件系统挂载到Linux本地文件系统
本文转自https://cloud.tencent.com/developer/article/1078538,如果侵权请联系我删除。1.文档编写目的Hadoop支持通过NFSv3挂载HDFS文件系统到本地目录,允许用户像访问本地文件系统一样访问HDFS,对于普通用户来说大大的简化了HDFS的使用。该功能通过引入NFS Gateway服务实现,将NFS协议转换为HDFS访问协议。本篇文章主...转载 2018-11-18 10:55:35 · 5135 阅读 · 0 评论 -
Hive读取HDFS上面的数据和使用Squirrel客户端连接Hive
一、把数据从HDFS导入到hive的表里前面已经测试了利用Sqoop把数据从SQL Server导入到hdfs中,但是分成了好多小文件,这里有两种方法读取数据。第一种方法:创建内部表导数据1.建表在hive里面建立好对应的表格 create table sites(xxx int,xxx string,xxx timestamp) row format delimit...原创 2018-11-14 18:04:15 · 4408 阅读 · 0 评论 -
spark1.6.1和2.4读取csv文件,转为为DataFrame和使用SQL
一、spark1.6读取csvspark2.0才开始源码支持CSV,所以1.6版本需要借助第三方包来实现读取CSV文件,有好几种方法,1.如果有maven的,到https://spark-packages.org/package/databricks/spark-csv下载对应scala版本的第三方jar包然后再maven的pom里面添加denpency,然后根据官网的用法用--packa...原创 2018-11-02 15:36:29 · 5795 阅读 · 2 评论 -
hive里面显示列名配置
当select * from xxx,不能显示列名的时候,可以到hive-site.xml里面添加<property><name>hive.cli.print.current.db</name><value>true</value></property><property><name&a原创 2018-11-06 18:30:51 · 1890 阅读 · 0 评论 -
spark1.6使用:读取本地外部数据,把RDD转化成DataFrame,保存为parquet格式,读取csv格式
一、先开启Hadoop和spark略二、启动spark-shellspark-shell --master local[2] --jars /usr/local/src/spark-1.6.1-bin-hadoop2.6/libext/com.mysql.jdbc.Driver.jar1.读取spark目录下面的logs日志作为测试:val alllog=sc.textFile...原创 2018-11-01 15:08:22 · 4705 阅读 · 0 评论 -
Linux下面Maven、Kafka、HBASE、flume、Hive安装
一、安装Maven1.下载并解压wget http://archive.apache.org/dist/maven/maven-3/3.5.2/binaries/apache-maven-3.5.2-bin.tar.gz tar -xvzf apache-maven-3.5.2-bin.tar.gz2.添加环境变量vim ~/.bashrcexport MAVEN_HOME=/...原创 2018-09-29 16:25:28 · 413 阅读 · 0 评论 -
Hadoop 2.6的安装配置
之前已经按照了Hadoop1.2和java 1.6了现在准备再安装一个Hadoop2.6.具体安装过程就不重复了。这里主要记录几个重要的配置参数。1.bashrcexport JAVA_HOME=/usr/local/src/jdk1.6.0_45export SQOOP_HOME=/usr/local/src/sqoop-1.99.4-bin-hadoop200export...原创 2018-09-25 18:26:16 · 350 阅读 · 0 评论 -
史上最详细搭建分布式Hadoop(四)之Hadoop安装
一、Hadoop文件复制把Hadoop文件复制到所有机器的 /usr/local/src/下面cp hadoop-1.2.1-bin.tar.gz /usr/local/src/scp -rphadoop-1.2.1-bin.tar.gz 192.168.116.11:/usr/local/src/二、开始安装cd /usr/local/srctar xvzf hado...原创 2018-08-24 10:45:56 · 1091 阅读 · 2 评论 -
史上最详细搭建分布式Hadoop(三)之Java安装
一、把下载的文件复制到Linux中通过共享目录的方式,把下载好的jdk和Hadoop文件放到Linux里面。成功之后,会在mnt的hgfs下看到我刚刚添加的目录。把文件复制到user 的src下面,注意要su权限才可以复制过去。cd 到src文件夹下面,直接运行到此就安装好了二设置环境变量vim ~/.bashrc输入export JAVA_HOM...原创 2018-08-24 00:26:15 · 1207 阅读 · 0 评论 -
史上最详细搭建分布式Hadoop(二)之分布式机器配置
一、工具准备1.Hadoop 1.21 2.jdk-6u45二、虚拟多台电脑既然是分布式,那么就要有几台电脑,如果只有一台电脑怎么办?那就用虚拟机虚拟几台电脑电脑出来。我们虚拟3台,一台作为主机,另外2台是从机。1.创造副本,直接把虚拟机源文件复制两个副本出来。用虚拟机打开2个副本。然后同时开启3台虚拟机三 配合另外两台机器的IP刚配置好,三台机器IP一样,...原创 2018-08-23 23:41:07 · 1754 阅读 · 0 评论 -
史上最详细搭建分布式Hadoop(一)之Linux安装和VMware station虚拟机安装和网络配置
一工具准备1.VMware station122.Linux cent OS6.5附上我的地址吧:链接: https://pan.baidu.com/s/19ViXEIVjhSmBJpmRpvmNVg 密码: xis7工具包网上一大把,自己下载。二,安装Linux1.选择Linux包安装然后一步步一下子,选择好久自动安装了。等待漫长的安装完成之后:终于看到了阳光...原创 2018-08-23 17:08:20 · 2764 阅读 · 0 评论