
电商行为日志分析
Pengsen Ma
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
使用hive完成统计分析功能
统计省份出现的次数:select province,count(*) from track_info where day=‘2013-07-21’ group by province;由于上面的只能显示在控制台,我们需要把查到的数据放在数据库中的一个表中创建省份统计表:create table track_info_province_stat(province string,cnt bigint)partitioned by (day string)row format delimited原创 2020-08-04 08:43:05 · 8653 阅读 · 0 评论 -
track_info分区表的创建并将ETL的数据加载到Hive表
文章目录track_info分区表的创建将ETL的数据加载到Hive表track_info分区表的创建分区表因为日志是一天一个分区create external table track_info(ip string,country string,province string,city string,url string,time string,page string)partitioned by (day string)row format delimited fields te原创 2020-08-03 09:27:07 · 8058 阅读 · 0 评论 -
外部表在Hive中的使用
1.Table Type: MANAGED_TABLE :内部表删除表:HDFS上的数据被删除并且Meta也被删除2.创建外部表emp_external:create external table emp_external(empno int,ename string,job string,mgr int,hiredate string,sal double,comm double,deptno int)row format delimited fields ter原创 2020-08-03 08:28:39 · 7896 阅读 · 0 评论 -
Hive QL【Queries (select)】基本统计及分组函数:group by
SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY col_list] [ORDER BY col_list] [CLUSTER BY col_list | [DISTRIBUTE BY col_list] [SORT BY col_list] ] [LIMIT [offset,] rows]涉及聚合操作(原创 2020-08-02 17:41:01 · 8344 阅读 · 0 评论 -
DML之加载和导出数据
Loading files into tablesLOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)] LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ..原创 2020-08-02 16:57:57 · 7862 阅读 · 0 评论 -
DDL之表操作
文章目录Create TableDescribe Table/View/Materialized View/ColumnLoading files into tablesRename TableCreate TableCREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name -- (Note: TEMPORARY available in Hive 0.14.0 and later) [(col_name原创 2020-08-02 09:56:25 · 7785 阅读 · 0 评论 -
数据定义语言DDL之数据库操作
文章目录Create DatabaseDescribe DatabaseDrop Database官网地址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDLCreate DatabaseCREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [MANAGED原创 2020-08-02 08:54:00 · 7803 阅读 · 0 评论 -
MySQL快速入门
登录进入MySQL[hadoop@hadoop000 ~]$ mysql -uroot -proot其中账号和密码都是root,根据自己的机器进行修改mysql> show databases; 显示数据库都有哪些?原创 2020-08-01 14:57:30 · 7651 阅读 · 0 评论 -
Hive快速入门
启动Hive[hadoop@hadoop000 ~]$ cd $HIVE_HOME[hadoop@hadoop000 hive-1.1.0-cdh5.15.1]$ hive创建数据库:create database test_db;(分号;别忘了加)原创 2020-08-01 14:54:41 · 7708 阅读 · 0 评论 -
Hive在linux上的部署
下载地址:http://archive.cloudera.com/cdh5/cdh/5/原创 2020-08-01 08:32:32 · 7865 阅读 · 0 评论 -
数据仓库Hive
文章目录1.Hive产生背景2.Hive是什么?3.为什么要使用Hive4.Hive体系架构1.Hive产生背景2.Hive是什么?3.为什么要使用Hive4.Hive体系架构写一个SQL语句通过Hive提交到MapReduce上去运行其中的表/数据啥的存放在Metastore,以元数据存放在MySQL上写SQL==>把SQL翻译成MapReduce==>运行在Hadoop上...原创 2020-08-01 08:10:25 · 7758 阅读 · 0 评论 -
hadoop中setup,cleanup,run和context讲解
hadoop 执行中的setup run cleanup context的作用1.简介1) setup(),此方法被MapReduce框架仅且执行一次,在执行Map任务前,进行相关变量或者资源的集中初始化工作。若是将资源初始化工作放在方法map()中,导致Mapper任务在解析每一行输入时都会进行资源初始化工作,导致重复,程序运行效率不高!2) Mapper或Reducer运行3) cleanup(),此方法被MapReduce框架仅且执行一次,在执行完毕Map任务后,进行相关变量或资源的释放工作。转载 2020-07-30 16:49:51 · 8808 阅读 · 2 评论 -
wc命令统计文件数据数量信息
利用wc指令我们可以计算文件的Byte数、字数、或是列数,若不指定文件名称、或是所给予的文件名为"-",则wc指令会从标准输入设备读取数据。wc -l xxx文件语法:wc [-clw][--help][--version][文件...]参数:-c或--bytes或--chars 只显示Bytes数。-l或--lines 只显示行数。-w或--words 只显示字数。--help 在线帮助。--version 显示版本信息。...原创 2020-07-29 17:00:48 · 9023 阅读 · 0 评论 -
电商项目实战项目需求以及技术选型
原创 2020-07-29 15:00:05 · 8033 阅读 · 0 评论 -
MapReduce作业提交到YARN上运行的步骤
hadoop jar 包名 类名 输入参数1 输入参数2 …[hadoop@hadoop000 lib]$ hadoop jar hadoop-train-v2-1.0.jar com.imooc.bigdata.hadoop.mr.access.AccessYARNApp /access/input/access.log /access/output/原创 2020-07-29 11:17:12 · 7895 阅读 · 0 评论 -
YARN环境部署
1.etc/hadoop/mapred-site.xml:<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property></configuration>etc/hadoop/yarn-site.xml:<configura原创 2020-07-29 10:39:16 · 8067 阅读 · 0 评论 -
YARN部件以及执行流程
原创 2020-07-29 10:23:04 · 7711 阅读 · 1 评论 -
4-11流量统计项目需求分析
原创 2020-07-23 08:44:14 · 7931 阅读 · 0 评论 -
Combiner
combiner的优点:减少IO,提升作业的执行性能combiner的局限性:例如:求平均数,我们应该是总数/个数,而不应该是部分1/部分数1=部分平均数1,部分2/部分数2=部分平均数2,(部分平均数1+部分平均数2)/2=平均数,这是错误的...原创 2020-07-23 08:23:32 · 7733 阅读 · 0 评论 -
4-1MapReduce概述
易开发:在编程过程中splitting和shuffing不体现,我们只需要实现map和reduce即可inputformat用来读取数据RR:recordreader将数据读取进来原创 2020-07-22 08:44:00 · 7722 阅读 · 0 评论 -
Safemode
当刚打开NN时,NN会进入safemode模式,不允许进行任何的HDFS读写操作,此时只需要等待30秒即可原创 2020-07-22 07:52:58 · 8158 阅读 · 0 评论 -
CheckPoint
元数据存在于内存中,但是如果机器突然挂掉,元数据就会消失找不到,那么便提供了冗余机制,1)fsimage:定期将内存中的元数据信息序列化到磁盘,假如半个消失定期将内存的信息序列化到磁盘,假如半个小时内内存突然挂掉,那么在这半个小时之内的数据该怎么办?2)所以提供了edits日志,记录时间段内所有对HDFS相关的操作指令。secondary NN此时将NN的fsimage的数据反序列化到内存,并且将edits中的记录的所有的对于HDFS做的操作更新到内存中,从而产生了新的fsimage...原创 2020-07-21 15:57:39 · 7717 阅读 · 0 评论 -
3-40HDFS读数据流程
1)客户端发出读数据请求2)NN告知客户端元数据的存储信息等等3)-4)客户端向相应的DN读取BLK15)-6)客户端向相应的DN读取BLK2原创 2020-07-21 15:26:51 · 7691 阅读 · 0 评论 -
3-39客户端(client)写数据到HDFS的流程
1)客户端向NN提出写数据请求2)NN发现没有问题,同意客户端写数据3)由于数据很大,需要分块:BLK1,BLK2三副本存在。此时客户端向NN提出写BLK1请求4)NN决定将BLK1放在哪几个DN上,这个过程对用户来说是透明的,此时NN告知客户端5)-10)Client与NN分配的要把BLK1放在哪几个DN(包括一个原数据,两个副本)建立连接,并最终告知Client建立连接成功11)开始传输BLK1,并成功建立副本12)BLK2的传输和BLK1一模一样...原创 2020-07-21 15:15:14 · 7739 阅读 · 0 评论 -
3-3.HDFS项目实战目标和要求
原创 2020-07-16 10:39:07 · 7789 阅读 · 0 评论 -
递归列出文件下的文件信息,迭代器
文章目录命令行:API:迭代器命令行:递归的列出文件目录下的所有文件 -ls -R[hadoop@hadoop000 hadoop]$ hadoop fs -ls -R /hdfsapi/testAPI:HDFS查询文件列表时为什么返回的是迭代器(RemoteIterator),而不是list之类的容器?RemoteIterator<LocatedFileStatus>listFiles = fs.listFiles(new Path("/"), true);//true是递归原创 2020-07-16 09:52:16 · 8010 阅读 · 0 评论 -
copyToLocalFile报出空异常
此时应该使用它的重载方法:public void copyToLocalFile(boolean delSrc, Path src, Path dst, boolean useRawLocalFileSystem) { }错误原因hadoop要与windows打交道,需要通过和windows的相关的类库进行交互操作文件。而本地不存在hadoop交互的类库。1)第一个参数代表是否删除源文件2)最后一个参数代表是否使用本地的文件系统(java的文件系统)fileSyste原创 2020-07-16 08:38:59 · 8416 阅读 · 0 评论 -
查看副本数
发现副本数为3原创 2020-07-14 17:40:52 · 7955 阅读 · 0 评论 -
HDFS各个端口号
8020端口:在cd /opt/sxt/hadoop-2.6.5/etc/hadoop/coresite.xml下的配置: dfs.namenode.rpc-address.mycluster.nn1 node01:80208020是namenode节点active状态下的端口号;9000端口:是fileSystem默认的端口号:在cd /opt/sxt/hadoop-2.6.5/etc/hadoop/coresite.xml下的配置: fs.defaultFS原创 2020-07-14 09:44:03 · 19378 阅读 · 2 评论 -
java.net.UnknownHostException: unknown host:XXXX异常解决办法
出现这种问题多半是windows找不到linux主机所以在这个路径下的hosts加上linux ip地址,主机名就可以了原创 2020-07-14 09:12:14 · 10516 阅读 · 0 评论 -
利用IDEA创建hadoop文件
来执行单元测试用的依赖:至少4.0.0以上才好用<dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.10</version> <scope>test</scope> </dependency> ...原创 2020-07-14 09:10:41 · 7787 阅读 · 0 评论 -
HDFS文件系统存储机制
原创 2020-07-14 08:00:12 · 7896 阅读 · 0 评论 -
HDFS命令行操作
ad原创 2020-07-13 11:40:32 · 7770 阅读 · 0 评论 -
启动NameNode和DataNode
只想启动namenode或是datanode:hadoop-daemons.sh start namenodehadoop-daemons.sh start datanodedaemons(守护进程)原创 2020-07-13 10:58:34 · 9385 阅读 · 0 评论 -
centos7关闭防火墙
systemctl status firewalld查看防火墙状态systemctl start firewalld 启动防火墙systemctl stop firewalld 关闭防火墙systemctl disable firewalld关闭开机自启。查看防火墙是否开启:[hadoop@hadoop000 hadoop-2.6.0-cdh5.15.1]$ sudo firewall-cmd --state停止防火墙:[hadoop@hadoop000 hadoop-2.6.0-cdh.原创 2020-07-13 10:49:48 · 7798 阅读 · 0 评论 -
jps后发现DataNode没有启动
**原因:**datanode的ClusterId和namenode的ClusterId不一致[hadoop@hadoop000 tmp]$ cd dfs[hadoop@hadoop000 dfs]$ lltotal 0drwx------ 3 hadoop hadoop 21 Jul 13 18:16 datadrwxrwxr-x 3 hadoop hadoop 40 Jul 13 18:15 namedrwxrwxr-x 3 hadoop hadoop 40 Jul 13 18:16 nam原创 2020-07-13 10:34:49 · 7907 阅读 · 0 评论 -
HDFS安装
文章目录HDFS安装HDFS启动格式化文件系统启动集群HDFS安装HDFS启动格式化文件系统[hadoop@hadoop000 ~]$ cd $HADOOP_HOME/bin[hadoop@hadoop000 bin]$ lshadoop hadoop.cmd hdfs hdfs.cmd mapred mapred.cmd rcc yarn yarn.cmd查看hdfs都有什么命令可以用:[hadoop@hadoop000 bin]$ hdfsUsage: hdfs原创 2020-07-13 08:35:32 · 8163 阅读 · 0 评论 -
域名解析
第三步:配置域名解析(对应的是最后一行DNS的配置)命令:vi /etc/resolv.conf终于找到问题,原来是ip被修改了。sudo vi /etc/hosts原创 2020-07-12 12:02:10 · 6684 阅读 · 0 评论 -
怎么添加文章目录,然后点击目录跳转到对应的内容目录?
@[TOC]不区分大小写,默认显示:文章目录,如果需要更改,在后面加上英文括号,在括号中写你要显示的字体。下面需要跳转的目录用#加一个空格(#号数量最多可以6个,越少目录字体越大)标志,写完上面就自动显示蓝色的目录了(可以跳转的),示例如下:文章目录目录二目录三目录一目录二A目录三B目录一C...原创 2020-07-12 10:45:59 · 10852 阅读 · 0 评论 -
环境要求
uname -a看linux的版本原创 2020-07-12 09:16:29 · 6490 阅读 · 0 评论