- 博客(19)
- 收藏
- 关注
原创 大数据中的用户画像——让机器懂用户
一、用户画像的定义用户画像(persona)的概念最早由交互设计之父Alan Cooper提出:“Personas are a concrete representation of target users.”是指真实用户的虚拟代表,是建立在一系列属性数据之上的目标用户模型。随着互联网的发展,现在我们说的用户画像又包含了新的内容和意义,通常用户画像是根据用户人口学特征、...
2019-07-25 21:12:53
543
原创 Sqoop学习之路 (一)
一、概述sqoop 是 apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据”的工具。核心的功能有两个:导入、迁入导出、迁出导入数据:MySQL,Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统导出数据:从 Hadoop 的文件系统中导出数据到关系数据库 mysql 等 Sqoop 的本质还是一个命令行工具,和 HD...
2019-07-23 22:00:28
176
原创 大数据处理之如何确保断电不丢数据
在Hadoop 2.0.2-alpha之前,HDFS在机器断电或意外崩溃的情况下,有可能出现正在写的数据丢失的问题。而最近刚发布的CDH4中HDFS在Client端提供了hsync()的方法调用(HDFS-744),从而保证在机器崩溃或意外断电的情况下,数据不会丢失。这篇文件将围绕这个新的接口对其实现细节进行简单的分析,从而希望找出一种合理使用hsync()的策略,避免重要数据丢失。...
2019-07-23 21:24:02
880
原创 HDFS读写流程简介
前言:HDFS 是一个能够面向大规模数据使用的,可进行扩展的文件存储与传递系统。是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和 存储空间。让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般。即使系统中有某些节点脱机,整体来说系统仍然可以持续运作 而不会有数据损失。HDFS写流程:1.初始化FileSystem,客户端调用...
2019-07-14 19:04:57
190
原创 资源管理(大数据):Zookeeper、 Yarn原理
ZookeeperZookeeper是一个分布式协调服务,一个leader,多个follower组成的集群,就是为用户的分布式应用程序提供协调服务。Zookeeper是为别的分布式程序服务的。Zookeeper所提供的服务涵盖:主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务等。YarnYarn目标:YARN的目标就是实现“一个集...
2019-07-14 14:30:28
210
原创 Python安装MySQL库详解,步骤及错误的解决方法
本文主要讲述Python操作MySQL数据库,通过调用MySQLdb扩展包实现。而在安装过程中会遇到各种各样的错误,这里给出安装MySQL库的详细步骤及错误的解决方法。第一步:安装Python程序首先安装Python编程环境python-2.7.8.amd64.msi,如下图所示:默认安装在C:\python27路径,接下来我需要安装pip工具。第二步:安装pip工具...
2019-07-09 20:34:36
1466
原创 人工智能-阿尔法狗背后的简单原理:贝叶斯公式
版权声明:本文为博主原创文章,未经博主允许不得转载。AlphaGo为代表的人工智能,彻底的战胜了人类的围棋大师,震撼了全世界,那么人工智能的背后,有着怎样的科技在支撑?本文要介绍的就是人工智能背后的简单原理——贝叶斯公式。人工智能、无人驾驶、语音图片识别与大数据有什么关系?海难空难如何搜救?垃圾短信、垃圾邮件如何识别?这些看起来彼此不相关的领域之间会有什么联系吗?答案是,它们都会用到同一...
2019-07-08 09:55:10
2016
原创 Spark任务提交方式和执行流程
一、Spark中的基本概念(1)Application:表示你的应用程序(2)Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等。程序执行完毕后关闭SparkContext(3)Executor:某个Application运行在Worker节点上的一个进程,该进程负责运行...
2019-07-03 09:27:53
177
原创 spark 的俩种 任务提交方式
Spark提交方式Standalone client测试环境:Hadoop./spark-submit--master spark://node1:7077 --class 类路径 ../执行文件的路劲 执行任务数 master节点: 掌握worker节点的资源信息 worker节点: ...
2019-06-30 21:03:32
186
原创 shell 学习1
shell编程Bash操作:EOF:输入重定向执行命令 ./1.shBash 1.sh#! /bin/bashecho “1234”/usr/bin/python <<- EOFprint "hello world!"EOFecho "is here"在bash中执行python 程序。EOF:结束符 , 可以换为其他字...
2019-06-30 20:14:12
167
原创 Hive SerDe的序列化和反序列化
用于做序列化和反序列化。1.创建文件hiveSerDe.txt192.168.57.4 - - [29/Feb/2016:18:14:35 +0800] "GET /bg-upper.png HTTP/1.1" 304 -192.168.57.4 - - [29/Feb/2016:18:14:35 +0800] "GET /bg-nav.png HTTP/1.1" 304 -192....
2019-06-14 19:03:40
453
原创 hive 分区操作
1创建分区A、单分区建表语句:hive> create table day_table(id int, > content string) > partitioned by (dt string) > row format delimited foelds terminated by ',';【单分区表,按天分区,在表结构中存在id,...
2019-06-14 19:02:17
378
原创 mysql的count(),使用技巧
1.数据图select aid,aname,COUNT(*) from aa ;select aid,aname,COUNT(*) from aa GROUP BY aname 主要是:有group by 的情况下显示的是根据分组的数据来显示的,
2019-06-14 18:47:15
122
原创 秒懂mysql语句的行-列转置
1.原图 转为(图形放错位置了,请注意)数据:CREATE TABLE stu_score (grade_id varchar(10) DEFAULT NULL,subject_name varchar(10) DEFAULT NULL,max_score int(10) DEFAULT NULL)insert into `stu_score`(`grade_i...
2019-06-14 18:39:03
685
原创 ZOOKEEPER入门
zookeeper,它是一个分布式服务框架,是Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。zookeeper工作原理1.每个Server在内存中存储了一份数据;2.Zookeeper启动时,将从实例中选举一个leader(Paxos 协议)3.Leader负...
2019-06-03 08:43:55
157
原创 Linux的免密码登陆
使用场景:A机器向B机器发送文件,不需要使用密码验证。原理:1.Server A向Server B发送一个连接请求。2.Server B得到Server A的信息后,在本地的authorized_keys文件中查找A存放在B上的公钥,如果有相应的公钥,则随机生成一个字符串,并用Server A的公钥加密,接着发送给Server A。3.Server A得到Server B发来的...
2019-05-30 15:24:45
213
原创 HBase的基础知识
HBaseHBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式。RowKey,列族,时间戳(),cellHBase系统架构:Region:region按大小分割的,每个表一开始只有一个region,随着数据不断插入表,region不断增大,当增大到一个阀值的时候,Hregion就会等分会两个新的Hregion。当table中的行不断增多,就...
2019-05-30 15:23:20
175
原创 hive的分区操作流程
1.创建分区A、单分区建表语句:hive> create table day_table(id int, > content string) > partitioned by (dt string) > row format delimited foelds terminated by ',';【单分区表,按天分区,在表结构中存在id...
2019-05-30 15:19:27
558
原创 ZooKeeper常用操作的代码实现
package com.shsxt.zookeeper;import java.io.IOException;import java.util.List;import org.apache.zookeeper.CreateMode;import org.apache.zookeeper.WatchedEvent;import org.apache.zookeeper.Watcher;...
2019-05-28 21:30:32
162
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人