
大数据
文章平均质量分 85
夜空骑士
我是一名数据玩家,对数据行业的知识有着极大的学习热情,在数据分析、数据挖掘、大数据、人工智能等多个方面均有所涉猎,致力于将数据技术应用于各个行业领域,不断提升自我、完善自我、充实自我,并与数据爱好者共同分享、共同进步、共同成长!数据之路,前路漫漫,你我同在,互动前行!
展开
-
Do You Know ETL ?
ETL是数据的提取、转换和加载;ETL是指获取原始大数据流,然后对其进行解析,并产生可用输出数据集的过程。从数据源中提取(E)数据,然后经过各种聚合、函数、组合的转换(T),使其变为可用数据。最终数据会被加载(L)到对它进行具体分析的环境中。这就是ETL流程。MapReduce是一种并行的编程架构,它不是数据库,而是对现有技术的补充。MapReduce里内置了两个主要的处理过程原创 2015-05-20 09:45:11 · 659 阅读 · 0 评论 -
【Sqoop】从MySQL同步数据到Hive的操作参数解析
参数解析:必选参数--connect :连接的mysql数据库的jdbc信息--username:mysql数据库的登录账户--password:mysql数据库的登录密码--table: 关系数据库表名 --hive-import: 从关系型数据库向hive中导入数据的标志可选参数--as-testfile: 将数据导入一个普通文本文件中--as-sequen...原创 2018-08-16 18:45:13 · 2813 阅读 · 0 评论 -
【CDH】CDH大数据平台实施经验总结
1. 平台规划注意事项1.1 业务数据全部存储在datanode上面,所以datanode的存储空间必须足够大,且每个datanode的存储空间尽量保持一致。1.2 管理节点/namenode对存储空间要求不高,主要存储各计算节点datanode的元数据信息,以3个datanode为例,每个datanode存储2T的数据,namenode才耗费80G的空间。1.3 由于hadoop有数...转载 2018-05-30 16:26:36 · 1986 阅读 · 0 评论 -
Hive中Sqoop的基本用法和常见问题
一、通过Sqoop将Hive表数据导入到Mysql1、第一种是将hive上某张表的全部数据导入到mysql对应的表中。2、第二种是将hive上某张表中的部分数据导入到mysql对应的表中。两种方式的区别在于第二种情况需要指定要导入数据的列名称。两种情况的导入方式分别如下:1.全部导入Sqoop export --connect jdbc:mysql://127.0.0.1:3306/dbname...原创 2018-05-25 17:42:05 · 1599 阅读 · 0 评论 -
使用Sqoop从MySQL导入数据到Hive和HBase
使用Sqoop从MySQL导入数据到Hive和HBase转载 2017-05-31 18:22:56 · 1408 阅读 · 0 评论 -
Hue上的Oozie如何构建工作流和定时任务
Oozie是什么?Oozie是一种Java Web应用程序,它运行在Java servlet容器——即Tomcat——中,并使用数据库来存储以下内容:工作流定义当前运行的工作流实例,包括实例的状态和变量Hue是什么? Hue是一个可快速开发和调试Hadoop生态系统各种应用的一个基于浏览器的图形化用户接口。 Hue能干什么? 1,访问HDFS和文件浏原创 2017-04-13 11:09:12 · 10852 阅读 · 2 评论 -
sqoop同步数据实践
本章主要介绍了Sqoop在数据同步场景下的应用实践,主要涉及到讲解Sqoop同步数据方面的多种实现方式和功能。Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。原创 2017-04-25 16:05:14 · 2277 阅读 · 0 评论 -
用Shell脚本操作mysql数据库
可以用shell脚本操作MySQL数据库,使用mysql的-e参数可以执行各种sql的(创建,删除,增,删,改、查)等各种操作 。MySQL -hhostname -Pport -uusername -ppassword -e 相关mysql的sql语句,不用在mysql的提示符下运行mysql,即可以在shell中操作mysql的方法。原创 2017-04-25 14:32:12 · 949 阅读 · 0 评论 -
利用sqoop将hive数据导入导出数据到mysql
运行环境 centos 5.6 Hadoop Hivesqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具在使用过程中可能遇到的问题:sqoop依赖zookeeper,所以必须配置ZOOKEEPER_HOME到环境变量中。sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20原创 2017-04-13 10:52:49 · 3562 阅读 · 2 评论 -
云服务中的IaaS、PaaS、SaaS的作用和功能
“云服务”现在已经快成了一个家喻户晓的词了。如果你不知道PaaS, IaaS 和SaaS的区别,那么也没啥,因为很多人确实不知道。“云”其实是互联网的一个隐喻,“云计算”其实就是使用互联网来接入存储或者运行在远程服务器端的应用,数据,或者服务。原创 2016-04-28 14:32:00 · 2719 阅读 · 0 评论 -
大数据研究常用软件工具与应用场景
如今,大数据日益成为研究行业的重要研究目标。面对其高数据量、多维度与异构化的特点,以及分析方法思路的扩展,传统统计工具已经难以应对。工欲善其事,必先利其器。众多新的软件分析工具作为深入大数据洞察研究的重要助力, 也成为数据科学家所必须掌握的知识技能。然而,现实情况的复杂性决定了并不存在解决一切问题的终极工具。实际研究过程中,需要根据实际情况灵活选择最合适的工具原创 2015-10-29 09:31:52 · 1643 阅读 · 0 评论 -
如何进阶为数据科学家
数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法来对付数据。但从狭义上来看,我认为数据科学就是解决三个问题:1. data pre-processing;(数据预处理)2. data interpretation;(数据解读)3.data modeling and analysis.(数据建模与分析)转载 2015-12-02 11:12:56 · 942 阅读 · 0 评论 -
基础篇:数据挖掘的聚类算法和优势
文|十方比较分类算法的话,大概考虑这几个维度:时间空间复杂度,鲁棒性,参数敏感性,处理不规则形状,适合的类数量,类间差异(范围大小,样本个数,形状差异)可以参照一下sklearn网站给出的列表:2.3. Clustering除了这些聚类方法以外,统计老师讲过一些传统的聚类方法,归属于系统聚类的范畴,先定义观测间的距离和类之间的距离计算方法,然后按照距离把最接转载 2015-10-20 16:27:11 · 1119 阅读 · 0 评论 -
数据挖掘算法之-关联规则挖掘(Association Rule)
在数据挖掘的知识模式中,关联规则模式是比较重要的一种。关联规则的概念由Agrawal、Imielinski、Swami 提出,是数据中一种简单但很实用的规则。关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。一、关联规则的定义和属性 考察一些涉及许多物品的事务:事务1 中出现了物品甲,事务2 中出现了物品乙,事务3 中则同时出现了物品甲和乙。那么,物品甲和转载 2015-10-20 16:29:16 · 3142 阅读 · 0 评论 -
用户画像数据建模方法
从1991年Tim Berners-Lee发明了万维网(World Wide Web)开始,到20年后2011年,互联网真正走向了一个新的里程碑,进入了“大数据时代”。经历了12、13两年热炒之后,人们逐渐冷静下来,更加聚焦于如何利用大数据挖掘潜在的商业价值,如何在企业中实实在在的应用大数据技术。伴随着大数据应用的讨论、创新,个性化技术成为了一个重要落地点。相比传统的线下会员管理、问卷调查、购物篮转载 2015-10-20 16:22:42 · 1608 阅读 · 0 评论 -
从银行、保险到证券,揭开大数据在金融行业的应用
从银行、保险到证券,揭开大数据在金融行业的应用数据显示,中国大数据IT应用投资规模以五大行业最高,其中以互联网行业占比最高,占大数据IT应用投资规模的28.9%,其次是电信领域(19.9%),第三为金融领域(17.5%),政府和医疗分别为第四和第五。根据国际知名咨询公司麦肯锡的报告显示:在大数据应用综合价值潜力方面,信息技术、金融保险、政府及批发贸易四大行业潜力最高高。具体到行业内转载 2015-10-19 13:35:56 · 7623 阅读 · 0 评论 -
【Sqoop】Sqoop如何增量抽取数据
实现方法:利用--where参数对关系型数据库数据进行筛选,将结果导入非关系型数据库。根据特殊字段,将日期作为一个查询条件对源数据进行匹配,将符合条件的记录作为结果采集到非关系型数据库中格式:import --connect jdbcurl --username xxxx--password ****** --table tablename --where "data_inse...原创 2018-08-16 18:47:25 · 3817 阅读 · 0 评论