- 博客(12)
- 收藏
- 关注
原创 Ambari部署HDP出现的问题总结
此问题是在安装第二步,注册主机时遇到的error:100AE081:elliptic curve routines:EC_GROUP_new_by_curve_name:unknown groupERROR 2015-02-06 20:10:20,023 NetUtil.py:58 - SSLError: Failed to connect. Please check openssl
2016-10-14 17:07:45
3448
原创 Ambari2.1安装HDP2.3
最近才接触Hortonworks Data Platform(HDP),安装时遇到挺多坑,以下是本人成功安装的具体步骤,分享一下首先介绍一下Ambari和HDP,官网上http://hortonworks.com/products/data-center/hdp/很详细,这里我就大致说一下。Ambari 是 Apache Software Foundation 中的一个项目,是一个
2016-10-14 16:53:32
1182
原创 GeoIP的详解 --Python版
GeoIP GeoIP数据库(MaxMind公司)可以根据来访者的IP, 定位他的经纬度,国家/地区,省市,甚至街道等位置信息本人用Python写GeoIP的API,就以Python版为例详细介绍一下GeoIP的用法安装pygeoip 1.下载pygeoip安装包 解压安装(也可以通过命令行 pip install pygeoip): 下载安装包 ht
2016-01-22 10:02:12
10996
原创 Hadoop之hive详解
什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制.本质是将SQL转换为MapReduce程序.为什么要使用Hive操作接口采用类SQL语法,提供快速开发的能力避免了去写MapReduce,减少开发人员的学习成本
2016-01-19 16:44:04
818
原创 Linux常用命令
本篇是本人操作Linux系统时常用到的一些命令,望对第一次使用Linux的朋友有帮助Linux常用命令1.usermod 修改用户usermod -G root hadoop2.userdel 删除用户userdel test1 userdel -r test2(可以完全删除)3.chown 将指定文件的拥有者改为指定的用
2016-01-19 16:07:05
575
原创 Hadoop之HDFS介绍
之前在文章中提到过Hadoop的核心由HDFS ,MapReduce以及yarn组成Hadoop是一个由Apache基金会所开发的分布式系统基础架构,该项目的创建者Doug Cutting。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储Hadoop实现了一个分布式文件系统(Hadoop Distributed File System
2016-01-18 11:44:22
1089
原创 Hadoop之Hbase详解
Hbase(Hadoop Database)是一种高可靠性,高性能,面向列,可伸缩的分布式存储系统。行键:每行都有唯一的行键,行键没有数据类型,它内部被认为是一个字节数组。列簇:数据在行中被组织成列簇,每行有相同的列簇,但是在行之间,相同的列簇 不需要有相同的列修饰符。在引擎中,HBase将列簇存储在它自己 的数据文件中,所以,它们需要事先被定义,此外,改变
2016-01-18 11:24:27
842
原创 Elasticsearch介绍,单机安装,python 写Elasticsearch API
ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。支持通过HTTP使用JSON进行数据索引。单机环境单机版的elasticsearch运行很简单,linux下直接 bin/elasticsearch就运行了,windows运行bin/elasticsearch.ba
2016-01-14 17:02:20
2541
原创 Hadoop安装部署
Hadoop安装部署Hadoop安装部署方式:本地模式,伪分布模式,集群模式修改Hadoop的配置文件 本地模式: hadoop-env.sh --- JAVA_HOME /usr/java/jdk 伪分布模式: hadoop-env.sh
2016-01-08 16:10:58
588
原创 Python写mongodb mapreduce实例
MapReduce在执行时先指定一个Map(映射)函数,把输入对映射成一组新的对,经过一定处理后交给 Reduce,Reduce对相同key下的所有value处理后再输出对作为最终的结果。指令原型db.runCommand( { mapreduce : 字符串,集合名, map : 函数 reduce : 函数 [, query :
2016-01-08 14:24:41
2666
原创 MondoDB介绍 Python与MongoDB用法,安装PyMongo
MongoDB 将几个月的成果总结成一篇文章,总结了一些大神相关MongoDB的资料和本人相关技术的应用案例,经验 ,希望可以帮到你能够更好的了解MogoDB,废话不多说,下面开始简要介绍mongodb MongoDB是一个基于分布式文件存储的数据库。 MongoDB 是一个跨平台的,面向文档的数据库,提供高性能,高可用性和可扩展性方便,是一个介于关系数据库和非关系数据库
2015-12-11 16:50:25
9515
原创 Hadoop介绍
提到Hadoop,我们会想到big data,而所谓的大数据就是指海量的数据,大数据特点有四个层面:第一: 数据体量巨大。从TB级别,跃升到PB级别;第二: 数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三:处理速度快,1秒定律,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同。第四: 只要合理利用数据并对其进行正确、准确的分析,
2015-10-21 10:40:59
811
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人