- 博客(7)
- 收藏
- 关注
原创 这个配置决定了每个Input Split 的最小值
Hadoop MapReduce是一个用于处理海量数据的分布式计算框架,这个框架解决了诸如数据分布式存储,作业调度,容错,机器间通信等复杂问题,可以让没有分布式处理经验的工程师非常简单的写出并行分布式程序。 MapReduce采用“分而治之”的思想,将计算任务抽象成Map和Reduce两个计算过程: A.首先把输入分割成不相关的若干键值(key1/value1)集合,这些键值会有多个ma
2017-09-11 15:21:17
760
原创 Scikit-learn机器学习库的安装
scikit-learn是Python的一个开源机器学习模块,它建立在NumPy、matplotlib和SciPy模块之上能够为用户提供各种机器学习算法接口,可以让用户简单、高效地进行数据挖掘和数据分析。系统:windows7 64位操作系统Python版本:Python 2.7.12模块下载地址:www.lfd.uci.edu/%7Egohlke/pythonlibs/
2017-09-06 10:33:21
1003
转载 Hadoop&&Streaming框架学习
1.Hadoop&Streaming简介 1.1 Hadoop简介 Hadoop MapReduce是一个用于处理海量数据的分布式计算框架,这个框架解决了诸如数据分布式存储,作业调度,容错,机器间通信等复杂问题,可以让没有分布式处理经验的工程师非常简单的写出并行分布式程序。
2016-12-15 15:19:09
481
转载 Hive一些参数设置
在使用union all的时候,系统资源足够的情况下,为了加快hive处理速度,可以设置如下参数实现并发执行set mapred.job.priority=VERY_HIGH;set hive.exec.parallel=true;设置map reduce个数-- 设置map capacityset mapred.job.map.capacity=2000;s
2016-12-15 13:25:26
3699
转载 Python用QQ邮箱发送邮件时授权码问题
本文转载自:http://blog.youkuaiyun.com/wateryouyo/article/details/51766345QQ邮箱最新推出了一个授权码,需已验证的手机号向QQ邮箱服务器发送一条短信获得。该授权码用于第三方客户端登录,代替了第三方登录时使用的个人邮箱密码。在测试过程中遇到两个问题:1.提示需建立SSL安全连接。于是将smtplib.SMTP() 改成了smt
2016-11-08 18:03:48
3940
原创 预处理器#ifndef,#define,#endif 的用法
一、定义#define x //定义一个宏...#endif//C语言在对程序进行编译时,会先根据预处理命令进行“预处理”。C语言编译系统包括预处理,编译和链接等部分。#ifndef x //先测试x是否被宏定义过#define x程序段1 //如果x没有被宏定义过,定义x,并编译程序段 1#else程序段2 //如果x已经定义过了则编译程序段2的语
2016-10-28 15:47:55
633
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人