- 博客(14)
- 资源 (3)
- 收藏
- 关注
转载 自己尝试了win7+python2.7 安装xgboost,安装成功。
XGBoost是Gradient Boosting算法的一种高级实现,在Kaggle competitions上崭露头角。下面就对XGBoost在Windows上的安装作一个介绍,因为XGBoost在Windows平台上的安装不是那么简单直接。我在实验室的电脑上(Windows 7,64 bits)通过这些步骤安装成功,希望能对后来人有所帮助。安装必要的软件为了能在Windows上通过Python...
2018-03-30 10:01:31
328
原创 关于Partitioner(自定义partitioner编程实现数据自定义分区处理)
这个场景的前提是:比如一大批手机号码 需要分区,就是确定那个号码是那个省份的,所以在Maptask阶段是要把所有的省份的号码全部放在一个Map里面,然后提交给reducetask去处理,但是默认的是一个reducetask。 这时候就需要重写Partitioner的方法实现Maptask的去处。package cn.itcast.bigdata.mr.provinceflow;import java
2017-03-27 21:09:26
1351
原创 客户端提交MR程序job的流程
这里是我自己总结的简单的描述:Configuration conf = new Configuration(); // conf.set("mapreduce.framework.name", "yarn"); // conf.set("yarn.resoucemanager.hostname", "hadoop"); Job job = Job.getInstance(conf);
2017-03-27 21:03:19
1498
原创 关于MapReduce中的切片机制
MapReduce的每一个Spilt都回提交给一个Job 最后都有一个Client 关于Spilt 将待处理数据执行逻辑切片(即按照一个特定切片大小,将待处理数据划分成逻辑上的多个split),然后每一个split分配一个mapTask并行实例处理 这段逻辑及形成的切片规划描述文件,由FileInputFormat实现类的getSplits()方法完成,切片定义在InputFormat类中的g
2017-03-27 14:22:49
3867
4
原创 学习Hadoop笔记之一
学习的时候出现了几个问题,然后想想把记录了下来,能力有限,多多见谅。 1.关于关闭防火墙的问题: a) 因为虚拟机是要做服务器 内网链接 防火墙一般全部关闭 在很多时候不关闭防火墙会出现很多问题(端口被占用的问题!)所以要关闭防火墙! 2.关于主机网页登陆不上虚拟机的apache服务的时候,比如Tomact。 如果能Ping通的话,一般就是防火墙的问题,a) 必须要关闭虚拟机的防火墙
2017-03-23 21:26:27
424
原创 MapReduce 程序详解
Hadoop的第一课总是MapReduce,但是往往我们每次都是使用自带的例子跑一遍MapReduce程序,今天总与自己写了一个完整的程序。技术有限,多多指教。 1.导Jar包,将Hadoop的Jar导入到你的工程 2.开始写自己的主类,分为3个类。 第一个类WordcountMapperpackage cn.itcast.bigdata.mr.wcdemo;import java.io.
2017-03-23 11:24:16
579
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人