- 博客(105)
- 资源 (5)
- 收藏
- 关注
原创 Hadoop之Text与String的异同
String常量,创建之后不可修改字符串连接是通过StringBuilder(或StringBuffer)类实现的 【区别:StringBuilder是非线程安全的,这也使其性能比StringBuffer要高(少synchroned方法)】String: UTF-16格式Unicode为解决传统字符编码方案的局限而产生Unicode方案包括: 给所有字符指定一个唯一对应的数字将字符
2017-03-04 20:47:14
1548
原创 Hadoop实战之课后题--分析web服务器的日志文件
任务统计每个IP地址的访问次数查找访问数最多的前K个IP地址分析:任务1很简单,简单的求和问题,用来重新熟悉hadoop MR程序的写法。 优化:使用combiner()减少网络中的流量传输;这个例子中combiner和reducer的逻辑相同,两种使用同一个reduce即可。代码贴在附录里了,注释详细,可查看~任务2是一个TopK的问题,要点有以下几个: 使用TreeMap来得到
2017-03-03 16:34:09
922
转载 Linux下打包运行MR程序
转载自 使用命令行编译打包运行MR程序网上的 MapReduce WordCount 教程对于如何编译 WordCount.java 几乎是一笔带过… 而有写到的,大多又是 0.20 等旧版本版本的做法,即 javac -classpath /usr/local/hadoop/hadoop-1.0.1/hadoop-core-1.0.1.jar WordCount.java
2017-03-03 10:38:23
1325
转载 JAVA学习路线图
转载自byrbss JAVA学习路线图以下是原文:Java是一个通用的编程语言,其实可以干很多事,怎么学Java就看怎么用了。但有一些一般的步骤:1. 熟悉一种文本编辑器,比如Vim, Emacs, Notepad++, TextMate等。知道哪些是开源的,哪些是闭源的,哪些要收费。养成不用盗版软件的习惯。2. 安装JDK(建议用你的Linux发行版
2017-03-03 09:12:31
695
转载 Hadoop_eclipse开发配置
参考这两篇文章http://www.cnblogs.com/xia520pi/archive/2012/05/20/2510723.htmlhttp://www.cnblogs.com/simplestupid/p/4681144.html
2017-03-02 16:43:16
421
原创 Hadoop实战(五) 高阶MapReduce
本章重点概括 TODO链接MapReduce作业顺序链接这种任务可以手动的逐个执行,但生成自动化执行序列的方式更为便捷。 mapreduce-1 | mapreduce-2 | mapreduce-3 | … 具复杂依赖的作业链接(非线性链接)通过Job和JobControl类来管理依赖JobControl类负责管理并监控作业的执行JobControl对象使用addJob()方法向其中
2017-02-28 11:08:49
582
原创 Hadoop2.2.0源码系列--Job类
获取Job对象Job的构造函数最直接的获取Job对象的方式@Deprecated public Job() throws IOException { this(new Configuration()); } @Deprecated public Job(Configuration conf) throws IOException { this(new JobConf(c
2017-02-28 10:18:50
1106
原创 Hadoop实战(四) 编写MR程序
Hadoop实战(四) 编写MR程序样例数据集1. 下载数据集Address: http://www.nber.org/patents/ wget http://www.nber.org/patents/acite75_99.zip wget wget http://www.nber.org/patents/apat63_99.zip解压: unzip acite75_99.zip上传
2017-02-28 09:17:42
3877
原创 leetcode73_ Set Matrix Zeroes
问题描述Given a m x n matrix, if an element is 0, set its entire row and column to 0. Do it in place.代码编写*很明显是遍历的思想,但是做不到一遍做完所有,至少要两遍。 *于是想到先遍历行,再遍历列。为节省时间,在遍历列的时候,需要置零的列就不再考虑已经被置零的行。 *我的思路问题就在于只考虑了优化时间复
2017-02-27 20:37:22
540
原创 Skinny-dip clustering in the sea of noise
粗读理解论文主要工作 贡献 理解一些相关工作: * unimodality:wiki_unimodality 单峰性数学上是指处理一个唯一的模式(只有一个单一的最大值)。 * mode:mode_wiki The mode is the value that appears most often in a set of data. * modal interval:introduct
2017-01-12 11:41:55
791
原创 leetcode62&63&64_Unique Paths
一、问题描述A robot is located at the top-left corner of a m x n grid (marked ‘Start’ in the diagram below).The robot can only move either down or right at any point in time. The robot is trying to reach the
2016-12-20 21:35:48
470
原创 leetcode60_Permutation Sequence
一、问题描述The set [1,2,3,…,n] contains a total of n! unique permutations.By listing and labeling all of the permutations in order,We get the following sequence (ie, for n = 3):"123""132"
2016-12-16 15:44:02
390
原创 《高维数据的聚类分析研究及其应用》读书笔记
一、高维聚类の研究方向 由于高维数据的稀疏性等特征,使得在高维聚类的研究中有如下几个研究重点:1)维度约简,主要分为特征变换和特征选择两大类。前者是对特征空间的变换映射,常见的有PCA、SVD等。后者则是选择特征的子集,常见的搜索方式有自顶向下、随机搜索等;2)高维聚类算法,主要分为高维全空间聚类和子空间聚类算法。前者的研究主要聚焦在对传统聚类算法的优化改进上,后者则可以
2016-12-13 09:36:24
9897
原创 kdtree&knn
前言:本文关于kdtree的知识基本来源于kdtree_wiki一、what's kdtree kdtree是 k-dimensional tree的缩写,它是一种用于组织k维空间中数据点的基于空间划分的数据结构。kdtree常用于搜索多维搜索词,包括区间搜索和最近邻搜索。kdtree是一种二叉树结构,它是BSP(Binary space partationing)树的一
2016-12-12 10:51:54
9129
原创 leetcode56&57_Merge Intervals&Insert Interval
一、问题描述Given a collection of intervals, merge all overlapping intervals.For example,Given [1,3],[2,6],[8,10],[15,18],return [1,6],[8,10],[15,18]二、代码编写 这个算法思想很简单,只要将list按照interval的s
2016-12-11 20:22:53
326
原创 Hadoop实战(二) hadoop基本组成
一、Hadoop组件 通常我们所理解的狭义Hadoop构成分为HDFS分布式存储系统和MapReduce编程模型两部分,下面分别从这两个部分介绍。(一)HDFSHDFS是一个分布式文件系统,下面主要介绍如何操作该文件系统。1.基本命令行操作hadoop fs -help基本的操作都遵循这个模式,比如常用的 hadoop fs -lshadoop fs -m
2016-12-08 16:26:34
2302
原创 hadoop实战(一) hadoop基本概念
一、理解Hadoop Hadoop_wiki上定义,Apache Hadoop is an open-source software framework used for distributed storage and processing of very large data sets. 就是说Hadoop是分布式的数据处理框架。二、理解MapRed
2016-12-07 17:38:46
722
原创 leetcode51&52 N-Queens
一.问题描述The n-queens puzzle is the problem of placing n queens on an n×n chessboard such that no two queens attack each other.Given an integer n, return all distinct solutions to the n-que
2016-12-04 15:10:16
345
原创 EM算法
一.EM算法基本介绍 和一般的算法目标一样,我们用最大似然估计,对参数进行估计l(θ) = ∑P(yi|θ)由于某些原因,你发现这个不好求(NP hard问题),于是引入了一个隐变量(latent variable),并把上式改写成了l(θ) = ∑P(yi|θ) = ∑∑P(yj,zj|θ) [注:里面一个求和是对所有可能的z求和,外面的求和是对y]然后通过神奇
2016-12-03 21:15:34
747
原创 秩
昨天看到一个面试题,让介绍什么是秩,其实这个可能对学好了线性代数的人来说是很basic的问题吧,可是无奈数学里我最最讨厌的就是线性代数了,当初大一的时候压根没学明白。 言归正传,单独给秩开一篇博客,是因为早上看到知乎的大神对秩的解释简直不要太好,贴上来,保存一下。下面的回答是按2我个人的喜好程度排的,hhh回答1:秩就是基的个数,基就是特征,基就用最小的粒度能够描述所有
2016-12-01 16:29:40
1647
原创 leetcode50_Pow(x, n)
一.问题描述Implement pow(x, n).实现指数乘法。二.代码编写首先想到的其实就是把n不断拆分成n/2,但是想歪了,可能沉浸在大数乘法那个题里,然后发现其实小数乘大数比两个相等的数运算复杂度低一点,所以就否定了这个想法。但看了tags是二分的思想,后来一想其实重点不在于每次运算的复杂度,而在于二分能将运算的次数由O(N)降低到O(logN)。所以其实这
2016-11-30 21:29:44
436
原创 xgboost调参
Xgboost调参英文版参考:https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/ Xgboost经常被用作许多数据科学家的终极武器—有多厉害不用强调了。但是使用xgboost很简单,提高其性能就很难了。算法有太多的参数,为了提高
2016-11-30 19:11:51
2031
原创 统计学习方法(五)AdaBoost
一.提升方法boosting 如果我有写过集成方法的话[没有的话看这篇集成学习理论],集成方法的一大类就是boosting,其基本思想就是不断地在迭代过程中训练BaseModel,并增加误分样本的权重,直到达到停止条件后,组合BaseModel。从集成学习的理论我们知道boosting在组合过程中会增大模型的variance,所以BaseModel必须是低bias但低varian
2016-11-30 11:46:38
826
原创 ★leetcode45_Jump Game II
一.问题描述Given an array of non-negative integers, you are initially positioned at the first index of the array.Each element in the array represents your maximum jump length at that position.
2016-11-25 17:07:27
358
原创 ★leetcode44_Wildcard Matching
一.问题描述Implement wildcard pattern matching with support for '?' and '*'.'?' Matches any single character.'*' Matches any sequence of characters (including the empty sequence).The matching sh
2016-11-24 09:55:52
464
原创 ★leetcode43_Multiply Strings
一.问题描述实现字符串的乘法,不能直接将字符串转化成int哦~二.代码编写首先想到的方法就是根据我们平时手算乘法的方法来计算,本质上就是移位相乘相加~但是时间复杂度是O(N^2)。代码如下:'''@ author: wttttt at 2016.10.29@ problem description see: https://leetcode.com/prob
2016-11-22 20:14:11
570
原创 leetcode42_Trapping Rain Water
一.问题描述Given n non-negative integers representing an elevation map where the width of each bar is 1, compute how much water it is able to trap after raining.For example, Given [0,1,0,2,1,0,
2016-11-20 16:48:59
307
原创 leetcode41_First Missing Positive
一.问题描述给定一组integers,找出其中最小的缺失的正整数值,要求时间复杂度为O(n),空间复杂度为O(1)。二.代码编写时间复杂度为O(n)意味着不能直接对list进行排序O(NlogN),空间复杂度为常数意味着不能新建一个list。常数空间,我们应该想到直接swap,将相应得到数字m放到list的(m-1)的位置上。全部交换完毕后,返回list中第一个不满
2016-11-20 15:58:15
358
原创 WayToGo@2016.11.17
近期要看的:一.机器学习算法相关数学之美番外篇:平凡而又神奇的贝叶斯方法机器学习知识点其中包含了很多算法,慢慢的当做对统计学习方法的回顾总结来看吧。生成模型与判别模型从最大似然到EM算法浅解 当时看统计学习方法,觉得理解了许多,但是不应用转眼间又忘了,这篇当做温习,顺便可能可以从另一个角度加深理解。使用sklearn进行集成学习——理论 ensemble这么常用
2016-11-17 15:21:24
514
转载 机器学习中的范数规则化
机器学习中的范数规则化之(一)L0、L1与L2范数zouxy09@qq.comhttp://blog.youkuaiyun.com/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文。知识有限
2016-11-17 15:08:16
422
原创 leetcode39&40_Combination Sum& CombinationSumII
一.问题描述Given a set of candidate numbers (C) and a target number (T), find all unique combinations in C where the candidate numbers sums to T.The same repeated number may be chosen from C un
2016-11-12 11:51:43
322
原创 python之Thread和multiprocessing
下面的每个例子虽然都只给了代码,但是代码我都做了非常非常详细的注释,相信我们都能从其中得到知识的提升!~1.multithread_面向过程import threadingimport timeimport os# a program to simulate selling tickets in multi-thread way# u may realize that this i
2016-11-11 14:00:35
4779
原创 python_Jupyter环境配置
IPython是一个 Python 的一个交互式 shell,它提供了很多内建的函数。Jupyter Notebook是IPython的一个Web接口,其实它也支持其它语言。它可以展现富文本,使得整个工作可以以笔记的形式展现、存储,适合做数据分析,交互编程和学习。本文纪录了在CentOS上搭建Jupyter Notebook的步骤。参考网址:http://www.linuxdiyf.com
2016-11-10 16:32:02
20526
原创 kaggel入门比赛_HousePrices
kaggle入门系列比赛HousePrices,该比赛是一个经典的回归问题,预测房价,这个比赛我用来熟悉kaggle,熟悉基本的数据挖掘流程,主要是特征工程,包括常见的缺失值填补,categorial特征的处理,其实主要就是熟悉用python的pandas包对数据进行预处理。第一次尝试的过程我主要是参考了Regularized Linear Models这篇kernel,它对数据的处理就是一些
2016-11-08 20:29:50
4466
原创 leetcode36&37_SudukuSolver
36题:一.问题描述Determine if a Sudoku is valid, according to: Sudoku Puzzles - The Rules.The Sudoku board could be partially filled, where empty cells are filled with the character '.'.
2016-11-07 15:05:09
364
原创 leetcode34_Search for a Range
一.问题描述Given a sorted array of integers, find the starting and ending position of a given target value.Your algorithm's runtime complexity must be in the order of O(log n).If the target i
2016-11-01 09:33:31
304
原创 kaggle_1_环境配置
需要安装的基本就是各种科学计算环境的python包以及ipython。1.安装一些包依赖:yum -y install blas blas-devel lapack-devel lapackyum -y install seaborn scipyyum -y install freetype freetype-devel libpng libpng-devel2.接着安装所需的包(使用
2016-10-31 16:04:20
5732
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人