末日辰箫-优快云博客

转载 GBDT算法原理及调参实现

算法原理：http://www.jianshu.com/p/005a4e6ac775http://www.cnblogs.com/pinard/p/6140514.htmlhttp://blog.youkuaiyun.com/suranxu007/article/details/49910323调参：http://www.cnbl

2017-09-18 16:12:35 1650 1

原创特征选择常用算法综述

http://www.cnblogs.com/heaad/archive/2011/01/02/1924088.html

2017-09-11 17:03:39 396

转载随机梯度下降法

文章请看：http://blog.youkuaiyun.com/zbc1090549839/article/details/38149561

2017-09-11 14:32:15 471

原创 python 时间差的计算

import timeimport datetimestart = datetime.datetime.now()time.sleep(30)end = datetime.datetime.now()print (end-start).days # 0 天数print (end-start).total_seconds() # 30.029522 精确秒数print (end-s

2017-07-27 19:35:23 15123

转载 hive大数据倾斜总结

转载地址来源：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842860.html

2017-07-19 11:41:39 348

转载 Hive： SemanticException Error in parsing

逗号导致hive报“SemanticException Error in parsing”错误http://www.mamicode.com/info-detail-222137.html

2017-05-22 14:27:45 2483

原创百度2016校招：钓鱼比赛 Python

题目描述:ss请cc来家里钓鱼，鱼塘可划分为n＊m的格子，每个格子有不同的概率钓上鱼，cc一直在坐标(x,y)的格子钓鱼，而ss每分钟随机钓一个格子。问t分钟后他们谁至少钓到一条鱼的概率大？为多少？输入描述: 第一行五个整数n,m,x,y,t(1≤n,m,t≤1000,1≤x≤n,1≤y≤m); 接下来为一个n＊m的矩阵，每行m个一位小数，共n行，第i行第j个数代表坐标为(i,

2017-05-19 16:10:35 390

原创基于随机采样获取训练、测试数据示例(Python)

import randomnPoints = 1000#随机获取x列表的数据xPlot = [(float(i)/float(nPoints) - 0.5) for i in range(nPoints + 1)]x = [[s] for s in xPlot]#运行一个随机种子random.seed(1)#在x的基础上进行数据的随机获取，每个数据在0.1范围内随机波动y = [s

2017-05-18 17:29:01 3155

转载 Hive学习之抽样（Sampling）

参考如下链接：http://blog.youkuaiyun.com/skywalker_only/article/details/39370511

2017-05-16 17:44:14 339

转载 GBDT和XGBOOST的区别

机器学习算法中GBDT和XGBOOST的区别https://www.zhihu.com/question/41354392

2017-05-16 17:19:12 429

转载算法原理详细讲解

Auton Lab 实验室的相关讲解https://www.autonlab.org/tutorials

2017-05-16 15:44:52 694

转载机器学习之特征工程

特征工程的相关讲解说明：http://www.cnblogs.com/jasonfreak/p/5448385.html

2017-05-16 14:47:35 338

转载 GBDT和随机森林的区别

参考学习如下文章：http://blog.youkuaiyun.com/keepreder/article/details/47272779

2017-05-16 14:18:52 478

原创数据标准化处理

1. Std标准化处理xMeans = []xSD = []for i in range(ncols): col = [xList[j][i] for j in range(nrows)] mean = sum(col)/nrows xMeans.append(mean) colDiff = [(xList[j][i] - mean) for j in ra

2017-05-15 14:59:28 512

转载机器学习正则化相关讲解

讲解了三个范数以及范数在机器学习中的作用jhttp://blog.youkuaiyun.com/zouxy09/article/details/24971995

2017-05-12 16:00:05 452

原创 KNN算法示例

# -*- coding: UTF-8 -*-import mathimport csvimport randomimport operator'''@author:hunter@time:2017.03.31'''class KNearestNeighbor(object): def __init__(self): pass def loa

2017-04-13 22:28:31 1790

原创拉格朗日插值方法示例

from scipy.interpolate import lagrange #导入拉格朗日插值函数#自定义列向量插值函数#s为列向量，n为被插值的位置，k为取前后的数据个数，默认为5def ployinterp_column(s, n, k=5): y = s[list(range(n-k, n)) + list(range(n+1, n+1+k))] #取数 y = y[y.no

2017-04-11 19:32:51 1647

原创 Hive分组统计前top N条记录

参考这篇博客而写：http://blog.youkuaiyun.com/longshenlmj/article/details/50525385本 Hive 语句的目的是统计中国每个省份下所有城市记录出现总次数为前5的结果。hive -e "select bb.* from (select country_name, province_name, city_name

2017-01-22 18:45:04 7817

原创解决Python查询Mysql数据库信息乱码问题

今天尝试着用 Python 写了个脚本试着连接 mysql 数据库，并查询里边的数据，不过最终查询结果中文字符变成了ascii格式。代码如下：#!/usr/bin/python#encoding=utf-8import MySQLdbimport jsondb = MySQLdb.connect(host='xxx.xxx.xx.xxx',port=3306,user='nam

2017-01-22 16:47:17 4493

转载二分查找

算法原理：二分查找又称折半查找，首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步查找前一子表，否则进一步查找后一子表。重复以上过程，直到找到满足条件的记录，使查找成功，或直到子表不存在为止，此时查找不成功。算法要求：1.必须采用顺序存储结构；2.必

2016-12-28 11:17:01 393

转载 Python性能优化的20条建议

1. 优化算法时间复杂度算法的时间复杂度对程序的执行效率影响最大，在Python中可以通过选择合适的数据结构来优化时间复杂度，如list和set查找某一个元素的时间复杂度分别是O(n)和O(1)。不同的场景有不同的优化方式，总得来说，一般有分治，分支界限，贪心，动态规划等思想。2. 减少冗余数据如用上三角或下三角的方式去保存一个大

2016-12-22 16:42:03 257

转载 Python常见文件操作的函数示例

os.path 模块中的路径名访问函数分隔basename() 去掉目录路径, 返回文件名dirname() 去掉文件名, 返回目录路径join() 将分离的各部分组合成一个路径名split() 返回(dirname(), basename()) 元组splitdrive() 返回(drivename, pathname) 元组splitex

2016-12-21 18:26:09 226

原创 linux shell 指令诸如-d, -f, -e之类的判断表达式

文件比较运算符-e filename 如果 filename存在，则为真 [ -e /var/log/syslog ]-d filename 如果 filename为目录，则为真 [ -d /tmp/mydir ]-f filename 如果 filename为常规文件，则为真 [ -f /usr/bin/grep ]-L filename 如果 filename为符

2016-12-21 18:11:25 282

原创编写Python程序时10个常见的错误

Python是一门解释性的，面向对象的，并具有动态语义的高级编程语言。它高级的内置数据结构，结合其动态类型和动态绑定的特性，使得它在快速应用程序开发（Rapid Application Development）中颇为受欢迎，同时Python还能作为脚本语言或者胶水语言讲现成的组件或者服务结合起来。Python支持模块（modules）和包（packages），所以也鼓励程序的模块化以及代码重用。

2016-12-21 18:09:54 1529

原创 Python 文件读写操作实例详解

一、python中对文件、文件夹操作时经常用到的os模块和shutil模块常用方法。1.得到当前工作目录，即当前Python脚本工作的目录路径: os.getcwd()2.返回指定目录下的所有文件和目录名:os.listdir()3.函数用来删除一个文件:os.remove()4.删除多个目录：os.removedirs(r"c：\python")5.检验给出的路径是否是一个文

2016-12-21 18:08:45 595

原创 PYthon os.path 访问函数

os.path 模块中的路径名访问函数分隔basename() 去掉目录路径, 返回文件名dirname() 去掉文件名, 返回目录路径join() 将分离的各部分组合成一个路径名split() 返回(dirname(), basename()) 元组splitdrive() 返回(drivename, pathname) 元组splitex

2016-12-21 18:07:41 292

原创 Python中OS模块使用说明

os.getcwd() 获取当前工作目录，即当前python脚本工作的目录路径 os.chdir("dirname") 改变当前脚本工作目录；相当于shell下cdos.curdir 返回当前目录: ('.')?1os.pardir 获取当前目录的父目录字符串名：('..')os.makedirs('dirname1/dirname2') 可生成多层递归目录os.rem

2016-12-21 18:05:54 1066

原创 python中map和reduce的应用

map和reduce在那篇经典的论文《MapReduce: Simplified Data Processing on Large Clusters》中这么定义MapReduce is a programming model and an associated implementation for processing and generating large data sets.

2016-12-21 18:04:36 461

原创 hive QL优化系列之一

优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。对分区插入数据(每次都会覆盖掉原来的数据):hive.map.aggr=trueMap 端部分聚合，相当于Combinerhive.groupby.skewindata=true

2016-12-21 18:01:41 635

原创 hive 配置参数说明大全

hive 运行优化参数配置

2016-12-21 18:00:44 1869

转载 python常用模块大全

本篇文章列举了python中常用的模块以及目录

2016-12-21 17:46:18 1775

原创 knn算法学习笔记

主要介绍了knn的实现过程，包括归一化处理，中间数值计算中涉及到的矩阵操作。

2016-11-08 13:56:13 291

mori66