- 博客(32)
- 收藏
- 关注
转载 GBDT算法原理及调参实现
算法原理:http://www.jianshu.com/p/005a4e6ac775http://www.cnblogs.com/pinard/p/6140514.htmlhttp://blog.youkuaiyun.com/suranxu007/article/details/49910323调参:http://www.cnbl
2017-09-18 16:12:35
1608
1
转载 随机梯度下降法
文章请看:http://blog.youkuaiyun.com/zbc1090549839/article/details/38149561
2017-09-11 14:32:15
436
原创 python 时间差的计算
import timeimport datetimestart = datetime.datetime.now()time.sleep(30)end = datetime.datetime.now()print (end-start).days # 0 天数print (end-start).total_seconds() # 30.029522 精确秒数print (end-s
2017-07-27 19:35:23
15047
转载 hive大数据倾斜总结
转载地址来源:http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842860.html
2017-07-19 11:41:39
323
转载 Hive: SemanticException Error in parsing
逗号导致hive报“SemanticException Error in parsing”错误http://www.mamicode.com/info-detail-222137.html
2017-05-22 14:27:45
2434
原创 百度2016校招:钓鱼比赛 Python
题目描述:ss请cc来家里钓鱼,鱼塘可划分为n*m的格子,每个格子有不同的概率钓上鱼,cc一直在坐标(x,y)的格子钓鱼,而ss每分钟随机钓一个格子。问t分钟后他们谁至少钓到一条鱼的概率大?为多少?输入描述: 第一行五个整数n,m,x,y,t(1≤n,m,t≤1000,1≤x≤n,1≤y≤m); 接下来为一个n*m的矩阵,每行m个一位小数,共n行,第i行第j个数代表坐标为(i,
2017-05-19 16:10:35
359
原创 基于随机采样获取训练、测试数据示例(Python)
import randomnPoints = 1000#随机获取x列表的数据xPlot = [(float(i)/float(nPoints) - 0.5) for i in range(nPoints + 1)]x = [[s] for s in xPlot]#运行一个随机种子random.seed(1)#在x的基础上进行数据的随机获取,每个数据在0.1范围内随机波动y = [s
2017-05-18 17:29:01
3097
转载 Hive学习之抽样(Sampling)
参考如下链接:http://blog.youkuaiyun.com/skywalker_only/article/details/39370511
2017-05-16 17:44:14
312
转载 GBDT和XGBOOST的区别
机器学习算法中GBDT和XGBOOST的区别https://www.zhihu.com/question/41354392
2017-05-16 17:19:12
409
转载 GBDT和随机森林的区别
参考学习如下文章:http://blog.youkuaiyun.com/keepreder/article/details/47272779
2017-05-16 14:18:52
447
原创 数据标准化处理
1. Std标准化处理xMeans = []xSD = []for i in range(ncols): col = [xList[j][i] for j in range(nrows)] mean = sum(col)/nrows xMeans.append(mean) colDiff = [(xList[j][i] - mean) for j in ra
2017-05-15 14:59:28
474
转载 机器学习正则化相关讲解
讲解了三个范数以及范数在机器学习中的作用jhttp://blog.youkuaiyun.com/zouxy09/article/details/24971995
2017-05-12 16:00:05
422
原创 KNN算法示例
# -*- coding: UTF-8 -*-import mathimport csvimport randomimport operator'''@author:hunter@time:2017.03.31'''class KNearestNeighbor(object): def __init__(self): pass def loa
2017-04-13 22:28:31
1732
原创 拉格朗日插值方法示例
from scipy.interpolate import lagrange #导入拉格朗日插值函数#自定义列向量插值函数#s为列向量,n为被插值的位置,k为取前后的数据个数,默认为5def ployinterp_column(s, n, k=5): y = s[list(range(n-k, n)) + list(range(n+1, n+1+k))] #取数 y = y[y.no
2017-04-11 19:32:51
1603
原创 Hive分组统计前top N条记录
参考这篇博客而写:http://blog.youkuaiyun.com/longshenlmj/article/details/50525385本 Hive 语句的目的是统计中国每个省份下所有城市记录出现总次数为前5的结果。hive -e "select bb.* from (select country_name, province_name, city_name
2017-01-22 18:45:04
7734
原创 解决Python查询Mysql数据库信息乱码问题
今天尝试着用 Python 写了个脚本试着连接 mysql 数据库,并查询里边的数据,不过最终查询结果中文字符变成了ascii格式。代码如下:#!/usr/bin/python#encoding=utf-8import MySQLdbimport jsondb = MySQLdb.connect(host='xxx.xxx.xx.xxx',port=3306,user='nam
2017-01-22 16:47:17
4450
转载 二分查找
算法原理:二分查找又称折半查找,首先,假设表中元素是按升序排列,将表中间位置记录的关键字与查找关键字比较,如果两者相等,则查找成功;否则利用中间位置记录将表分成前、后两个子表,如果中间位置记录的关键字大于查找关键字,则进一步查找前一子表,否则进一步查找后一子表。重复以上过程,直到找到满足条件的记录,使查找成功,或直到子表不存在为止,此时查找不成功。算法要求:1.必须采用顺序存储结构;2.必
2016-12-28 11:17:01
367
转载 Python性能优化的20条建议
1. 优化算法时间复杂度算法的时间复杂度对程序的执行效率影响最大,在Python中可以通过选择合适的数据结构来优化时间复杂度,如list和set查找某一个元素的时间复杂度分别是O(n)和O(1)。不同的场景有不同的优化方式,总得来说,一般有分治,分支界限,贪心,动态规划等思想。2. 减少冗余数据如用上三角或下三角的方式去保存一个大
2016-12-22 16:42:03
205
转载 Python常见文件操作的函数示例
os.path 模块中的路径名访问函数分隔basename() 去掉目录路径, 返回文件名dirname() 去掉文件名, 返回目录路径join() 将分离的各部分组合成一个路径名split() 返回(dirname(), basename()) 元组splitdrive() 返回(drivename, pathname) 元组splitex
2016-12-21 18:26:09
202
原创 linux shell 指令 诸如-d, -f, -e之类的判断表达式
文件比较运算符-e filename 如果 filename存在,则为真 [ -e /var/log/syslog ]-d filename 如果 filename为目录,则为真 [ -d /tmp/mydir ]-f filename 如果 filename为常规文件,则为真 [ -f /usr/bin/grep ]-L filename 如果 filename为符
2016-12-21 18:11:25
263
原创 编写Python程序时10个常见的错误
Python是一门解释性的,面向对象的,并具有动态语义的高级编程语言。它高级的内置数据结构,结合其动态类型和动态绑定的特性,使得它在快速应用程序开发(Rapid Application Development)中颇为受欢迎,同时Python还能作为脚本语言或者胶水语言讲现成的组件或者服务结合起来。Python支持模块(modules)和包(packages),所以也鼓励程序的模块化以及代码重用。
2016-12-21 18:09:54
1495
原创 Python 文件读写操作实例详解
一、python中对文件、文件夹操作时经常用到的os模块和shutil模块常用方法。1.得到当前工作目录,即当前Python脚本工作的目录路径: os.getcwd()2.返回指定目录下的所有文件和目录名:os.listdir()3.函数用来删除一个文件:os.remove()4.删除多个目录:os.removedirs(r"c:\python")5.检验给出的路径是否是一个文
2016-12-21 18:08:45
559
原创 PYthon os.path 访问函数
os.path 模块中的路径名访问函数分隔basename() 去掉目录路径, 返回文件名dirname() 去掉文件名, 返回目录路径join() 将分离的各部分组合成一个路径名split() 返回(dirname(), basename()) 元组splitdrive() 返回(drivename, pathname) 元组splitex
2016-12-21 18:07:41
270
原创 Python中OS模块使用说明
os.getcwd() 获取当前工作目录,即当前python脚本工作的目录路径 os.chdir("dirname") 改变当前脚本工作目录;相当于shell下cdos.curdir 返回当前目录: ('.')?1os.pardir 获取当前目录的父目录字符串名:('..')os.makedirs('dirname1/dirname2') 可生成多层递归目录os.rem
2016-12-21 18:05:54
1031
原创 python中map和reduce的应用
map和reduce在那篇经典的论文 《MapReduce: Simplified Data Processing on Large Clusters》中这么定义MapReduce is a programming model and an associated implementation for processing and generating large data sets.
2016-12-21 18:04:36
431
原创 hive QL优化系列之一
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 对分区插入数据(每次都会覆盖掉原来的数据):hive.map.aggr=trueMap 端部分聚合,相当于Combinerhive.groupby.skewindata=true
2016-12-21 18:01:41
600
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人