- 博客(24)
- 资源 (4)
- 收藏
- 关注
原创 Hive SQL 代码snippet
Hive SQL 代码snippet使用SQL计算gini指数with balances as ( select '2018-01-01' as date, balance from unnest([1,2,3,4,5]) as balance -- Gini coef: 0.2666666666666667 union all select '2018-01-02' as date, balance from unnest([3,3,3,3]) as balan
2020-08-29 15:48:09
382
原创 hive数组排序
hive数组排序hive中关于数组内部排序等函数主要有以下两个:sort_arraysort_array(array(obj1, obj2,…)) - Sorts the input array in ascending order according to the natural ordering of the array elements.Example:SELECT sort_ar...
2020-05-06 14:44:04
6972
原创 Hive Sql 嵌套 case when(if else)
一般我们使用 hive sql 中的case when是以下两种形式CASE a WHEN b THEN c [WHEN d THEN e]* [ELSE f] ENDCASE WHEN a THEN b [WHEN c THEN d]* [ELSE e] END在将xgb模型转化为sql的过程中,用嵌套判断模式,会减少计算量,因此搜索了一下如何在hive中实现嵌套格式的if-else判...
2019-02-28 09:21:15
34695
1
原创 解析xgb模型成sql语句
解析xgb模型成sql语句xgb是一种功能强大,被广泛使用的树模型。树模型的本质是一组if-else组合。训练好的xgb模型如何需要对大数据进行运算,往往需要分布式的环境。Hive是我们常用的处理数据的环境,往往一些模型运算也在其中。我们可以使用以下三种方式,在Hive中计算xgb模型:使用python tranform的形式,如果没有安装xgb的包,还需要自己解析模型文件;将xgb模...
2019-02-27 21:05:26
2257
7
原创 字符串常见bug和解决方法
字符串常见bug和解决方法字符串常见bug和解决方法1. 不可见字符串bug编程很多时候就是和字符串打交道,字符串也经常让人头疼。 字符串编码主要遇到两类问题,一类是编码导致的乱码问题,如果有中文,最好全部统一为UTF-8格式,同时注意区分UTF-8有BOM和无BOM的情况。二类问题是一些特殊字符导致的,是否需要转义,或者一些不可见字符导致的问题。 这篇博客中将陆续记录...
2018-06-04 22:24:11
1352
原创 用Python编写Hadoop下MapReduce程序
标签(空格分隔): Hadoop MapReduce Python本文是作者学习MapReduce编程的记录,几乎翻译自文章《Writing an Hadoop MapReduce Program in Python》。不当之处,还望海涵,多多指点。Hadoop提供了Hadoop Streaming API,可以通过标准输入输出帮助我们在Map和Reduce代码之间传递数据。因此我们可以使用Pyth
2016-04-18 21:10:14
994
原创 #1032 : 最长回文子串
标签(空格分隔): hihocoder原题目:#1032 : 最长回文子串这道题暴力破解的复杂度是O(n3)O(n^3),记忆搜索和动态规划时间复杂度可以降到O(n2)O(n^2),但是空间复杂度太高。 Manacher’s Algorithm算法时间空间复杂度都是O(n)O(n),leetcode有两篇博文,讲述的很是清楚。 Longest Palindromic Substring Part
2016-04-18 18:43:00
415
原创 #1037 : 数字三角形
#1037 : 数字三角形是一道动态规划,需要一个二维数组去存储中间信息。动态规划的理解可以参考笔者另一篇博文hihicoder #1038 : 01背包。上面引用了知乎的回答。 题目中的三点提示: 提示一:盲目贪心不可取,搜索计算太耗时 提示二:记忆深搜逞神威,宽度优先解难题 提示三:总结归纳提公式,减少冗余是真理这道题贪心算法无法达到全局最优,搜索主要分深度搜索和跨度搜索。普通搜索就
2016-04-17 08:14:59
641
原创 读刘未鹏老大《你应当如何学习C++(以及编程)》
标签(空格分隔): 三省吾身原文地址:你应当如何学习C++(以及编程) 本人反思自己这些年在学校学得稀里糊涂半灌水。看到这篇文章,感觉收获不少。仿佛有指明自己道路的感觉,当然真正困难的还是坚持学习,多动手实践。 但是这篇文章确实对于纠结知识细节还是看抽象理论给出了指导意义。麻省理工大学的《计算机科学及编程导论》课程上,Eric Grimson开篇就说到这本课不仅教授如何编程让电脑做一些事情,
2016-04-16 11:41:52
2784
原创 简易Shell
简易Shell出处:课程《Unix高级环境编程》 扩展书籍《Unix环境高级编程》的例1.5、1.8功能需求 程序从控制台执行,启动后显示一个命令提示符“->”。用户可以通过给特定的环境变量赋值来改变命令提示符形式。通过某个特殊的命令或按键组合可以正常地关闭本程序。提供后台运行机制。用户提交的任务可以通过某种指示使之在后台运行,例如-> bg job1 将使任务job1在后台运行,并马上
2016-03-30 13:25:14
888
2
原创 # hihocoder #1197 : Give My Text Back
hihocoder #1197 : Give My Text Back标签(空格分隔): hihocoder题目: Time Limit:10000ms Case Time Limit:1000ms Memory Limit:256MB Description To prepare for the English exam Little Ho collected ma
2015-10-18 20:46:13
1682
原创 # hihocoder #1093 : 最短路径·三:SPFA算法
hihocoder #1093 : 最短路径·三:SPFA算法标签(空格分隔): hihocoder1093 : 最短路径·三:SPFA算法 对于稀疏图,边的数目远小于N^2(其中,N指顶点数)。因此邻接矩阵中会有大量的“表示”此边不存在的元素,不仅浪费了空间,也降低了效率。这里参考《算法竞赛入门经典》中第11章用矩阵来表示邻接表(Adjacency List)。算法实现参照其11.2.4节。这种
2015-10-05 10:28:24
931
原创 # hihocoder #1089 : 最短路径·二:Floyd算法
hihocoder #1089 : 最短路径·二:Floyd算法标签(空格分隔): hihocoder这道题和上一篇博客#hihocoder #1081 : 最短路径·一几乎差不多,不过是求所有两点之间的最短距离,用Dijkstra算法我们可以调用多次…比较麻烦低效,Floyd-Warshall算法,可以解决我们对这道题的幻想。 其中Bignum设置的关键是不能太小,太大似乎也不好,代码38行有溢
2015-10-04 19:24:48
696
原创 #hihocoder #1081 : 最短路径·一
hihocoder #1081 : 最短路径·一标签(空格分隔): hihocoder 笔试的时候遇到一道题,需要用到最短路径算法,之前虽然学过,但是一点不熟悉,搞了半天,最后还落得一个超时的下场。 图文并茂的详细算法内容可见:Dijkstra算法 这里的Dijkstra算法描述是基于邻接矩阵,对图的更省空间的描述是邻接表。稀疏图用矩阵很比较浪费空间。此处的图指无向图且权值为正的情况。权值为负
2015-10-04 16:14:51
964
原创 逻辑回归梯度下降公式详细推导
标签(空格分隔): 机器学习 在一次面试中被问道了逻辑回归公式的推导,虽然知道原理,但是从来未从头到尾推导过,面试时估计有点困,又不完全熟悉,又略有紧张(借口找的齐全了…)。面试官还算仁慈,没有太严格。但是自己还是应该会熟练掌握才对的…写此博客,以备复习。 假设hθ(x)=11+exp(−θTx)h_{\theta}(x) = \frac{1}{1+exp(-\theta^T x)},且(x(i
2015-09-30 00:40:57
7859
8
原创 # hihicoder #1038 : 01背包
hihicoder #1038 : 01背包标签(空格分隔): hihocoder经典的01背包问题。主要考察动态规划,自己太渣,动态规划认识的肤浅,下面整理了知乎大神一些关于动态规划的解释,有兴趣的朋友也可以直接上知乎看看。 什么是动态规划?动态规划的意义是什么?知乎答案整理王勐: 动态规划的本质不在于是递归或是递推,也不需要纠结是不是内存换时间。 理解动态规划并不需要数学公式介入,首先需要
2015-09-29 15:21:40
820
原创 #hihocoder #1135 : Magic Box
hihocoder #1135 : Magic Box标签(空格分隔): hihocoder1135 : Magic BoxDescription The circus clown Sunny has a magic box. When the circus is performing, Sunny puts some balls into the box one by one. The bal
2015-09-29 11:24:04
1114
原创 梯度下降法的简单理解
梯度下降法 梯度下降法(gradient descent)或最速下降法(steepest descent)是求解无约束最优化问题的一种最常用的方法。 负梯度方向是使函数值下降最快的方向,在迭代的每一步,以负梯度方向更新x的值,从而达到减少函数值的目的。 假设f(x) f(x) 在Rn R_n 上具有一阶连续偏导数,要求解的无约束最优化问题是: minx∈Rnf(x)\min\limits_{
2015-09-29 11:21:59
3645
原创 # hihocoder #1082 : The Marshtomp has seen it all before
标签(空格分隔): hihocoder题目:#1082 : The Marshtomp has seen it all before Description fjxmlhx is fed up with endless marshtomps on the internet. So he turns to you to write a program to change all
2015-09-19 09:51:27
1341
原创 # hihocoder #1051 补提交卡
标签(空格分隔): hihocoder题目:#1051:补提交卡 小Ho给自己定了一个宏伟的目标:连续100天每天坚持在hihoCoder上提交一个程序。100天过去了,小Ho查看自己的提交记录发现有N天因为贪玩忘记提交了。于是小Ho软磨硬泡、强忍着小Hi鄙视的眼神从小Hi那里要来M张”补提交卡”。每张”补提交卡”都可以补回一天的提交,将原本没有提交程序的一天变成有提交程序的一天。小Ho想知道通
2015-09-19 00:00:01
668
原创 #hihocoder #1039 字符消除
总结自己的代码能力,就是渣渣渣。找工作,看到各路大神高歌猛进,自己却…因此痛定思痛,困而学之,决定悔改自新,从头来过…题目:#1039 : 字符消除 小Hi最近在玩一个字符消除游戏。给定一个只包含大写字母”AB C”的字符串s,消除过程是如下进行的: 如果s包含长度超过1的由相同字母组成的子串,那么这些子 串会被同时消除,余下的子串拼成新的字符串。例如”ABCCBCCC
2015-09-16 18:35:53
1072
原创 关于逻辑回归(Logistic regression)模型的简单思考
关于逻辑回归(Logistic regression)模型的简单思考Tags: 机器学习算法 Logistic regression(LR)模型是一种分类算法,它将特征空间映射成一种可能性,本文将从以下几方面解释逻辑回归模型: 逻辑回归模型的定义 逻辑回归模型的概率论解释 逻辑回归的引申:条件随机场 求解实现(Python) 1.逻辑回归模型的定义 模型输入为x⃗ \
2015-09-15 23:37:56
4446
原创 感知机、线性回归、逻辑回归的简单对比
感知机、线性回归、逻辑回归的简单对比 标签: 机器学习算法 1. 感知机算法(Perceptron Algorithm) 感知机算法是机器学习中的一个二分类监督学习算法,通过一个函数决定由向量代表的一个输入是否属于某一类。它是一种线性分类器:特征通过权重线性组合,然后通过一个线性预测函数来判断。这个算法最早由Frank Rosenblatt在1957年提出。
2015-06-11 22:22:16
20917
4
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人