- 博客(23)
- 资源 (1)
- 收藏
- 关注
转载 NDCG 评价标准
评价标准性能良好的评分模型,应该能够给予那些引起msg或click的候选会员更高的评分(排序靠前),从而推荐给指定会员。本次竞赛的主要排名标准为Normalized Discounted Cumulative Gain(NDCG),定义如下:这里。其中n为候选会员集合中的总人数,表示模型给出的排序中,排名为的候选会员的实际ACTION值(msg=2,click=1,re
2016-10-11 10:34:35
7695
原创 评价标准NDCG
评价标准性能良好的评分模型,应该能够给予那些引起msg或click的候选会员更高的评分(排序靠前),从而推荐给指定会员。本次竞赛的主要排名标准为Normalized Discounted Cumulative Gain(NDCG),定义如下:这里。其中n为候选会员集合中的总人数,表示模型给出的排序中,排名为的候选会员的实际ACTION值(msg=2,click=1,re
2016-10-11 10:33:29
1157
转载 Python 的defaultdict用法
原作者: Jason Kirtland日期: January 13th, 2009许可证: Creative Commons Attribution-Share Alike 3.0原文链接(PPT): http://discorporate.us/jek/talks/defaultdict/翻译作者:kodango 翻译时间:March 17th, 2012译文链接:htt
2016-10-06 20:58:00
366
转载 特征选择
转载:http://blog.youkuaiyun.com/shanglianlm/article/details/494644451. 前言1-1 问题:从 D 维特征中选择 dD 个特征。1-2 特征选择主要回答两个层面的问题:对特征的评价,即怎样衡量一组特征对分类的有效性;寻优的算法,即怎样更快地找到性能最优或比较好的特征组合。2. 特征的评价准则
2016-10-06 16:57:56
2728
1
转载 hadoop 读写过程的内部机制
转载http://www.cnblogs.com/beanmoon/archive/2012/12/17/2821548.html读文件 读文件时内部工作机制参看下图: 客户端通过调用FileSystem对象(对应于HDFS文件系统,调用DistributedFileSystem对象)的open()方法来打开文件(也即图中的第一步),Distr
2016-10-05 23:58:44
2084
转载 hadoop shuffle过程
hadoop shuffle过程 http://blog.youkuaiyun.com/xiaoqixiaodong/article/details/38730399Shuffle描述着数据从map task输出到reduce task输入的这段过程。 个人理解:map执行的结果会保存为本地的一个文件中:只要map执行 完成,内存中的map数据就一
2016-10-05 23:13:52
461
转载 explicit 构造函数
转载自http://www.cnblogs.com/cutepig/archive/2009/01/14/1375917.html按照默认规定,只有一个参数的构造函数也定义了一个隐式转换,将该构造函数对应数据类型的数据转换为该类对象,如下面所示:class String {String ( const char* p ); // 用C风格的字符串p作为初始化值//…}S
2016-09-27 00:42:24
241
原创 C++ 初始化列表的构造函数
由面试引出的一道题:面试时被问到C++的一个类至少有几个函数?我们都知道一个类默认都有构造函数和析构函数,除此之外还有两个重要的函数,那就是拷贝构造函数和赋值函数。struct Test1{ Test1() // 无参构造函数 { cout << "Construct Test1" << endl ; } Test1(const T
2016-09-27 00:32:19
476
原创 Sql 中having 和where的区别 SQL hardest question What is the difference between the WHERE and HAVING claus
在一个含有group by where 和having的sql语句中,这三个语句执行的顺序:1、先执行where找到符合条件的数据2、执行group by子句将数据分组,group by子句中的select的返回字段中要么出现在group by后面的字段中,要么是聚合函数。3、执行having对分组过滤不符合条件的组,having 后面的字段只能从 group by 返回的字段中选择。
2016-09-22 16:57:37
1041
原创 打印N个数组整体最大的Top K
问题来源:左程云:《程序员代码面试指南》第八章打印N个数组整体最大的Top K:问题描述:N个数组用二维数组表示 vector> data将所有数按照从大到小的顺序进行排序,输出前K个数,但这样在面对海量数据时时间复杂度较高,利用堆的思想进行求解,步骤:1、建堆,将每个数组的最后一个数加入堆中,建立一个大小为N的大堆;2、此时堆顶元素为所有数据中的最大的数据,
2016-09-22 14:35:17
839
转载 K-Means Python实现
转载自http://nathanlvzs.github.io/blog/Clustering-KMeans.html实现代码基本参考K-Means聚类及其Python实现,中间加了一些对距离矩阵的理解,# -*- coding: utf-8 -*-"""Created on Mon Sep 19 22:23:34 2016@author: soso"""import nump
2016-09-20 01:52:19
2031
转载 Reservoir Sampling - 蓄水池抽样
转载自点击打开链接腾讯面试题:一个数据流中,如何采样得到100个数,保证采样得到的100个数是随机的?问题抽象:要求从N个元素中随机的抽取k个元素,其中N无法确定,而且每个数据只能被读一次。主要应用场景为数据流,数据量很大,无法保存,还要保证随机抽样。选一个数从数据流中选取一个数,要求每一个数被选中的概率相等这道题在编程珠玑上:How could you sel
2016-09-17 11:56:57
428
原创 解决hash碰撞问题
线性探测法:链表法:腾讯的一道笔试题已知一个线性表(38,25,74,63,52,48),采用的散列函数为H(Key)=Key%7,将元素散列到表长为7的哈希表中存储。若采用线性探测的开放定址法解决冲突,则在该散列表上进行等概率成功查找的平均查找长度为 ____ ;若利用拉链法解决冲突,则在该散列表上进行等概率成功查找的平均查找长度为 ____线性探测法:3
2016-09-09 16:32:18
2005
转载 FM学习笔记
隐因子分解机Factorization Machine Factorization Machines 学习笔记(四)学习算法 深入浅出ML之Factorization家族 深入FMM原理与实践 未完待续。。。。
2016-09-07 17:05:37
822
原创 特征工程
特征工程定义数据预处理特征选择降维 特征工程 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。特征工程的目的是最大限度地从原始数据中提取特征以供算法和模型使用。 数据预处理 初步提取的特征可能具有如下问题:1.不属于同一量纲:即特征的规格不一样,不能够放在一起比较。无量纲化可以解决这一问题。2.信息冗余:对于某些定量特征,其包含的有效信息为区间划
2016-09-07 16:52:29
1419
原创 网易2017内推-藏宝图
牛牛拿到了一个藏宝图,顺着藏宝图的指示,牛牛发现了一个藏宝盒,藏宝盒上有一个机关,机关每次会显示两个字符串 s 和 t,根据古老的传说,牛牛需要每次都回答 t 是否是 s 的子序列。注意,子序列不要求在原字符串中是连续的,例如串 abc,它的子序列就有 {空串, a, b, c, ab, ac, bc, abc} 8 种。 输入描述:每个输入包含一个测试用例。每个测试用例包含两行长
2016-09-07 14:02:38
497
原创 2017网易内推-星际穿越
航天飞行器是一项复杂而又精密的仪器,飞行器的损耗主要集中在发射和降落的过程,科学家根据实验数据估计,如果在发射过程中,产生了 x 程度的损耗,那么在降落的过程中就会产生 x2 程度的损耗,如果飞船的总损耗超过了它的耐久度,飞行器就会爆炸坠毁。问一艘耐久度为 h 的飞行器,假设在飞行过程中不产生损耗,那么为了保证其可以安全的到达目的地,只考虑整数解,至多发射过程中可以承受多少程度的损耗?
2016-09-07 13:48:28
372
原创 网易2017内推面试题-分苹果
n 只奶牛坐在一排,每个奶牛拥有 ai 个苹果,现在你要在它们之间转移苹果,使得最后所有奶牛拥有的苹果数都相同,每一次,你只能从一只奶牛身上拿走恰好两个苹果到另一个奶牛上,问最少需要移动多少次可以平分苹果,如果方案不存在输出 -1。 输入描述:每个输入包含一个测试用例。每个测试用例的第一行包含一个整数 n(1 i(1 输出描述:输出一行表示最少需要移动多少次可以
2016-09-07 12:26:23
963
原创 网易2017内推笔试题
有 n 个学生站成一排,每个学生有一个能力值,牛牛想从这 n 个学生中按照顺序选取 k 名学生,要求相邻两个学生的位置编号的差不超过 d,使得这 k 个学生的能力值的乘积最大,你能返回最大的乘积吗? 输入描述:每个输入包含 1 个测试用例。每个测试数据的第一行包含一个整数 n (1 i(-50 输出描述:输出一行表示最大的乘积。输入例子:37 4
2016-09-07 11:09:05
1531
原创 SparkSQL toDF() java.lang.NoSuchMethodError: scala.reflect.api.JavaUniverse.runtimeMirror(Ljava/la
val orderDF=sc.textFile(args(1)).map(_.split(" ")).map(x=>Order(x(0),x(1),x(2).toInt,x(3).toInt,x(4))).toDF()当使用Spark-submit时出现错误:java.lang.NoSuchMethodError 但在spark-shell可以使用toDF()函数原因:编译环境使用的是s
2016-04-25 18:53:20
3258
原创 Hadoop copy a directory
hadoop fs -copyFromLocal /path/on/disk /path/on/hdfs
2016-04-25 15:19:38
311
原创 Spark SQL
Spark SQL 用户自定义函数用户自定义函数,UDF,可以自己注册自定义函数,并在SQL语句中调用。Spark SQL不仅有自己的UDF接口,也支持已有的Apache Hive UDFSpark SQL UDFimport org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkContext, SparkConf}val c
2016-04-21 20:32:32
343
原创 Spark-submit 时出现java.lang.ClassNotFoundException
File=>Project Structure=>Modules 将该类所在的包设置为Sources
2016-04-21 19:16:06
6827
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人