- 博客(39)
- 资源 (1)
- 收藏
- 关注

原创 网易游戏2016校园招聘数据挖掘研究员在线笔试题和答案
刚做完网易在线笔试题,感触最深的地方是,虽然题目形式和ACM题目相似,但是内容更偏向于实际应用。总共有四个题目,第一个题目属于字符串匹配类型,难度较低,第二个题目是模拟SQL语句的输出,第三个题目是KNN算法,第四个题目是贝叶斯算法。题目偏基础,算法思想很容易想到,但如果平常从来没写过这类算法,再加上代码能力不是很强的话,写起来还是有点吃力的。下面是第一题,第三题,第四题的答案。题目1
2015-09-13 19:32:44
7102

原创 你可能不知道的一些机器学习事儿
你可能不知道的一些机器学习事儿 最近零零碎碎地看了很多机器学习方法的东西,增长了不少新知识。有很多小技巧虽然不会出现在教科书中,但它们真的很实用。(1)随机森林模型不适合用稀疏特征。(2)测试集必须使用与训练集相同的方法进行预处理。(3)L1正则(特征选择)最小样本数目m与特征n呈log关系,m = O(log n) ; L2正则(旋转不变)最小样本
2015-08-31 20:44:52
1133

原创 2015年机器学习/数据挖掘面试总结
2015年机器学习/数据挖掘面试总结 明年硕士毕业,今年开始找工作。在北方呆的太久,想回湿润的南方。 第一站(3月份),阿里数据挖掘实习生面试。个人觉得,阿里的面试是最人性化的,几乎不需要提前准备什么。不需要刷题,不需要死记硬背一些概念。他们看重的是你的项目经历和解决实际问题的能力。每一场面试都不难,但是面试的次数是我所知道的公司中最多的。面试的题目有:1)自我
2015-08-31 13:42:34
4485

原创 机器学习漫谈
机器学习漫谈 数据挖掘/机器学习项目一般包括四个关键部分,分别是,数据分析,特征工程,建立模型,验证。1 数据分析 从广义上讲,数据分析包括数据收集,数据处理,数据清洗,探究性数据分析,建模和算法设计,数据可视化等等[1]。从狭义上讲,数据分析指的是探究性数据分析(EDA)。 所谓探索性数据分析(ExploratoryD
2015-08-12 19:13:18
2945

翻译 Two big challenges in machine learning
红色是我翻译的部分,绿色是我加的注释。 Two big challenges in machine learning机器学习的两大挑战LÉON BOTTOUFACEBOOK AI RESEARCH ICML 2015 - LILLE
2015-07-25 14:15:39
1408

原创 我与算法的缘分
大一上学期,我对算法一点概念都没有,当时老师让我们用伪代码写算法,我基本上都是从网上找答案或者直接空着不写。给我印象最深的一个算法是计算两个分数相加,其中涉及求最大公约数,用的是辗转相除法。那时觉得这个算法很难懂,现在回首再看时,觉得这个算法还是很简单的。大一下学期,听到算法和数据结构对程序员是如何如何重要的传言,就抱着《零基础学算法》,啃哧啃哧啃了大半个学期也只啃完了前几章。那个学期我学会了二分
2015-07-01 16:07:35
2630
4

原创 大学那会儿,我读过的技术经典图书
我2009年考进大学的计算机系。上大学前我对电脑的使用仅限于上QQ,看小说,可以说是零基础。但通过三年的努力及对计算机专业的喜爱,我顺利保送到自己梦寐以求的学校攻读研究生。大学期间看了不少书,有些很好,我看了很多遍,每看一遍都有新收获,有些写得很乏味,还有明显错误,我翻了几面就将其丢在一边。 我按时间顺序罗列一些比较好的书,4年过去了,很多书看过就忘记了,现在能记着的也就是那些经
2013-08-31 23:59:29
8866
8
原创 C++程序设计陷阱读书笔记(一)
差不多有三年没系统地温习C++程序设计了,但面试官问起这方面的知识时,我有种恍然隔世的感觉。年龄越大越难静下心来读完一本专业书,越学心越浮躁。将所看所思记录下来能稍微提高一下学习效率。下面是我读了这本书之后,联系平常的日常工作所获得的一些感悟。1、注释很重要,注释不是越多越好,如果代码本身就具有很好的可读性,那就不用画蛇添足了。我曾经接手过两个软件。一个软件A几乎没有任何注释,很多人都动过里面
2015-09-26 22:21:13
1298
原创 研究生和本科有什么不同?
本科学了4年计算机,研究生又学了2年计算机,感觉两个阶段的生活学习还是挺不一样的。一、在同学间的交流方面,大学生比研究生交流更频繁,交友更广泛。 初中高中时,大家座位固定,每天面对的都是熟悉得不能再熟悉的面孔,“同桌的你”在各大初中高中上演着,已不足为奇。大学时,教室座位随便坐
2015-09-23 23:40:08
2588
原创 半监督学习漫谈
半监督学习漫谈 机器学习主要分三种形式,监督学习、非监督学习、半监督学习。最常见的是监督学习中的分类问题。监督学习的训练样本都含有“label”,非监督学习的训练样本中都不含“label”,半监督学习介于监督学习和非监督学习之间。在半监督学习领域,半监督分类问题是最受欢迎的,比如蛋白质搜索引擎中的后处理过程就常常采用半监督学习框架进行过滤。 在监督学习中,因为训练集
2015-08-31 23:04:53
1214
原创 Delete Node in a Linked List
Write a function to delete a node (except the tail) in a singly linked list, given only access to that node.Supposed the linked list is 1 -> 2 -> 3 -> 4 and you are given the third node with value
2015-07-16 14:42:46
830
原创 排列算法
之前一直没有正儿八经写过排列算法,顶多就是把经过一些化妆后的排列算法作为一个子算法混在大算法里面,今天看书时突然发现排列算法的影子无处不在,TSP问题就是从众多排列中选出最佳排列的问题。下面是利用递归思想的排列算法代码,其中的visited数组有一个俗称叫“禁忌表”,另外调用递归函数之后一定不要忘了恢复“原貌”喔!
2015-07-14 22:54:06
1561
原创 第8章 基于重新排序的排名方法 阅读
这一章的方法和前7章的方法大不一样,前7章都会先计算评分向量,再根据评分向量得到排名向量,而第8章直接计算排名向量。这章包含排名差距和评分差距两部分内容,两者的差别在于差距矩阵中的元素是用名次之差,还是分数之差。因为两种方法的原理极其相似,所以掌握其中的一种方法后就能轻松掌握另一种方法。 排名差距法可以抽象成求解最优化问题,通常是求解二次整数规划,这个问题非常有挑战性,计算量也比较
2015-07-14 21:40:28
645
原创 第7章 攻防评分法(HITS的孩子) 实例和程序
OD(攻防)评分法是HITS(超链接诱导主题搜索)算法的一个非线性情形下的类似算法。OD法顾名思义,就是有两个评分向量,一个评分向量能反映一支队伍的进攻能力,称为进攻向量,另一个评分向量能反映一支队伍的防守能力,称为防守向量。这两个向量相互依赖,与HITS评分算法中的枢纽评分和权威评分非常相似。 为了方便理解,举一个5只队伍比赛的简单例子。 设队伍数目
2015-07-11 20:32:04
1187
原创 《谁排第一?关于评价和排序的科学》中文版的纠错
最近,我读了一本好书——《谁排第一?关于评价和排序的科学》。这本书的作者是Amy N. Langville和Carl D.Meyer,译者是郭思羽。这本书的姊妹篇是《网页排名PR值及其他——搜索引擎排序的科学》。《谁排第一?关于评价和排序的科学》的内容挺好,但书中有一些很明显的错误,我不清楚是原书的bug,还是翻译时弄错了。我发现的错误如下:1、第12页,公式中矩阵大P和向量小p写混淆了。
2015-07-10 23:47:20
1657
1
原创 第6章 马尔可夫法(PageRank的孩子) 实例和程序
马尔可夫法的主要思想是:两支队伍之间的每次较量,都是弱队给强队投票的机会。举个例子如下: 设投票矩阵V中第 i 行,第 j 列的元素是vij,vij表示队伍 i 输给了队伍 j 。 对V中的各行进行归一化,得到矩阵N。 矩阵N中第二行全为0,这与悬挂结点问题类似。网页排名领域中,悬挂结点指的是
2015-07-10 20:16:00
1747
原创 Reverse Linked List
Reverse a singly linked list.单链表的逆序有两种方法,一种是递归的,另一种是非递归的(头插法)。递归解法如下,耗时11ms:/** * Definition for singly-linked list. * struct ListNode { * int val; * ListNode *next; * ListNode(
2015-07-08 16:11:01
2074
原创 Sort List
Sort a linked list in O(n log n) time using constant space complexity. 一看到这个题目,首先想到归并排序。归并排序需要将数据近似划成两等分,可以用快慢指针法,慢指针一次走一步,快指针一次走两步,快指针走到链表末尾时,慢指针刚好走到一半。本题的递归解法如下:/** * Definition for sing
2015-07-07 22:40:04
670
原创 第5章 埃洛体系(Facebook的前世)
ELO算法一般指Elo rating system,以创造者埃洛(ELO)命名。ELO算法比上一章的基纳法更出名,它是一种衡量各类对弈活动水平的评价方法,是当今对弈水平评估的公认的权威方法。ELO算法最开始是为了改善象棋评分系统而设计的,但它也适用于含多个玩家的游戏,足球比赛等等。在影片《社交网络》中,爱德华在窗户上写下埃洛法的公式,所以,有人猜测扎克伯格可能使用了埃洛法。 埃洛法
2015-07-07 15:49:09
1094
原创 第4章 基纳法 阅读(PageRank的兄弟)
基纳法的步骤如下:1、选择体现实力的属性。例如队伍 i 击败队伍 j 的次数,或队伍 i 从队伍 j 身上取得的分数。2、设 aij = 队伍 i 从队伍 j 身上取得的分数, 保证每个 aij 均为非负数。3、aij 的第一次替换。利用拉普拉斯的“承续法则”,重新定义aij , aij = ( aij+ 1 ) / ( aij + aji +2 )。4、aij 的第二次替换。
2015-07-06 23:03:30
1227
原创 EM算法 实例讲解
第一次接触EM算法,是在完成半隐马尔科夫算法大作业时。我先在网上下载了两份Baum-Welch算法的代码,通过复制粘贴,修修补补,用java实现了HMM算法(应用是韦小宝掷两种骰子的问题)。然后,参考有关半隐马尔科夫算法的论文,照着论文中的公式修改隐马尔科夫算法,完成了大作业。现在回想起来,就隐隐约约记得有一大堆公式。最近,我看到一篇很好的文章,对EM算法的计算有了进一步的了解,文章链接为http
2015-07-05 17:41:42
31161
1
原创 第3章 科利法 阅读
传统获胜率ri = wi / ti,即队伍 i 的获胜率等于该队赢得的比赛场数除以该队参与的比赛场数。 科利法在传统获胜率公式的基础上做了一个小小的改动,即ri = (1+wi) / (2+ti).这一修改的主要优点在于它考虑了赛程强度,即一支队伍的对手强弱。 科利法的思想源于拉普拉斯的“承续法则”。科利法最引人注目的一点是它只考
2015-07-02 23:07:33
959
原创 第2章 梅西法 阅读
梅西法可以用于任何对象集合的排名,但是一定要预先定义好成对比较数据。比如乒乓球赛,成对比较数据就是两个人PK的结果;网页排序,成对比较数据可以是两个网页的流量……梅西法的主要思路是构造一个最小二乘系统,解线性方程组,得到评分向量r。最简单的应用是直接按评分r进行排序,预测n只队伍的最终排名。高级一点的应用是预测未来单场比赛中两只队伍的比分。高级应用需要从总的评分向量r中创造两个新的向量,即
2015-06-30 23:36:16
1489
1
原创 第1章 排名概述 阅读
最近正在看一本书——《谁排第一?关于评价和排序的科学》,为了加深记忆,我将在博客上记录下书中的要点,并结合自己的理解去阐述解释书的内容。 第一章是综述篇,最让人印象深刻的是阿罗的不可能性定理。该定理指出,对于有着三个或更多候选人的情况,没有任何投票体系能同时满足以下4条常识性的准则。 1、无限制域准则。可以理解为众僧平等,无论你是贵族,还是平民,无论你是白菜,还
2015-06-30 15:30:38
855
原创 生活中的PageRank
昨晚睡觉的时候,突然想到以前和室友讨论的问题,你是喜欢只对你好的男生还是喜欢对所有人都好的男生,结果大家都偏向只对自己好的男生。我看过很多小说,男主都喜欢有很多男追且很少爱慕男生的那种女生。我觉得这和PageRank思想很像,喜欢你的人越多越优秀,你的身价就越高,被你喜欢的人就越有成就感。而你喜欢的人越多,被你喜欢的人就越没有成就感。
2015-06-09 11:04:29
672
原创 Valid Parentheses
很简单的一道题,以前习惯用C式C++编程,现在尝试用C++容器,感觉效率高了不少。Valid Parentheses Given a string containing just the characters '(', ')', '{', '}', '[' and ']', determine if the input string is valid.T
2015-04-19 22:59:16
709
原创 zju acmclub 1026:布尔矩阵
http://zju.acmclub.com/index.php?app=problem_title&id=1&problem_id=10261026:布尔矩阵分数: 2时间限制:1 秒内存限制:32 兆特殊判题: 否提交:40解决: 22题目描述一个布尔矩阵有一种奇偶性,即该矩阵所有行和所有列的和都是偶数。下面这
2013-08-13 12:03:02
2071
原创 POJ 2342 Anniversary party
http://poj.org/problem?id=2342Anniversary partyTime Limit: 1000MS Memory Limit: 65536KTotal Submissions: 3451 Accepted: 1923DescriptionThere is
2013-08-12 00:16:10
1181
原创 POJ 2309 BST
题目链接:http://poj.org/problem?id=2309难度级别: 2BSTTime Limit: 1000MS Memory Limit: 65536KTotal Submissions: 7685 Accepted: 4654DescriptionConsi
2013-08-07 12:08:27
1667
原创 POJ 1663 Number Steps
http://poj.org/problem?id=1663Number StepsTime Limit: 1000MS Memory Limit: 10000KTotal Submissions: 12812 Accepted: 6830DescriptionStarting from poi
2013-07-16 19:20:40
1413
原创 POJ 1844 Sum
http://poj.org/problem?id=1844SumTime Limit: 1000MS Memory Limit: 30000KTotal Submissions: 9716 Accepted: 6350DescriptionConsider the natural numb
2013-07-16 19:11:35
1153
原创 NCEPU第六次积分赛
D - DSubmit Status Practice ZOJ 1151DescriptionFor eachlist of words, output a line with each word reversed without changing the orderof the words.This problem contains multiple test cases
2013-07-12 22:40:41
1114
原创 POJ 3372 Candy Distribution
Candy DistributionTime Limit: 1000MS Memory Limit: 65536KTotal Submissions: 5261 Accepted: 2882DescriptionN children standing in circle who are numbered 1 through
2013-07-11 13:06:00
1323
原创 POJ 1958 Strange Towers of Hanoi
http://poj.org/problem?id=1958Strange Towers of HanoiTime Limit: 1000MS Memory Limit: 30000KTotal Submissions: 2295 Accepted: 1517DescriptionBackground
2013-07-10 00:07:55
1389
原创 POJ 2262 Goldbach's Conjecture哥德巴赫猜想
http://poj.org/problem?id=2262Goldbach's ConjectureTime Limit: 1000MS Memory Limit: 65536KTotal Submissions: 33301 Accepted: 12782DescriptionIn 1742, Chri
2013-07-08 22:31:35
2106
原创 A - Hunters题解
A - HuntersTime Limit:1000MS Memory Limit:32768KB 64bitIO Format:%I64d & %I64uDescriptionAlice and Bob are the topmost hunters in the forest, so no preys canescape from them. However, th
2013-07-07 12:03:20
1138
原创 E - A very hard mathematic problem题解
E - A very hard mathematic problemTime Limit:1000MS Memory Limit:32768KB 64bitIO Format:%I64d & %I64uDescription Haoren is very good at solving mathematic problems.Today he is working a
2013-07-07 11:53:51
1813
原创 POJ 4011 Automated Telephone Exchange 解析
http://poj.org/problem?id=4011Problem A. Automated Telephone ExchangeInput file: ate.inOutput file: ate.outTime limit: 3 secondsMemory limit: 256 megabytesIn St Petersburg phone numbers ar
2013-07-06 20:18:43
1426
原创 POJ 题目一览
1000 a + b 水题1003 求和 水题1004 求平均值 水题1005 求圆面积 水题1006 中国剩余定理(孙子定理)1007 逆序数+排序1017 贪心1018 打表+递推1067
2013-07-05 23:33:34
1329
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人