- 博客(120)
- 资源 (47)
- 收藏
- 关注
转载 机器学习的最佳入门学习资源
这是一篇很难写的文章,因为我希望这篇文章能对学习者有所启发。我在空白页前坐下,并且问自己了一个很难的问题:什么样的库、课程、论文和书籍对于机器学习的初学者来说是最好的。文章里到底写什么、不写什么,这个问题真的让我很烦恼。我必须把自己当做一个程序员和一个机器学习的初学者,站在这个角度去考虑最合适的资源。我找出了每个类型中最适合的资源。如果你是一个真正的初学者,并且乐意于开始了解机器学习领域的
2014-04-10 10:26:29
315
转载 如何选择数据挖掘工具
一、数据挖掘工具分类 数据挖掘工具根据其适用的范围分为两类:专用挖掘工具和通用挖掘工具。专用数据挖掘工具是针对某个特定领域的问题提供解决方案,在涉及算法的时候充分考虑了数据、需求的特殊性,并作了优化。对任何领域,都可以开发特定的数据挖掘工具。例如,IBM公司的AdvancedScout系统针对NBA的数据,帮助教练优化战术组合。特定领域的数据挖掘工具针对性比较强,只能用于一种应用;也
2014-04-10 10:24:29
394
转载 交叉验证(CrossValidation)方法思想简介
交叉验证(CrossValidation)方法思想简介以下简称交叉验证(Cross Validation)为CV.CV是用来验证分类器的性能一种统计分析方法,基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做 为训练集(train set),另一部分做为验证集(validation set),首先用训练集对分类器进行训练,在利用验证集来测试训练得到的模型(model),
2014-04-10 10:19:59
456
转载 Matlab神经网络数据的归一化
由于采集的各数据单位不一致,因而须对数据进行[-1,1]归一化处理,归一化方法主要有如下几种,供大家参考:1、线性函数转换,表达式如下:y=(x-MinValue)/(MaxValue-MinValue)说明:x、y分别为转换前、后的值,MaxValue、MinValue分别为样本的最大值和最小值。2、对数函数转换,表达式如下:y=log10(x)说明:以10为底的对数函数
2014-01-17 01:05:27
367
转载 使用matlab绘画柱状图,且使用不同的图案填充
在论文中,图表往往发挥着极为重要的作用,好的图表将能进一步提升论文的质量。在书写论文时,很多时候需要绘制柱状图,然而不同的柱状图如果采用颜色区分,当论文打印以后,视觉效果大打折扣,甚至无法区分。在遇到这个问题时,我通过网站论坛搜索,终于找到了在matlab中绘制柱状图,并采用不同的图案进行表示。主要利用下面的代码。代码出自:http://www.aos.wisc.edu/~dvimont/ma
2014-01-17 00:59:32
3075
转载 数据标准化/归一化方法(Normalization Method)汇总
归一化方法(Normalization Method)1。 把数变为(0,1)之间的小数主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速,应该归到数字信号处理范畴之内。2 。把有量纲表达式变为无量纲表达式归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。比如,复数阻抗可以归一化书写:Z = R + jωL = R
2014-01-15 00:38:37
5794
转载 代码重构技巧
作为一个软件开发人员,你是否遇到过这样的情况:在阅读其他人的代码时,感觉很混乱,且大量重复;或是自己写的代码过一周或二周后再去看时,会发现其中很多的不足。如果是的话,那么恭喜你,最起码你是个有思想的程序员,你的境界比之前提升了。这个时候你是放之任之,还是决定亲自操刀来重构它呢?如果你选择后者,再次恭喜你,你不仅有思想,你还是个想到且能付诸实践的程序员。如果你选择前者,很遗憾,你可能已经深深的麻木了
2012-09-19 16:03:05
350
转载 为什么我反对纯算法面试题
本文 转载自 酷壳 – CoolShell.cn算法面试可能是微软搞出来的面试方法,现在很多公司都在效仿,而且我们的程序员也乐于解算法题,我个人以为,这是应试教育的毒瘤!我在《再谈“我是怎么招程序员”》中比较保守地说过,“问难的算法题并没有错,错的很多面试官只是在肤浅甚至错误地理解着面试算法题的目的。”,今天,我想加强一下这个观点——我反对纯算法题面试!(注意,我说的是纯算法题)我
2012-09-19 16:00:06
437
转载 《数学之美》读书笔记和知识点总结(二)
接上一篇文章,我继续对《数学之美》进行总结。由于篇幅原因,很多具体的算法没有写,只给出了外链。如有需要请自行搜索 网页相似性的度量问题描述:求出任意两个网页之间的相似程度解决方法:TF-IDF方法(term Frequency-Inverse Document Frequency)步骤:提取出网页的关键词,然后根据网页的长度对关键词进行归一化。两个网
2012-09-19 15:47:34
634
转载 《数学之美》读书笔记和知识点总结(一)
早在前几个月我在台湾的时候,就听说《数学之美》是一本非常不错的书,也正好是我喜欢的类型,一直想买。回到北京之后的第一件事就是把我这半年积攒的书单全部兑现,其中包括《数学之美》和《浪潮之巅》。看了之后大叫过瘾,让我好好享受了一回数学之美。 文字和数字的起源很久以前人类以不同的叫声表示不同的信息,达到彼此交流的目的,当所要表达的信息太多时,叫声已经不够用了,于是文字产生了。
2012-09-19 15:46:49
417
转载 109个程序员常去的网站
109个程序员常去的网站1 csdn http://www.youkuaiyun.com/ 2 Vc知识库 http://www.vckbase.com/ 3 codeproject http://www.codeproject.com/ 4
2012-08-23 17:25:39
630
转载 strncpy函数与memcpy函数
函数名: strncpy 功 能: 串拷贝 用 法: char *strncpy(char *destin, char *source, int maxlen); memcpy 功 能: 从源source中拷贝n个字节到目标destin中 一个考字符串,一个拷贝内存内容strncpy
2012-08-23 10:54:56
307
转载 C++ string类(转载)
这个经常要用到的之所以抛弃char*的字符串而选用C++标准程序库中的string类,是因为他和前者比较起来,不必 担心内存是否足够、字符串长度等等,而且作为一个类出现,他集成的操作函数足以完成我们大多数情况下(甚至是100%)的需要。我们可以用 = 进行赋值操作,== 进行比较,+ 做串联(是不是很简单?)。我们尽可以把它看成是C++的基本数据类型。 好了,进入正
2012-08-23 10:32:13
522
转载 排序算法 稳定性
之前的一次笔试只,出了一道选择题,问排序算法的稳定性,虽然了解很多排序算法,但稳定性还真没有关注过。所以说,先找一篇文章慢慢来分析。结论: 选择排序、快速排序、希尔排序、堆排序不是稳定的排序算法,而冒泡排序、插入排序、归并排序和基数排序是稳定的排序算法排序算法的稳定性:若待排序的序列中,存在多个具有相同关键字的记录,经过排序, 这些记录的相对次序保持不变,则称该算法是稳定的;若
2012-08-23 10:26:57
266
转载 C++命名规范
在软件开发这一高度抽象而且十分复杂的活动中,命名规则的重要性更显得尤为突出。一套定义良好并且完整的、在整个项目中统一使用的命名规范将大大提升源代码的可读性和软件的可维护性。在引入细节之前,先说明一下命名规范的整体原则:同一性在编写一个子模块或派生类的时候,要遵循其基类或整体模块的命名风格,保持命名风格在整个模块中的同一性。标识
2012-08-23 10:23:18
214
转载 一个合格的程序员应该读的30本书
“如果能时光倒流,回到过去,作为一个开发人员,你可以告诉自己在职业生涯初期应该读一本, 你会选择哪本书呢?我希望这个书单列表内容丰富,可以涵盖很多东西。”1、《代码大全》 史蒂夫·迈克康奈尔推荐数:1684 “优秀的编程实践的百科全书,《代码大全》注重个人技术,其中所有东西加起来, 就是我们本能所说的“编写整洁的代码”。这本书有50页在谈论代
2012-08-17 16:52:09
413
转载 《算法导论》读书笔记6(中位数和顺序统计学)
这一章《中位数和顺序统计学》很短,也是本书第二部分的最后一章 写几段代码吧。 求数组最小值 Java代码 int minimum(int[] a) { int min = a[0]; for (int i = 1; i if (min > a[i]) {
2012-08-16 11:33:52
214
转载 coding中十大低级错误(java_c#)
1.前言本文根据java和C#开发人员在编码过程中容易忽视或者经常出错的地方进行了整理,总结了十大比较常见的低级错误点,与大家交流一下。2.十大低级错误1.不能用“==”比较两个字符串内容相等。2.对list做foreach循环时,循环代码中不能修改list的结构。3.数组下标越界4.将字符串转换为数字时没有捕获NumberFormatExc
2012-07-25 20:37:55
312
原创 约瑟夫问题
约瑟夫问题a)特殊情况:逢2杀1情况二进制代码左循环1位讨论N个人逢k杀1的通项公式J(1)=1J(n)=(J(n-1)+k)mod(n)逢2杀1,k=2,则有J(1)=1J(n)=(J(n-1)+2)mod(n)至于递推公式从何而来,可参看附录文章。除了数组,链表等常规方法外,在逢2杀1情况下,有一种优雅的简洁方法,即n的二进制代码左循环1位即为结果,这在kn
2012-07-25 20:31:46
234
转载 【IT十年经典书系列】近10年来计算机专业图书50强,你读过几本?
美国著名图书频道Book Pool集结最权威的62位作者评选出了最近10年计算机专业图书中的50强光这62位作者阵营就非常强大,我们熟悉的就有Francesco Balena(Microsoft.NET框架程序设计,Visual Basic.NET语言描述作者) Bert Bates(Head First Design Patterns作者) Joshua Bloch(Effective Java
2012-07-20 17:49:00
1777
原创 贪心算法 总结
贪心算法顾名思义,贪心算法总是作出在当前看来最好的选择。也就是说贪心算法并不从整体最优考虑,它所作出的选择只是在某种意义上的局部最优选择。当然,希望贪心算法得到的最终结果也是整体最优的。虽然贪心算法不能对所有问题都得到整体最优解,但对许多问题它能产生整体最优解。如单源最短路经问题,最小生成树问题等。在一些情况下,即使贪心算法不能得到整体最优解,其最终结果却是最优解的很好近似。个人觉
2012-07-20 13:57:51
623
转载 IP数据报的分片与重组 (linux内核)
前面有讲到过在函数ip_append_data中实现了对IP数据报的分片,这个讲法是错误的,需要纠正一下,ip_append_data的主要任务只是创建发送网络数据的套接字缓冲区(skb),它根据输出路由查询得到的输出网络设备接口的MTU,把超过MTU长度的应用数据分割开,并创建了多个skb,放入套接字的发送缓冲队列(sk_write_queue),但它并没有为任何一个skb数据加上网络层首部,并
2012-07-19 19:34:51
695
转载 伟大的程序员是怎样炼成的?
作者: Nicholas 来源: 外刊IT评论 发布时间: 2012-07-19 08:16 英文原文:What makes a great software engineer? 原文发布于 2009-8-21 近几周,一份反映 Netflix 公司企业文化的报告在网上广为流传。 这份报告里列举了很多Netflix公司里令人称赞的做法,包括这个公司是如何的招
2012-07-19 12:57:20
605
转载 整数的划分问题 (python)
整数的划分问题是一个很经典的问题,它的变形也非常的多,总结了一下,大概有以下几种变形:1) 将 N 划分为若干个正整数的和的划分数2) 将 N 划分为若干个不同的正整数的和的划分数3) 将 N 划分为不超过K 个正整数的和的划分数4) 将 N 划分为不超过K 个不同正整数的和的划分数5) 将 N 划分为最大数不超过K
2012-07-15 14:07:07
322
转载 Linux与Windows比较出的20个优势
Linux,这个号称“全地球人的操作系统”,以其免费、安全、稳定等优点获得人们的广泛好评!下面yarn就列出几点linux相对于Windows的优势。合法升级到最新版本却不需要花一分钱。(windows或者apple合法升级是需要掏钱的,windows与Linux比较差别大吧!)同一个硬件平台上最新的操作系统却比老的更快。(如果在一硬件平台上运行xp比较卡的话,那运行windows7是不可
2012-07-14 13:53:13
808
原创 动态规划4道题 (python和c++代码)
#encoding:utf-8#求fibo数列的非递归版本:动态规划,可用来练练手p=[]def fibo(n): i=0 p.append(1) p.append(1) for i in range(2,n+1): if i!=n: p.append(p[i-1]+p[i-2])
2012-07-14 11:38:26
562
转载 用Unix的设计思想来应对多变的需求
之前,@风枫峰 在“这是谁的错?”中说过开发团队对需求来者不拒,而@weidagang 也在“需求变更和IoC”中说过用IoC来最大程度地解决需求变更。今天我也想从Unix设计思想的角度来说说什么是好的软件设计,什么样的设计可以把需求变更对开发的影响降低。(注意:这并不能解决用户或是PM的无理需求,面对无理需求,需要仔细分析需求,而用技术的手段无法搞定这个事,但是可以减轻需求变更带来的痛苦)
2012-07-12 13:21:25
191
转载 rsync 的核心算法
rsync是unix/linux下同步文件的一个高效算法,它能同步更新两处计算机的文件与目录,并适当利用查找文件中的不同块以减少数据传输。rsync中一项与其他大部分类似程序或协定中所未见的重要特性是镜像是只对有变更的部分进行传送。rsync可拷贝/显示目录属性,以及拷贝文件,并可选择性的压缩以及递归拷贝。rsync利用由Andrew Tridgell发明的算法。这里不介绍其使用方法,只介绍其
2012-07-12 13:14:26
202
转载 ACM起步
来源:学长资料标 题: acm起步(一)建议多做点 Online Judge 的题目 (在线提交题目,立即知道对错),对于初学者,建议去看看http://ace.delos.com/usacogate Jeru 同学做了一个很不错的辅导网页 http://202.120.61.1/oibh/usacogate/(补注:此页面已失效)http://acm.timus.ru和
2012-07-12 13:07:42
603
转载 算法书目
来源:学长资料【1. CLRS 算法导论】算法百科全书,只做了前面十几章的习题,便感觉受益无穷。【2. Algorithms 算法概论】短小精悍,别据一格,准经典之作。一个坏消息: 同算法导论,该书没有习题答案。好消息:习题很经典,难度也适中,只需花点点时间自己也都能做出来。不好也不坏的消息:我正在写习题的答案,已完成前三章,还剩九章约二百道题,顺利的话二个月之后发
2012-07-12 13:01:42
477
原创 关于中断
关于中断近段时间在做与一个有网络的嵌入式操作系统的开发。这个系统用的是最单线程,网络部分是用的lwip。因为要对网络部分进行二次开发,于是对lwip调用mac和fifo这一部分进行了比较深入的了解。发现中断真的很有趣也很重要,如果拿人来比较中断就相于人的耳朵和眼睛了。它从外界收集信息然后通知大脑,让大脑去处理。关于中断,除了本身做为一个信号可以直接与CPU相连之外,我们都知
2012-07-11 16:02:34
517
1
原创 DES加密源代码(有调用的DEMO)
#include static __int64 g_arrayMask[64] ={ 0x0000000000000001, 0x0000000000000002, 0x0000000000000004, 0x0000000000000008, 0x0000000000000010, 0x0000000000000020, 0x0000000000000040,
2012-07-09 17:15:33
224
原创 搜索算法总结
搜索算法,是一种在状态空间中寻找特定的目标状态及到达目标状态的途径的系统方法。常见的题目如:搜索是计算机求解问题的最基本方法,适用面很广,没有向动态规划那样对状态有最优化原理和无后效性的约束。而针对具体问题,特别是运用了某种智能化的优化手段,也许会带来某些具体的约束。相关题目:POJ 3278POJ 11641088 记忆搜索POJ 23861101 The Game1
2012-07-09 17:02:43
226
转载 nat技术简介(转载)
NAT(Network Address Translation,网络地址转换)是将IP数据报文头中的IP地址转换为另一个IP地址的过程。在实际应用中,NAT主要用于实现私有网络访问公共网络的功能。这种通过使用少量的公网IP地址代表较多的私网IP地址的方式,将有助于减缓可用IP地址空间的枯竭。 私网IP地址是指内部网络或主机的IP地址,公网IP地址是指在因特网上全
2012-07-09 17:01:00
265
转载 网络的三种加密方法
网络的三种加密方法在常规密码中,收信方和发信方使用相同的密钥,即加密密钥和解密密钥是相同或等价的。比较著名的常规密码算法有:美国的DES及其各种变形,比如 Triple DES、GDES、New DES和DES的前身Lucifer;欧洲的IDEA;日本的FEAL N、LOKI 91、Skipjack、RC4、RC5以及以代换密码和转轮密码为代表的古典密码等。在众多的常规密码中影响最大的是D
2012-07-08 13:14:09
2176
转载 usbkey认证原理
大家对USBKey应该不陌生,USBKey是一种类似U盘的东西,里面存储着用户的私钥和数字证书等,实现用户和服务器之间的保密通信。 USBKey的构造 虽然USBKey看上去和U盘、MP3没什么差别,但是USBKey内部的结构是挺复杂的,它内置了CPU、存储器、芯片操作系统(COS)等。通过USBKey内置的密码算法实现对用户的验证。 市面上的USBKey
2012-07-08 13:13:31
1333
转载 USB的枚举过程
在完成D12的枚举程序之前,我在网上看见过很多说D12枚举的工作过程。而今天也把我个人理解写下来,大家共同学习。欢迎大家指正。联系方式:voyager2008@163.com QQ:24706670 1.当主机用轮询的方式检测到USB端口有新的设备插入时,主机就会给HUB发送总线复位命令,要求HUB进行总线复位。 设备连接到主机并初始化完
2012-07-08 13:12:02
315
转载 汉字编码问题
由于常常要和汉字处理打交道,因此,我常常受到汉字编码问题的困扰。在不断的打击与坚持中,也积累了一点汉字编码方面的经验,想和大家一起分享。一、汉字编码的种类 汉字编码中现在主要用到的有三类,包括GBK,GB2312和Big5。 1、GB2312又称国标码,由国家标准总局发布,1981年5月1日实施,通行于大陆。新加坡等地也使用此编码。它是一个简化字的编码规范,当然也包括其他的
2012-07-08 12:59:04
721
转载 MFC的CString(VC6) 内存管理分析
CString 类是我们经常用到的类,所以有必要对它的内存管理模式分析一下.CString 内存管理的演变过程如下:VC5 单纯的使用new delete方法。因为字符串操作需要频繁调整内存大小.而采用C++操作符 new 与 delete 是没有与realloc相应功能的。结果就是每一次的改变内存大小都需要额外 增加一次拷贝操作。 而 new 与delete 在实
2012-07-08 12:47:18
319
转载 写操作系统(用汇编在8086上写一个最简单的操作系统)
在使用各种功能强大的自由软件时,我总会对其开发者充满崇敬之情,期盼有朝一日自己也能成为他们中的一员。很多对自由社区充满向往之情的人,虽然也想努力融身于其中,但又不知该怎么做。那么,就请与我们一起从编写一个简单的操作系统开始吧! 我们要做的事情 有人可能担心自己既没有学过计算机原理,也没有学过操作系统原理,更不懂汇编语言,对C语言也一知半解,能写操作系统吗?答
2012-07-06 13:11:53
767
数据挖掘-实用机器学习技术
2014-01-17
数据挖掘导论
2014-01-17
北京大学acm国际大学生程序设计竞赛课件
2014-01-17
数据挖掘概念与技术(中文版).pdf
2014-02-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人