- 博客(76)
- 资源 (1)
- 收藏
- 关注
原创 重新回归优快云,重新与老朋友们见面
来到某世界五百强公司已经有3个月了,说实话忙,而且忙的不是非常踏实,每天被项目搞得头昏脑胀根本没时间去思考和总结,但是我告诉自己,不能丢的一定不能丢,在此为证,每周输出一篇博客(除非周六周天都加班),总结自己平日所得,并把机器学习的知识点重新梳理并结合现在的项目,用python把各个算法重新写一遍!!你们的DMer回来了!!
2016-07-24 12:37:08
843
转载 Deep Learning(深度学习)
Deep Learning(深度学习)ufldl的2个教程(这个没得说,入门绝对的好教程,Ng的,逻辑清晰有练习):一ufldl的2个教程(这个没得说,入门绝对的好教程,Ng的,逻辑清晰有练习):二Bengio团队的deep learning教程,用的theano库,主要是rbm系列,搞python的可以参考,很不错。deeplearning.net主页,里面包含的
2015-11-04 16:45:59
1495
原创 随机森林Random Forest
引言在机器学习中,随机森林由许多的决策树组成,因为这些决策树的形成采用了随机的方法,因此也叫做随机决策树。随机森林中的树之间是没有关联的。当测试数据进入随机森林时,其实就是让每一颗决策树进行分类,最后取所有决策树中分类结果最多的那类为最终的结果。因此随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。随机森林可以既可以处理属性为离散值的量,如ID3算法
2015-09-12 15:51:36
2718
转载 A Few Useful Things to Know About Machine Learning
【原题】A Few Useful Things to Know About Machine Learning【译题】机器学习的那些事【作者】Pedro Domingos【译者】刘知远【说明】译文载于《中国计算机学会通讯》 第 8 卷 第 11 期 2012 年 11 月 ,本文译自Communications of the ACM 2012年第10期的“A Few Useful T
2015-09-09 21:20:49
1857
转载 不均匀正负样本分布下的机器学习
不均匀正负样本分布下的机器学习@机器学习那些事儿 发起的讨论, 2014-11-15@好东西传送门 整理于 2014-12-0939 条精选讨论(选自165条原始评论和转发)机器学习那些事儿 2014-11-15 17:48工业界机器学习典型问题: 正负样本分布极不均匀(通常@老师木 @李沐M @星空下的巫师 @徐盈辉_仁基北冥乘海生 转发于 2014-
2015-08-28 09:10:04
6927
原创 数据库设计三大范式
为了建立冗余较小、结构合理的数据库,设计数据库时必须遵循一定的规则。在关系型数据库中这种规则就称为范式。范式是符合某一种设计要求的总结。要想设计一个结构合理的关系型数据库,必须满足一定的范式。
2015-07-14 15:14:56
889
转载 数据库的最简单实现
所有应用软件之中,数据库可能是最复杂的。 MySQL的手册有3000多页,PostgreSQL的手册有2000多页,Oracle的手册更是比它们相加还要厚。 但是,自己写一个最简单的数据库,做起来并不难。Reddit上面有一个帖子,只用了几百个字,就把原理讲清楚了。下面是我根据这个帖子整理的内容。
2015-07-13 10:29:43
503
转载 NoSQL数据库探讨 -- 非关系型数据库
随着互联网web2.0网站的兴起,非关系型的数据库现在成了一个极其热门的新领域, 非关系数据库产品的发展非常迅速。而传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不 从心,暴露了很多难以克服的问题,例如:1、High performance - 对数据库高并发读写的需求 web2.0网站要根据用户个性化信息来实时生成动态页面和提供动态信
2015-06-29 11:01:20
511
转载 Linux 之 我最常用的20条命令
玩过Linux 的人都会知道,Linux中的命令的确是非常多,但是玩过Linux的人也从来不会因为Linux的命令如此之多而烦恼,因为我们只需要掌握我们最常用的 命令就可以了。当然你也可以在使用时去找一下man,他会帮你解决不少的问题。然而每个人玩Linux的目的都不同,所以他们常用的命令也就差异非常大, 而我主要是用Linux进行C/C++和shell程序编写的,所以常用到的命令可以就会跟一个管理
2015-06-29 10:43:25
1926
转载 经典SQL语句大全
经典SQL语句大全 一、基础 1、说明:创建数据库 CREATE DATABASE database-name 2、说明:删除数据库 drop database dbname 3、说明:备份sql server — 创建 备份数据的 device USE master EXEC sp_addumpdevice ‘disk’, ‘testBack’, ‘c:\mssql7backu
2015-06-29 10:06:37
717
转载 TF-IDF及其算法
TF-IDF及其算法概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式
2015-05-21 11:07:09
472
转载 Eclipse配置PyDev插件
http://www.cnblogs.com/halfacre/archive/2012/07/22/2603848.html
2015-03-23 19:42:05
585
原创 encodeURI来解决URL传递时的中文问题
在AJAX浏览器来进行发送数据时,一般它所默认的都是UTF-8的编码.使用JQUERY中所提供的方法来做操作 encodeURI function verify() { //解决中文乱麻问题的方法1,页面端发出的数据作一次encodeURI, 服务器段使用进行转移成UTF-8; //解决中文乱麻问题的方法2,页面端发出的数据作两次encodeURI,
2015-03-21 16:07:27
1385
原创 python下Matplotlib for Python 2.7及其依赖(含安装包及说明)64、32位都有
资源推荐 http://download.youkuaiyun.com/detail/discoverer100/7843121
2015-03-20 15:50:31
1768
原创 windows下Python扩展问题error: Unable to find vcvarsall.bat
因为对于Windows下Python扩展不熟,今天遇到一个安装问题,特此做个tag,解决方案在stackoverflow上,网址如下:http://stackoverflow.com/questions/2817869/error-unable-to-find-vcvarsall-bat
2015-03-20 11:23:55
865
原创 Spark:一个高效的分布式计算系统
Spark:一个高效的分布式计算系统概述什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS
2015-03-17 22:49:50
702
原创 Java&&深入理解ClassLoader
今天开始复习JAVA的相关知识,又碰到了ClassLoader问题,所以拿来好好回顾一番。 基本功能 ClassLoader的主要作用是对类的请求提供服务,当JVM需要某类时,它根据名称向ClassLoader要求这个类,然后由ClassLoader返回这个类的class对象。几个相关概念 ClassLoader负责载入系统所有Resources(Class
2015-03-04 14:29:03
613
转载 EJB到底是什么,真的那么神秘吗??
1. 我们不禁要问,什么是"服务集群"?什么是"企业级开发"? 既然说了EJB 是为了"服务集群"和"企业级开发",那么,总得说说什么是所谓的"服务集群"和"企业级开发"吧!这个问题其实挺关键的,因为J2EE 中并没有说明白,也没有具体的指标或者事例告诉广大程序员什么时候用EJB 什么时候不用。于是大家都产生一些联想,认为EJB"分布式运算"指得是"负载均衡"提高系统的运行效率
2015-01-20 10:05:27
556
转载 如何在Eclipse下查看JDK源代码以及java源代码阅读方法
不会看JDK源代码,相当于没学过Java。网上不容易找到一篇帮助我解决了如何在Eclipse下查看JDK源代码 的文章。 核心提示:在Eclipse中查看JDK类库的源代码!!! 设置: 1.点 window- Preferences - Java - Installed JRES 2.此时Installed JRES右边是列表窗格,列出了系统中的 JRE 环境
2015-01-19 21:31:53
17365
原创 机器学习之&&Dual(带约束条件的最优化问题)
关于dual的相关知识,这套理论不仅适用于SVM的优化问题,而是对于所有带约束的优化问题都适用,是优化理论中的一个重要部分。(也许你觉得一个IT人优化问题不重要,其实你仔细想想,现实中的很多问题,都是在有条件约束的情况下的求最优的问题)
2014-12-12 17:39:37
17224
原创 机器学习之&&Andrew Ng课程复习--- 机器学习系统设计
Prioritizing what to Work on 接下来我们将谈到机器学习系统的设计,主要涉及你在设计复杂的机器学习系统时会遇到的问题,同时我们会给出一些如何构建一个复杂的机器学习系统的建议。接下来的讨论可能连贯性不够,但是它集中的表述了你在设计机器学习系统时可能会遇到的不同问题,虽然这些内容数学性不强,但是对于我们设计机器学习系统非常有用,从而节省大量时间。
2014-12-08 16:30:47
3346
1
原创 机器学习之&&Andrew Ng课程复习--- 怎样选择机器学习方法、系统
选择最佳拟合model的问题,是machine learning的常见问题,以上内容可以帮助我们更好的选择一个最佳的模型,更好的应用到机器学习的应用中。
2014-12-02 16:57:55
4145
原创 Java&&RTTI(运行时类型识别)
运行时类型识别(RTTI, Run-Time Type Identification)是Java中非常有用的机制,在Java运行时,RTTI维护类的相关信息。多态(polymorphism)是基于RTTI实现的。RTTI的功能主要是由Class类实现的。
2014-11-17 23:51:09
1267
数字手写数据库
2014-09-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人