- 博客(57)
- 收藏
- 关注
转载 数据挖掘基础:相关性检验
本文给出两种相关系数,系数越大说明越相关。你可能会参考另一篇博客独立性检验。皮尔森相关系数皮尔森相关系数(Pearson correlation coefficient)也叫皮尔森积差相关系数(Pearson product-moment correlation coefficient),是用来反应两个变量相似程度的统计量。或者说可以用来计算两个向量的相似度(在基于向量空间模型的文本分类、
2013-11-15 10:34:13
2155
转载 数据挖掘基础:独立性检验
本文给出基于两种统计量的假设检验,来检验变量间是否独立--χ2与秩和。χ2越小说明越独立。你可能会参考另一篇博客相关性检验。假设检验假设检验(Test of Hypothesis)又称为显著性检验(Test of Ststistical Significance)。在抽样研究中,由于样本所来自的总体其参数是未知的,只能根据样本统计量对其所来自总体的参数进行估计,如果要比较两个或几个总体
2013-11-15 10:06:57
1886
转载 机器学习中的相似性度量
机器学习中的相似性度量Posted on 2011-03-08 23:42 苍梧 阅读(13747) 评论(11) 编辑 收藏 在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是
2013-11-13 16:13:14
958
原创 数据挖掘基础:度量数据的相似性和相异性
数据矩阵(data matrix)或称对象-属性结构:这种数据结构用关系表的形式或n×p(n个对象×p个属性)矩阵存放n个数据对象: 相异性矩阵(dissimilarity matrix)或称对象-对象结构:存放n个对象两两之间的邻近度(proximity),通常用一个n×n矩阵表示:其中d(i,j)是对象i和对象j之间的相异性或“差别”的度量。一般而言,d(i,j)是一个
2013-11-13 16:12:53
18410
原创 数据挖掘基础:属性
属性标称意味“与名称相关”。标称属性(nominal attribute)的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看做是分类的(categorical)。这些值不必具有有意义的序。在计算机科学中,这些值也被看做是枚举的(enumeration)。因为标称属性值并不具有有意义的序,并且不是定量的,因此,给定一个对象集,找出这种属性的均值(平均值)或
2013-11-13 11:26:41
1582
原创 数据挖掘基础:描述性数据汇总
描述性数据汇总1 中心趋势度量 分布式度量 可分布式计算,如sum,count代数度量 可通过分布式计算运算得到,如avg=sum/count,中列数整体度量 不可分布式计算,必须整体计算,如中位数median,众数mode 众数:出现频率最高的数。 中列数:最大值和最小值的平均值。公式 适度倾斜的单频率曲线 :m
2013-11-12 15:11:02
2258
转载 mysqldump
mysqldump备份:mysqldump -u用户名 -p密码 -h主机 数据库 a -w "sql条件" --lock-all-tables > 路径案例:mysqldump -uroot -p1234 -hlocalhost db1 a -w "id in (select id from b)" --lock-all-tables > c:\aa.txtmysqldump还原
2013-03-20 13:47:19
684
转载 mysqladmin命令详解
mysqladmin命令详解 mysqladmin 工具的使用格式:mysqladmin [option] command [command option] command ......option 选项:-c number 自动运行次数统计,必须和 -i 一起使用-i number 间隔多长时间重复执行每个两秒查看一次服务器的状态,总共重复5次。
2013-03-20 13:43:14
770
转载 SQL Mode及相关问题
一、Mysql SQL Mode简介MySQL服务器能够工作在不同的SQL模式下,并能针对不同的客户端以不同的方式应用这些模式。这样,应用程序就能对服务器操作进行量身定制以满足自己的需求。这类模式定义了MySQL应支持的SQL语法,以及应该在数据上执行何种确认检查。这样,就能在众多不同的环境下、与其他数据库服务器一起更容易地使用MySQL。可以使用“--sql-mode="modes"”选项,
2013-01-29 10:21:24
633
转载 10步让你成为更优秀的程序员
这篇文章要介绍的,是我作为专业程序员这些年来学到的能真正提高我的代码质量和整体工作效率的 10 件事情。 1. 永远不要复制代码 不惜任何代价避免重复的代码。如果一个常用的代码片段出现在了程序中的几个不同地方,重构它,把它放到一个自己的函数里。重复的代码会导致你的同事在读你的代码时产生困惑。而重复的代码如果在一个地方修改,在另外一个地方忘记修改,就会产生到处是 bug,它还会使
2013-01-05 15:15:16
379
转载 ACID、Data Replication、CAP与BASE
原文地址 :http://www.cnblogs.com/hustcat/archive/2010/09/07/1820970.htmlACID在传数据库系统中,事务具有ACID 4个属性(Jim Gray在《事务处理:概念与技术》中对事务进行了详尽的讨论)。(1)原子性(Atomicity):事务是一个原子操作单元,其对数据的修改,要么全都执行,要么全都不执行。
2013-01-05 09:51:27
502
原创 JAVA判断字符串是否为数字
public static boolean isNumeric(String str){ if(str.matches("\\d*"){return true; }else{return false;}
2013-01-04 10:15:14
508
转载 MySQL LOAD DATA命令
如果你没有给出local,则服务器按如下方法对其进行定位:1)如果你的filename为绝对路径,则服务器从根目录开始查找该文件.2)如果你的filename为相对路径,则服务器从数据库的数据目录中开始查找该文件.如果你给出了local,则文件将按以下方式进行定位:1)如果你的filename为绝对路径,则客户机从根目录开始查找该文件.2)如果你的filename为相对路径,则
2012-12-27 14:07:24
459
转载 Alpha、Beta、RC、GA版本的区别
Alpha:是内部测试版,一般不向外部发布,会有很多Bug.一般只有测试人员使用。Beta:也是测试版,这个阶段的版本会一直加入新的功能。在Alpha版之后推出。RC:(Release Candidate) 顾名思义么 ! 用在软件上就是候选版本。系统平台上就是发行候选版本。RC版不会再加入新的功能了,主要着重于除错。GA:General Availability,正式发布
2012-12-26 10:31:32
444
原创 开发人员的升级
学习多种编程范式: 用汇编语言写一个程序 用函数式编程语言写一个应用 用面向对象语言写一个应用 用基于原型的语言写一个应用 用逻辑编程语言写一个应用 用 Actor 模型写一个应用 用 Forth 语言写一个应用[C] 体验不同平台上编程的来龙去脉:
2012-12-21 14:42:14
431
转载 20年的老程序员分享所积累的20条编程经验
从11岁时,我就一直在编程,并且一直都很喜欢技术和编程。这些年来,我积累了一些艰难又容易的经验。作为一名程序员,你或许还没这些经验,但我会把它们献给那些想从中学到更多的朋友。我会持续更新这些经验,我可能还会有更多的感想,但就我这20年来看,我想下面这个列表中基本不需要增添额外的东西了。下面就是我至今最难忘的经验。1. 估算解决问题所需要的时间。不要怕,承认吧!我曾见过一些程序员为了
2012-12-21 14:15:50
438
转载 为程序员量身定制的12个目标
对程序员们来说挑战自我非常重要,要么不断创新,要么技术停滞不前。新年伊始,我整理了 12 个月的目标,每个目标都是对技术或个人能力的挑战,而且可以年复一年循环使用。变得有耐心保持健康拥抱变化带来的不适应学习一门新的编程语言自动化学习更多数学知识关注安全备份你的数据学习更多理论知识接触艺术和人文向新的软件学习完成一个自己的项目 接下来我会对这些建议逐个介绍。 变得有耐
2012-12-21 14:10:48
388
原创 lein安装
linux下很简单直接在https://github.com/technomancy/leiningen 的bin目录下有个lein文件,直接chmod +x ;然后运行下就可以了,之后将lein添加到PATH。------------------------- win上,最简单的方式就是点这里下个编译好的leningen-XXXX版本.jar包 ;然后在点这里,在左上
2012-12-18 10:21:32
1493
转载 clojure 1.4.0安装
安装java 6。1、下载从 clojure官方网站下载最新的clojure http://www.clojure.org/ ,当前(2012年10月)稳定版本是 1.4 http://repo1.maven.org/maven2/org/clojure/clojure/1.4.0/clojure-1.4.0.zip2、解压解压到 C:\DEV_EVN\cloju
2012-12-18 10:20:14
410
转载 java的继承与上溯
Java代码 Java代码 class Parent { int i = 1; String j = "Parent J"; StringBuffer k = new StringBuffer("Parent:"); public String getJ() { return j; } public int
2012-12-14 14:12:37
394
转载 java连接postgreSQ
1介绍pgJDBC驱动可以使Java程序以标准的数据库无关的java代码连接pg。除了一些pg特定的是纯java实现,因此只需要下载jar包就可以开干了。扩展PostgreSQL的外,该驱动程序提供了相当完整的JDBC3规范的实施。目标是完全符兼容,但现在还没有兼容在todo list中列出可以从下面的网站上http://jdbc.postgresql.org/下载驱动包pos
2012-10-22 14:16:58
725
转载 Understand the serialVersionUID
If you ever implemented Serializable interface, you must encounter this warning messageThe serializable class xxx does not declare a static final serialVersionUID field of type longSo…
2012-10-17 14:39:05
442
转载 zookeeper使用
zookeeper介绍zookeeper是一个为分布式应用提供一致性服务的软件,它是开源的Hadoop项目中的一个子项目,并且根据google发表的论文来实现的,接下来我们首先来安装使用下这个软件,然后再来探索下其中比较重要一致性算法。zookeeper安装和使用zookeeper的安装基本上可以按照 http://hadoop.apache.org/zookeeper/docs/
2012-10-11 15:02:48
2098
转载 如何“打败”CAP定理
文 / Nathan Marz 译 / 方建 原文地址:http://www.programmer.com.cn/9260/CAP定理是数据系统设计的基本理论,目前几乎所有的数据系统的设计都遵循了这个定理。但CAP定理给目前的数据系统带来了许多复杂的、不可控的问题,使得数据系统的设计越来越复杂。Twitter首席工程师、Storm的作者Nathan Marz在本文中通过
2012-10-09 11:05:00
573
转载 Serializable和Externalizable
被Serializable接口声明的类的对象的内容都将被序列化,如果现在用户希望自己指定序列化的内容,则可以让一个类实现Externalizable接口,此接口定义如下:public interface Externalizable extends Serializable { public void writeExternal(ObjectOutput out)
2012-09-26 10:57:47
368
转载 Java自定义序列化反序列化问题
正常情况下,一个类实现java序列化很简单,只需要implements Serializable接口即可,之后该类在跨jvm的传输过程中会遵照默认java序列化规则序列化和反序列化;不同jvm版本之间序列化方式稍有不同,但基本上都是兼容的。在某些特殊情况下,可能需要自定义序列化和反序列化的行为,看下面例子:Java代码class Abst
2012-09-25 09:29:44
669
转载 Java的序列化算法
如何序列化一个对象一个对象能够序列化的前提是实现Serializable接口,Serializable接口没有方法,更像是个标记。有了这个标记的Class就能被序列化机制处理。import java.io.Serializable; class TestSerial implements Serializable { public byte version = 1
2012-09-24 15:35:12
815
转载 java序列化—Serializable 小结
类通过实现 java.io.Serializable 接口以启用其序列化功能。未实现此接口的类将无法使其任何状态序列化或反序列化。可序列化类的所有子类本身都是可序列化的。序列化接口没有方法或字段,仅用于标识可序列化的语义。Java的"对象序列化"能让你将一个实现了Serializable接口的对象转换成byte流,这样日后要用这个对象时候,你就能把这些byte数据恢复出来,并据此重新构建那
2012-09-24 11:19:08
376
转载 JAVA Serialization 基础介绍
对象的串行化(Serialization) 一、串行化的概念和目的 1.什么是串行化 对象的寿命通常随着生成该对象的程序的终止而终止。有时候,可能需要将对象的状态保存下来,在需要时再将对象恢复。我们把对象的这种能记录自己的状态以便将来再生的能力。叫作对象的持续性(persistence)。对象通过写出描述自己状态的数值来记录自己 ,这个过程叫对象的串
2012-09-24 11:04:50
684
转载 AMQP协议
当前各种应用大量使用异步消息模型,并随之产生众多消息中间件产品及协议,标准的不一致使应用与中间件之间的耦合限制产品的选择,并增加维护成本。AMQP是一个提供统一消息服务的应用层标准协议,基于此协议的客户端与消息中间件可传递消息,并不受客户端/中间件不同产品,不同开发语言等条件的限制。 当然这种降低耦合的机制是基于与上层产品,语言无关的协议。AMQP协议是一种二进制协议,提供
2012-09-21 16:10:04
468
翻译 Trident state
原文地址 https://github.com/nathanmarz/storm/wiki/Trident-state Trident是一个很好的关于读取或写入有状态资源的抽象。state可以是内部的topology(例如内存中和被HDFS支持的),或者是外部的存储在如memcache或cassandra的数据库中。这些情况在使用Trident API时,是没有区别的。Trident
2012-09-19 16:55:59
1242
转载 Why you don't want real-time analytics to be exact
In case you haven’t noticed yet, real-time is pretty big topic in big data right now. The Wikipedia article on big data goes as far as saying that"Real or near-real time information delivery is on
2012-09-19 13:44:56
782
转载 RPC应用的java实现
RPC应用的java实现一、RPC介绍 什么是RPC?Remote Procedure Call,远程过程调用。也就是说,调用过程代码并不是在调用者本地运行,而是要实现调用者与被调用者二地之间的连接与通信。比较严格的定义是:Remote procedure call (RPC) is aprotocol that allows a computer program run
2012-09-14 15:52:53
378
转载 Java集合概述
Java集合框架——概述集合概述集合(collection)——有时也被称作容器, 用来把具有相同性质的一类东西,汇聚成一个整体。Collections被广泛应用于存储,获取及操作数据。集合框架集合框架(Collections Framework)是对进行collections表示和操作的统一架构,Java 集合框架包括如下几个部分:接口: 表示集合的抽
2012-09-14 15:50:39
589
转载 static class 静态类
一般情况下是不可以用static修饰类的。如果一定要用static修饰类的话,通常static修饰的是匿名内部类。在一个类中创建另外一个类,叫做成员内部类。这个成员内部类可以静态的(利用static关键字修饰),也可以是非静态的。由于静态的内部类在定义、使用的时候会有种种的限制。所以在实际工作中用到的并不多。在开发过程中,内部类中使用的最多的还是非静态地成员内部类。不过在特定的情况
2012-09-11 15:09:45
1519
转载 Storm常见模式——流聚合
流聚合(stream join)是指将具有共同元组(tuple)字段的数据流(两个或者多个)聚合形成一个新的数据流的过程。从定义上看,流聚合和SQL中表的聚合(table join)很像,但是二者有明显的区别:table join的输入是有限的,并且join的语义是非常明确的;而流聚合的语义是不明确的并且输入流是无限的。数据流的聚合类型跟具体的应用有关。一些应用把两个流发出
2012-09-10 15:33:19
698
转载 Easy Steps to Create Storm Project ( Twitter Support) in Eclipse
1. Download STORM Release: (https://github.com/nathanmarz/STORM/downloads) 2. Download Twitter4j 2.2.5+ (http://twitter4j.org/en/index.html) 3. Create a New "Java Project" in Eclipse
2012-09-07 16:37:59
879
转载 storm分配topology关键代码
原文: http://blog.youkuaiyun.com/larrylgq/article/details/7268218numbusread-storm-config;读取storm配置launch-server!-->validate-distributed-mode!验证是否是集群模式check-storm-active!检查storm状态是否存活(swap! (:submi
2012-09-07 16:27:34
595
转载 海量数据下的分布式存储与计算
亲,转载请保留以下信息@from : http://blog.youkuaiyun.com/larrylgq/article/details/7851207@author :吕桂强@email; larry.lv.word@gmail.com存储从理论角度提到大数据存储nosql是不得不提的一个部分,CAP,BASE,ACID这些原理在过去的一
2012-09-07 16:26:16
881
转载 twitter storm 配置项6.0
原文地址 :http://blog.youkuaiyun.com/larrylgq/article/details/7230871配置项配置说明storm.zookeeper.serversZooKeeper服务器列表storm.zookeeper.portZooKeeper连接端口storm.local.dirstorm使用的本
2012-09-07 14:07:41
451
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人