- 博客(11)
- 收藏
- 关注
原创 方差分析、T检验、卡方分析如何区分
方差分析、T检验、卡方分析如何区分? 差异研究的目的在于比较两组数据或多组数据之间的差异,通常包括以下几类分析方法,分别是方差分析、T检验和卡方检验1、三个方法的区别(1)其核心的区别在于:数据的类型不一样。如果是定类和定类,此时应该使用卡方分析;如果是定类和定量,此时应该使用方差或者T检验。(2)方差和T检验的区别在于,对于T检验的X来讲,其只能为2个类别,比如男和女,如果X为3个类别,比如本科以下、本科、本科以上
2021-03-17 09:58:19
17358
原创 R语言数据预处理方案
R语言数据挖掘与实战一、数据探索通过检验数据集的数据质量、绘制图表、计算某些特质量等手段,对样本数据集的结构和规律进行分析的过程就是数据探索。1.1 数据质量分析数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据,在常见的数据挖掘工作中,脏数据包括:缺失值异常值不一致的值重复数据及含有特殊符号(如#,¥、*)的数据。1.1.1 缺失值分析从统计上来说,缺失的数据可能会产生有偏估计,从而使得样本数据不能很好的代表总体,而现实中
2021-03-17 09:47:50
4120
原创 MapReduce前N个热度统计(TopN)
在Reduce阶段进行排序的时候,对每个相同的Key进行分组,然后缓存在TreeMap中,他可以自动按照对象的比较器进行排序, 最终输出前N个热门访问页面.1. 自定义序列化数据类型,并设定比较器package com.gerry.bigdata.mapreduce.top3;public class PageCount implements Comparable<PageCo...
2019-06-25 05:33:32
1825
原创 MapReduce(全局排序)
主要分类两次MapReduce, 最后一次MapReduce 的ReduceTask需要设置为1个1. 自定义序列化数据类型package com.gerry.bigdata.mapreduce.pagecountsort;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;...
2019-06-25 05:26:22
487
原创 MapReduce的自定义分区(按照省份)
1. 自定义分区逻辑(例如按照省份)package com.gerry.bigdata.mapreduce.flowpartion;import java.util.HashMap;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Partitioner;import com.gerry.bi...
2019-06-25 05:21:15
561
原创 朴素贝叶斯算法原理和实现
朴素贝叶斯算法简单高效,在处理分类问题上,应该是首先要考虑的方法之一1. 准备知识贝叶斯分类是一类算法的总称,这类算法均以贝叶斯定理为基础,故称贝叶斯分类这个定理解决了生活里经常遇到的问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(X|Y)的情况下如何求得P(Y|X)。这里先解释什么是条件概率。P(X∣Y)=P(XY)P(Y)P(X|Y)=\frac{P(XY)}{P(...
2019-06-13 16:38:19
1962
原创 中文自然语言处理NLP
1. NLP流程和开元框架近年来,随着互联网的发展,计算机处理自然语言的需求变得越来越迫切,除了比较悠久的机器翻译外,自然语言处理在信息检索、信息抽取、数据挖掘、舆情分析、文本摘要、自动问答系统等方面都获得了很广泛的应用。 有关自然语言,特别是语义方面的诸多问题仍未得到解决。目前,完全句法分析、浅层句法分析、信息抽取、词义消歧、潜在语义分析、文本蕴含和指代消解。这些技术都不能完美或者完全的翻...
2019-06-12 20:02:37
2900
1
原创 jieba分词器的使用指南
jieba中文处理1. 基本分词函数和用法jieba.cut和jieba.cut_for_search返回的结构都是一个可迭代的generator,可以使用for循环来获得分词后的每一个词语(unicode)(1)jieba.cut方法接受三个输入参数**需要分析的字符串cut_all参数用来控制是否采用全模式HMM参数用来控制是否使用HMM模型(2) jieba.cut_for...
2019-06-11 15:43:03
952
原创 Docker的基本命令总结
一、基本概念Docker组成:DockerClient和Docker ServerDocker 组件:镜像(Image),容器(Container),仓库(Repository)Docker 与OpenStack对比: 类别 Docker OpenStack 部署难度 非常简单 ...
2019-06-01 17:01:35
196
原创 从Java内存模型角度分析volatile关键字
一、volatile基本定义 Volatile是一个很老的关键字,几乎随着JDK的诞生而诞生,但是并发专家往往建议我们远离它。比如Thread这个很基础的类,其中很重要的线程状态字段,就是用volatile来修饰。 /* Java thread status for tools, * initialized to indicate thread 'not y...
2019-06-01 16:28:03
220
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人