砥砺前行∞-优快云博客

原创机器学习之——Precision与Recall

机器学习中，预测样本与真实样本之间的关系图：TP：实际样本为正例，预测结果为正例，FN：实际样本为正例，预测结果为负例FP：实际样本为负例，预测结果为正例TN：实际样本为负例，预测结果为负例Precision: 精准率查准率是否误报在预测为真的样例中，实际为真的概率Precision = TP /(TP + FP)Recall: 召回率检测是否漏报在实际为真的样例中...

2019-08-14 16:26:29 2404

原创相似度计算之(四)——jaccard相似系数

主要应用场景：比较文本的相似度，用于文本的查重与去重计算对象间的距离，用于数据聚类jaccard相似系数公式：jaccard距离公式：Jaccard系数取值范围[0,1]当A==B时，Jaccard系数为1当A与B不想交时，Jaccard系数为0Jaccard距离是Jaccard系数相关的指标，Jaccard距离表示样本或集合的不相似程度，Jaccard距离越大，样本相似度越...

2019-08-14 16:16:07 10175 1

原创相似度计算之(三)——TF-IDF

对于任意文章，采用分词器分词后，为了选取关键词，区分词的重要程度，可使用TF-IDF算法TF-IDF介绍：逆向文件频率（IDF）是一个词语普遍重要性的度量，IDF分母为dft+1，是为了预防分母为0的情况，即，没有文章中包含这个词的情况TF-IDF = 词条t在D中的频率 * lg 总的文章数/包含t的文章数其中，应删除词也在统计范围中，只是TF-IDF的值比较小词条频率：对词的归一化...

2019-08-14 16:10:50 752

原创相似度计算之(二)——余弦距离

将数据看成空间中的点时，评价远近可以用欧式距离或余弦距离一般可用于文本间的相似度计算，但也不是绝对的余弦距离计算步骤：以余弦距离计算文本相似度为例，具体说明其计算过程：余弦相似度算法：一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小，余弦值接近1，夹角趋于0，表明两个向量越相似，余弦值接近于0，夹角趋于90度，表明两个向量越不相似。基本思路是：如果这两句话的用词越...

2019-08-14 16:01:07 38535 10

原创相似度计算之(一)——欧式距离与曼哈顿距离

数据间相似度：每一条数据都可以理解为多维空间中的一个点，可根据点与点之间的距离来评估数据间的相似性二维、三维空间中，欧式距离公式：闵可夫斯基距离：曼哈顿距离可以看成两点之间的折线距离欧式距离可以看成两点之间的直线距离数据间的相似程度主要是依据数据间的距离，距离越大，越不相似...

2019-08-14 15:52:15 4159

原创 mysql之DML操作(一)

本文从插入，更改，删除这三个方面来说明具体的操作（1）insert：插入数据顺序插入数据insert into 表名 values(值1,值2,值3);指定字段插入数据insert into 表名(字段1,字段2,字段3) values(值1,值2,值3);插入多条记录insert into 表名 values(值1,值2,值3),(值1,值2,值3);插入查询结果inse...

2019-05-10 13:15:11 609

原创 MapReduce整体流程简述

输入：以滑动窗口的形式对hdfs中的block切片，split，切片的大小默认==block大小，实际情况还需要根据计算形式：cpu密集型还是I/O频繁型来决定，切片的大小，split切片可大于，也可小于block大小mapTask:每一个split中的每一条记录，记录可以用任何标识符分割，每一条记录调用一次map方法，map方法的输出是[K,V]，经过计算，得到的输出是[K,V,P]...

2019-05-09 13:29:17 1236

原创 DDL,DML,DQL,DCL概念

SQL语言共分为四大类：数据查询语言DQL，数据操纵语言DML，数据定义语言DDL，数据控制语言DCL。数据查询语言DQL 数据查询语言DQL基本结构是由SELECT子句，FROM子句，WHERE 子句组成的查询块： SELECT <字段名表> FROM <表或视图名> WHERE <查询条件>2 .数据操纵语言DML 数据操纵语言DML主要有三种形式： ...

2019-05-08 12:56:26 6513 1

Java为数据结构中的映射定义了一个接口java.util.Map， HashMap和HashTable是其实现类；Map是用来存储键值对的数据结构，在数组中是通过数组下标来对数组中的元素进行索引的，而在Map中，是通过对象来进行索引的，用来索引的对象叫做key, 其对应的对象叫做value。hashMap是最常用的一个Map，它是通过key的hashCode值存储数据的，根据key可以直接获取...

2019-05-07 12:23:15 234

原创设计模式之——迭代器模式

迭代器是一个对象，提供了一种可以遍历聚合对象(存储数据的数据集或容器)的一种方式，开发人员在利用迭代器获取数据元素的过程中，不必了解容器的底层实现，同时，也不会暴露对象的内部细节方法。1、关于容器的使用主要有3个方面：（1）使用容器的iterator()方法返回的是一个迭代器Iterator，通过Iterator的next()方法返回下一个元素（2）使用Iterator的hasNext(...

2019-05-05 12:42:10 203

原创单机处理1T文件的计算方案

题目要求：1T大小的文件，按行存储，文件所有行中，只有两行是重复的，选出重复的行；提高的设备为一台计算机，内存可以选择128M，64M或256G输入：1T文件输出：重复的行第一种方案：思路：分堆，缩小范围查找加载一部分到内存中，按行读取，每一行取对应的hashcode，根据 (行hashcode)%2000 的值，，存放在对应的位置(0-1999)，重复的行肯定在同一个值中，遍历这20...

2019-04-29 20:40:50 1201

原创归并排序算法详解

归并排序利用的是递归和分治技术实现的，将待排序列划分成越来越小的子序列，即，递归划分成长度为1的子序列，并进行归并，得到n/2(上取整)个长度为2或者1的子序列，然后再将这些子序列两两归并，直到得到一个完整的子序列为止。对于待排序列[49,38,65,97,76,13,27]，先划分再合并待排序列：[49 38 65 97 76 13 27]长度为1子序列：[49] [38] [6...

2019-04-27 01:22:05 1903

原创 Linux之——单引号’’和双引号””的区别

（1）单引号’’，也称为强引用，对于被引起来的内容，原封不动地使用，即便里面包含特殊字符，也不做处理[root@node01 ~]# sxt=100[root@node01 ~]# echo '$sxt'$sxt[root@node01 ~]# echo $sxt100（2）双引号””，也称为弱引用，对于被引起来的内容，若包含特殊字符，则需要对特殊字符做一些处理，一般主要是如下情...

2019-04-26 00:16:31 596

原创工厂设计模式之——简单工厂设计模式

工厂设计模式分为三类：简单工厂设计模式，工厂方法设计模式，抽象工厂设计模式工厂设计模式的核心本质：实例化对象，用工厂方法代替new操作；将选择的实例化类和创建者进行统一地管理，实现调用者和实现类的解耦操作也就是说实现分工合作，依赖从具体到抽象，不依赖于具体实现，便于扩展今天先介绍简单工厂设计模式简单工厂设计模式是比较常用的工厂设计模式要求：消费者需要得到两类车：奥迪和比亚迪，用代码实...

2019-04-26 00:13:24 266

原创脚本实现遍历某一个文件，并打印文件行数

脚本使用流程控制语句：以b.txt文件为例，如下为文件内容：hello sxtnana 12hello worldhello sxtapple 1hello sxtorange 8具体实现与分析#!/bin/bash#for循环实现#IFS介绍:#内部字段分隔符 Internal Field Separator 用来在扩展之后进行分词，使用内部命令 read 将行划分成词...

2019-04-25 11:52:17 641

原创克隆linux步骤及后续配置

（1）对安装好的linux系统，在关机状态下，快照保存，点击红框中的图标，创建快照，确定名称并进行保存。（2）在克隆时，点击红框中图标，管理快照，“克隆”，选克隆自“现有快照”，选取对应的快照，“下一步”（3）选取“创建链接克隆(L)”,“下一步”（4）输入虚拟机的名称，并确定存放的位置，最好选取与basic同一目录下，“完成”（5）同样，需要配置IP，在https://mp.csdn...

2019-04-25 00:02:21 1542 1

原创 vmware安装linux流程步骤

在以下的安装步骤中，因为步骤比较多，显示的是需要进行更改或重要的步骤，对于不需要更改的默认设置，不再截图，直接“下一步”或“next”即可。（1）下载VMware安装包，10及以上的版本即可，打开可执行文件，根据安装向导，点击“下一步”（2）选择“自定义(高级)©”类型的配置（3）“下一步”，选择“稍后安装操作系统(s)”，创建的虚拟机将包含一个空白硬盘（4）“下一步”，“虚拟机的名称...

2019-04-24 22:53:19 451

原创线性表链式表示详解

线性表的链式表示(链表数据结构)：相对于线性表的顺序存储，线性表的链式存储结构，逻辑上相邻的元素在物理位置上不相邻，便于进行插入和删除操作，但同时也失去了顺序表可以随机存取的优点。线性表的链式表示分为三种：单链表，循环链表和双向链表（1）单链表元素的存储单元可以是连续的，也可以不是连续的每一个结点有两部分组成：数据域和指针域数据域：存储该数据元素的信息指针域：存储直接后继元素位置的...

2019-04-24 15:46:55 465

原创快速排序算法原理详解

快速排序算法是冒泡排序算法的一种改进，采用“分而治之”的思想，把大的拆分成小的，再把小的拆分成更小的。如：对于一组待排的记录，通过一趟排序后，将原序列分成两部分，其中前一部分的所有记录均比后一部分的所有记录小，然后再依次对前后两部分的记录进行快速排序，递归该过程，直到序列中的所有记录均有序为止。具体而言，其算法步骤如下：（1）分解。将输入的序列a[m…n]划分成两个非空子序列a[m…k]和a...

2019-04-24 15:44:23 3798 2

转载 spring boot——从源码的角度理解Spring MVC异常处理原理

1. 概述上一篇文章Spring Boot系列十 Spring MVC全局异常处理总结介绍了如何在Spring MVC中实现对异常的处理,本文从源码角度理解Spring MVC异常处理原理，主要包括如下内容：HandlerExceptionResolver以及常用实现类，理解默认实现HandlerExceptionResolver的用处和源码解...

2019-04-22 23:03:59 248

educationer的博客