Subson-优快云博客

翻译用于神经网络的图像数据预处理（Image Data Pre-Processing for Neural Networks）【翻译】

用于神经网络的图像数据预处理原文：Image Data Pre-Processing for Neural Networks作者Nikhil B 发表于2017-9-10深度学习在过去的几年里已经真正成为主流。深度学习使用具有很多隐藏层（当今最先进的神经网络包含几十个隐藏层）并且需要大量训练数据的神经网络。这些模型在视觉、语音、语言处理等感知任务中，对于获得洞察力和接近人类水平的准确性特别...

2019-05-06 15:26:02 7206 2

原创关于树的常见编程题

获取二叉树中和最大的路径【leetcode124】二叉树每一个节点都有一个数，求和最大的路径。注意：这是所有路径，包括一个叶子节点到另一个叶子节点的路径。def recursion(root, m): if root is None: return 0 left = recursion(root.left, m) right = recursion...

2019-03-06 18:00:04 1016

原创有环单链表，求环长、链长；求两链表的交点

正是一个关于单链表的经典例题。即，给定一个有环的单链表，求环长、链长等。或者，给定一个单链表，判断是否有环？可以遍历这个链表，将每一个节点存入一个有顺序的集合，同时判断当前节点是否在这个集合中出现，从而判断该链表是否有环以及求环长与链长。当时空间复杂度与时间复杂度都过大了。另一个经典方法就是快慢指针，即两个指针同时从链表头开始走，快指针一次走2步，慢指针一次走1步。于是假设这个有环链表的j...

2019-03-05 16:38:46 815

对于一个数组，求解位置iii之前的kkk个（包括当前位置）数中的最大数。最直接的方法就是针对当前位置往前搜索比较k-1个数，得到最大的那个数。该方法的时间复杂度为O(N∗K)O(N*K)O(N∗K)。能否在O(N)O(N)O(N)的时间复杂度中求解呢？当然是可以的，我们只需要记住历史K中的最大与第二大的数以及这两个数的生命周期，然后通过不停地前移，我们不停更新这个两个数就可。【这便是思路了】...

2019-03-04 17:33:10 551

原创求数组与下标所能够构成最大面积

leetcode84 柱状图中最大的矩形给定 n 个非负整数，用来表示柱状图中各个柱子的高度。每个柱子彼此相邻，且宽度为 1。求在该柱状图中，能够勾勒出来的矩形的最大面积。思路：初始化一个栈stack，遍历数组arr。当当前值大于等于栈顶元素则将当前元素入栈；当当前值小于栈顶元素时，当前位置为当前矩形的右边界，栈顶元素出栈即为当前矩形的高度，新的栈顶元素的位置的下一个位置为当前矩形的左边界，计...

2019-03-04 14:25:37 1246

原创找出数组中只出现一次的数（位运算的使用）

位运算的使用题一：leetcode137 只出现一次的数字 II给定一个非空整数数组，除了某个元素只出现一次以外，其余每个元素均出现了三次。找出那个只出现了一次的元素。采用统计出现次数的思想，重点是：当其出现三次应当当做其没有出现过。两比特位即可标识三种状态，即两比特位即可标识数组中某元素出现0、1、2次三种状态。我们可以采用两个变量代表这两个比特位。这样做有一个好处：可以存储那个只出现一...

2019-02-28 14:53:18 968

原创生成数字矩阵表示的迷宫

目标是生成数字矩阵表示的迷宫，数字1表示不可通行的墙体，数字0表示可通行的道路，如下图：111111111111111111010000000001000110101111111010101100010100010101011111101010101010110000010100010101101111101111111011000000010000000110111111101...

2019-01-11 17:28:59 2706

原创 Lattice LSTM

Lattice LSTMLattice LSTM来自于2018年发表在ACL的文章《Chinese NER Using Lattice LSTM》。这里只介绍 Lattice LSTM，论文其它内容不作介绍。Lattice LSTM能够将字符级别序列信息和该序列对应的词信息同时编码供模型自动取用。相较于字粒度（字符级）的编码，Lattice LSTM加入了词信息，丰富了语义表达；相较于词粒度的...

2018-12-17 20:30:24 5941 5

原创 Python Tips

Python Tips1、float转int，取整除比强转更快测试代码：import timeiter_num = 10000000t1 = time.time()for a in range(iter_num): 2.3//1t2 = time.time()for b in range(iter_num): int(2.3)t3 = time.time(...

2018-08-09 17:39:51 411

原创摘录：数据质量管理【仅作了解】

摘录：数据质量管理【仅作了解】一、概述1.1 数据存在的问题信息问题：缺乏统一的数据描述导致业务理解差异；信息标准不统一产生低质量的数据，导致业务人员对数据缺乏信心。管理问题：对数据质量的价值及其重要性认识不足；缺乏专门的数据质量管理组织与相关的管理制度。流程问题：需求变更、开发测试等方面没有流程规范和制度；数据创建、数据使用、数据维护等方面没有流程规范和制度。技术问题：系

2018-01-30 10:51:53 966

原创摘录：数据治理【仅作了解】

摘录：数据治理【仅作了解】基本概念什么是数据治理?答：又叫”数据管控”。引用《DAMA 数据管理知识体系指南》一书给出的定义：数据治理是对数据资产管理行使权力和控制的活动集合（规划、监控和执行）。数据治理职能指导其他数据管理职能如何执行。数据元：通过名称、格式、长度、定义值域等一系列属性描述的数据单元。代码集：数据元的取值范围。数据元类目：按照标准规范对数据元进行分类。

2018-01-30 10:49:43 822

原创基于B-gram句子概率计算实现

基于B-gram句子概率计算实现概述该“句子出现概率计算”基于B-gram算法，若不了解请自行百度。如果急于使用，请下载笔者已经训练好的模型文件（model.txt，置于项目根目录）；如果想自行训练，可以使用语料库（千万级巨型汉语词库）；下面是下载地址：项目链接：ProbabilityOfSentence语料链接：https://pan.baidu.com/s/1c3WWo

2018-01-29 11:04:22 2218

原创关于GSDMM的数学思考

关于GSDMM的数学思考GSDMM是一种基于狄利克雷多项式混合模型的收缩型吉布斯采样算法（a collapsed Gibbs Sampling algorithm for the Dirichlet Multinomial Mixture model）的简称，它是发表在2014年KDD（数据挖掘及知识发现会议，ACM SIGKDD，数据挖掘顶级会议[1]）上的论文《A Dirichlet Multi

2017-10-11 17:24:46 5384

原创 Markdown里面使用mermaid画流程图（基础）

Markdown里面使用mermaid画流程图（基础）之前有介绍如何在Markdown里面使用flowchart.js插件支持画流程图。Markdown编辑器Typora同样支持使用mermaid插件来进行画图。Graph关键字graph表示一个流程图的开始，同时需要指定该图的方向。例如 graph LR A –> B表示如下一个从左到右的图。流程图的定义仅由graph开始，但是方向

2017-09-21 17:28:17 68781 4

原创 Markdown里面的序列图

Markdown里面的序列图在众多的markdown编辑器中,作者使用Typora, 它具有实时渲染可见与编辑的特点, 并且还支持自定义渲染效果(只需要更改CSS文件即可). 该软件的流程图由 js-sequence支持, 序列图的代码段包裹在markdown格式的代码块中, 只需要更改相应的标记即可. 例如: ```sequencetitle: 序列图sequence(示例)

2017-09-19 17:55:19 9755 1

原创一个单线程爬取英文维基百科正文与链接关系的Python爬虫

一个单线程爬取英文维基百科正文与链接关系的Python爬虫正文如题。代码参数详见代码（点击下载），运行结果为两个TXT文件，分别记录正文以及网页关系，文件保存格式详见同代码目录文本文件（文本为爬取深度为1的结果）。

2017-09-18 11:56:33 1120

原创 Markdown里面的流程图

Markdown里面的流程图在众多的markdown编辑器中,作者使用Typora, 它具有实时渲染可见与编辑的特点, 并且还支持自定义渲染效果(只需要更改CSS文件即可). 该软件的流程图由flowchart.js支持, 流程图的代码段包裹在markdown格式的代码块中, 只需要更改相应的标记即可.

2017-07-14 17:50:53 16664

原创大数据融合技术：问题与挑战

大数据融合技术：问题与挑战本文为《大数据融合研究：问题与挑战》的总结。概述数据的特点：多元性——数据类型多样；数据内容“维度”多样；数据所涉及的知识范畴的“粒度”多样演化性——指数据随时间或解释的变化而变化的特性真实性——由实体的同名异义、异名同义表示以及关系的变化引起普适性——指在认知范围内达成共识的特性，例如“老师”和“蜡烛”具有该特性数据湖：数据集成的对象，即数据与知识的复合体。传统

2017-06-19 18:30:12 16238 1

原创在Java中使用Lambda表达式统计词频

在Java中使用Lambda表达式统计词频常规方法在集合（List）上调用stream()生成该集合元素的流视图，然后采用将一个返回流的函数传入flatMap()，这样会产生每个单词，最后将这些词进行统计存入Map中，这里会使用counting函数

2017-05-31 12:00:27 2318

原创 Double和Float中的NaN、Infinite等常量字段详解

Double和Float中的NaN、Infinite等常量字段详解在采用Java进行数值运算，特别是double和float时，经常会遇到需要判断某个数是否为一个数（NaN）、是否为无（Infinite）。一个数都已经是double或者float数据类型的了，为什么还说它不是一个数（Not a Number）呢？这就要从数学上来说了。对于除法，一个数与另一个数的运算存在以下几种情况：

2017-05-08 13:15:16 18764

原创将txt文本格式存储的词id表示的数据集存为matlab中的sparse格式

将txt文本格式存储的词id表示的数据集存为matlab中的sparse格式在对文本数据进行聚类的时候，经常会处理超高维的稀疏矩阵。例如进行K-means聚类的时候，特别是短文本聚类，输入往往是M×N的超稀疏矩阵（M表示文档数量，N表示词典大小）。如果将所有数据（包括0）导入，将非常浪费内存资源。所以，在采用matlab使用超稀疏矩阵时，最好将该矩阵存为sparse格式。

2017-05-06 17:53:48 849