- 博客(71)
- 资源 (2)
- 收藏
- 关注
原创 Java笔记:byte[]转String再转byte[]后数据变化问题
问题场景数据的属性比如time原本是long类型,存入hbase表时将long转成byte[],个别场景下读取就遇到一些变化。long转成byte[]入库,又被当作String读取(客观原因必须步骤),转回byte[],再转long类型,数据发生变化。图中可见,在转成String的前后byte[]已经不同了。byte[]和String的转换问题查资料得知,转换String类型有编码要求。构造一个long转成的byte[]来进行String转换测试。Bytes.toString( byte[] )
2020-07-31 18:10:37
3806
1
原创 git push时rejected,解决non-fast-forward errors的办法
问题:在git push时无法推送到远端仓库,出现下面的信息$ git push origin masterTo https://github.com/USERNAME/REPOSITORY.git! [rejected] master -> master (non-fast-forward)error: failed to push some refs to ‘h...
2019-08-19 22:14:18
19868
原创 Java笔记:在IDEA平台下使用JUnit插件进行单元测试
使用JUnit插件的场景Java是完全面向对象语言,所有功能都在类中实现,新人测试代码时,一般都会对每个类写一个main函数来调用其功能,JUnit正是取代这种繁琐操作的实用工具。它能够不依赖main直接对代码测试。测试平台:IntelliJ IDEA 2017.2JUnit安装与配置下载插件:File -> Settings -> Plugins,搜索JUnit下载实际上...
2019-08-14 20:19:32
7202
原创 Keras 在fit_generator训练方式中加入图像random_crop
使用Keras作前端写网络时,由于训练图像尺寸较大,需要做类似 tf.random_crop 图像裁剪操作。为此研究了一番Keras下已封装的API。Data Augmentation(数据扩充)Data Aumentation 指使用下面或其他方法增加输入数据量。我们默认图像数据。旋转&反射变换(Rotation/reflection): 随机旋转图像一定角度; 改变图像内容...
2018-11-23 19:58:46
5467
3
原创 远端服务器上Tensorboard的使用问题
场景本机是windows系统,tensorflow程序运行在远端服务器,通常使用Xshell登陆服务器操作。问题按照tf教程,训练网络的summary存在设定的log_dir中,检查tensorboard安装完好,找tf安装目录:pip3 show tensorflow-gputensorboard文件夹在tf同级目录,其下有可执行的main.py(若未安装可以pip3 instal...
2018-09-27 19:05:55
35382
5
原创 Python包的相对导入问题
python脚本的package相对导入时,常见两种写法:from . import XXXfrom .. import XXX但有时会出现这样的错误:SystemError: Parent module '' not loaded, cannot perform relative importValueError: attempted relative import beyond to...
2018-09-19 22:08:18
3116
原创 【LeetCode】Wiggle Sort II
Given an unsorted array nums, reorder it such that nums[0] < nums[1] > nums[2] < nums[3]….Example 1: Input: nums = [1, 5, 1, 1, 6, 4] Output: One possible answer is [1, 4, 1, 5, 1, 6]. E...
2018-07-26 20:32:29
506
原创 【LeetCode】记录几个动态规划(DP)题目
[LeetCode] Coin Change 硬币找零 You are given coins of different denominations and a total amount of money amount. Write a function to compute the fewest number of coins that you need to make up that amo...
2018-07-24 20:15:34
1349
原创 【大话数据结构】图和最小生成树
图的定义和一些概念图(Graph)是由顶点V的有穷非空集合和顶点之间的边E的集合组成。通常表示为 G(V,E)。顶点(Vertex):图的基本数据元素。边(Edge):无向边 (A,D)。弧(Arc):有向边 <A,D>,A是弧尾,D是弧头。线性表 元素 可以为空表 树 结点 可以为空树 图 顶点 ...
2018-07-21 15:33:33
415
原创 windows下的pip升级问题
背景在windows的命令行下使用pip或pip3安装python的各种库是种很便利的方法,但有时下载包时出现这种问题 socket.timeout: The read operation timed out pip._vendor.requests.packages.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host...
2018-07-21 12:48:01
7975
1
原创 pip安装源更改与用户权限问题
使用python的一大库安装利器就是pip,但默认情况下,经常安装得非常慢然后一段时间就timeout了,因为pip安装源pypi.python.org是国外镜像,更换为国内镜像就好了。pip国内镜像 阿里云 http://mirrors.aliyun.com/pypi/simple/ 中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/ 豆...
2018-06-08 21:24:23
7039
原创 python下tiff图像的读取和保存方法
对比测试 scipy.misc 和 PIL.Image 和 libtiff.TIFF 三个库图像部分: 1. 读入uint8、uint16、float32的lena.tif 2. 使用numpy产生随机矩阵,float64的matimport numpy as npfrom scipy import miscfrom PIL import Imagefrom libt...
2018-05-09 17:45:58
49964
6
原创 python命令行解析argparse模块
主要是比较两个函数:parse_args()和parse_known_args() ① parse_args()import argparseimport sysparse = argparse.ArgumentParser()parse.add_argument(&amp;quot;--learning_rate&amp;quot;, type=float, default=0.01, help=&amp;quot;initial l...
2018-05-08 16:43:37
745
原创 Tensorflow运行出错之Check failed: e->src_output()问题
系统:centOS 7 环境:CUDA8.0 + cudnn5 + TensorFlow 1.0问题报错是这样的: F tensorflow/core/common_runtime/executor.cc:484] Check failed: e->src_output() < 32768 (56124 vs. 32768) 先说结果,经过一番原因查找,得...
2018-04-25 15:57:04
2104
1
原创 python下含中文字符串正则表达式的编码问题
前言Python文件默认的编码格式是ascii ,无法识别汉字,因为ascii码中没有中文。所以py文件中要写中文字符时,一般在开头加 # -*- coding: utf-8 -*- 或者 #coding=utf-8。这是指定一种编码格式,意味着用该编码存储中文字符(也可以是gbk、gb2312等)。关于测试的几点注意 ---------------------------------------...
2018-04-17 19:27:50
16022
原创 Tensorflow运行环境的cuda+cudnn版本问题
问题CentOS Linux release 7.3.1611服务器上以前装过tensorflow1.0,cuda8.0,cudnn v5.1,原本是能正常运行tf程序,一段时间没用,出了点小问题,故查资料解决一下I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcub...
2018-03-24 13:03:46
10205
原创 python相关的几种数据类型的存储读取方式
归纳一下python中不同数据保存格式的存储和读取,旨在方法整理和速度比较。从数据角度分两种,一是ndarray格式的纯数值数据的读写,二是对象(数据结构)如dict的文件存取。数值数据的读写.bin格式,np.tofile() 和 np.fromfile()import numpy as npa = np.random.randint(0, 100, size=(1...
2018-03-04 18:58:49
13187
1
原创 matlab的RandStream和伪随机数的重复生成
matlab的随机数生成函数rand 生成均匀分布的伪随机数,分布在0~1之间 randn 生成标准正态分布的伪随机数,均值为0,方差为1rand(m,n)生成m行n列的均匀分布的伪随机数rand(RandStream,m,n)利用指定的RandStream(可认为是随机种子)控制伪随机数randi 生成均匀分布的伪随机整数randi([iMin,iMax],m,n)在(...
2018-03-03 15:43:56
5021
原创 secureCRT使用sz/rz命令在Linux和Windows间传输文件失败问题
sz,rz是Linux/Unix和Windows进行ZModem文件传输的命令行工具。【windows端】需要支持ZModem协议的telnet/ssh客户端(xshell支持)。网上下一个,我用的是SecureCRT,平常用它登陆到Unix/Linux开发机。【linux端】在Linux端安装rz/sz工具(嵌入式开发中多数已将编译好的rz/sz工具放到rootfs中了,普通的Linux系统如果...
2018-03-03 14:41:39
9483
原创 基本的分词算法调研
NLP领域基本技术之一,分词(word segmentation)功能是将一句话用最合理的方式划分成词集合,符合语言特点和语义连贯。基于字典词库匹配的分词方法(机械分词法)应用词典匹配、汉语词法或其它汉语语言知识进行分词,如:最大匹配法、最小分词方法等。这类方法简单高效,但汉语语言复杂丰富,词典完备性、规则一致性等问题使其难以适应大规模文本的分词处理。MM
2018-02-07 15:43:17
988
原创 点互信息(PMI)预测utterance关键词
PMI(Pointwise Mutual Information)机器学习相关文献中,可以看到使用PMI衡量两个变量之间的相关性,比如两个词,两个句子。原理公式为:在概率论中,如果x和y无关,p(x,y)=p(x)p(y);如果x和y越相关,p(x,y)和p(x)p(y)的比就越大。从后两个条件概率可能更好解释,在y出现的条件下x出现的概率除以单看x出现的概率,这个值越大表示x和y
2018-01-16 21:16:00
18510
6
原创 机器学习中的precision, recall, accuracy, F值
假设用机器学习方法解决某个二元分类问题,在分析比较不同模型时常看到这些指标。四个概念:TP,FP,TN,FNTP(True Positive):在判定为positive的样本中,判断正确的数目。FP(False Positive):在判定为positive的样本中,判断错误的数目。TN(True Negative):在判定为negative的样本中,判断正确的数目。FN(Fal
2018-01-16 19:48:45
46051
13
原创 python中str字符串和unicode对象字符串的拼接问题
str字符串s = '中文' # s: s是个str对象,中文字符串。存储方式是字节码。字节码是怎么存的:如果这行代码在python解释器中输入&运行,那么s的格式就是解释器的编码格式;如果这行代码是在源码文件中写入、保存然后执行,那么解释器载入代码时就将s初始化为文件指定编码(比如py文件开头那行的utf-8);unicode对象字符串unicode是一种编码
2018-01-13 18:02:03
6433
原创 python中txt文件的编码转换问题utf-8转gbk
之前一直使用python内置的读写文件函数open,参数中不含encoding一项。它实际上是,读入文件是什么编码,写出文件就是什么编码。如今遇到一个问题,需要把一个utf8编码txt的部分内容另存,为了postprocess还要存成gbk编码。解决一:codecs模块的读写函数codecs.open# -*- coding: gbk -*-#!usr/bin/env pyt
2018-01-12 17:53:30
16442
原创 语言模型评价指标Perplexity
语言模型(Language Model,LM),给出一句话的前k个词,希望它可以预测第k+1个词是什么,即给出一个第k+1个词可能出现的概率的分布p(xk+1|x1,x2,...,xk)。在报告里听到用PPL衡量语言模型收敛情况,于是从公式角度来理解一下该指标的意义。
2017-12-24 13:33:02
67869
7
原创 树回归:CART算法构建回归树和模型树(代码笔记)
分类回归树(Classification And Regression Trees,CART)是一种构造树的监督学习方法。笔记实现了回归树和模型树。
2017-11-09 10:54:47
3783
原创 标准回归:预测数值型数据
回归和分类的不同,在于它的目标变量是连续数值型。它也是一种监督学习方法。笔记中实现的有基本线性回归,局部加权线性回归,岭回归。
2017-11-09 10:52:22
755
原创 利用AdaBoost元算法的分类器(代码笔记)
将不用的分类器组合起来的方法称为集成方法(ensemble method)或元算法(meta-algorithm),AdaBoost就是一种集成方法。笔记实现了基于单层决策树的AdaBoost分类器。
2017-11-09 10:51:58
816
原创 使用Logistic回归进行分类(代码笔记)
基于Sigmoid函数和Logistic的分类,使用梯度上升找到最优回归系数,相当于找到决策边界。再用数据特征和Logistic回归就能算出分类。
2017-11-09 10:51:29
2235
原创 kNN算法识别手写数字(代码笔记)
k邻近算法,有监督的分类算法。思想:利用输入数据特征值和训练样本数据特征值之间的距离分类,挑出距离最小的k个训练样本的类别频率,作为预测的分类估计。python代码实现。
2017-11-09 10:50:32
720
原创 OpenCV的霍夫变换(Hough Transform)圆检测
Hough变换检测圆。霍夫变换也可以用于检测其他几何形体,事实上,可以用参数方程表示的几何体都可以尝试用霍夫变换进行检测。比如圆形。
2017-10-20 20:17:30
3482
原创 OpenCV的霍夫变换(Hough Transform)直线检测
霍夫变换(Hough Transform)的主要思想:一条直线在平面直角坐标系(x-y)中可以用y=ax+b式表示,对于直线上一个确定的点(x0,y0),总符合y0-ax0=b,而它可以表示为参数平面坐标系(a-b)中的一条直线。因此,图像中的一个点对应参数平面的一条直线,同样,图像中的一条直线对应参数平面上的一个点。笔记包括两个测试,基本Hough变换和概率Hough变换的直线检测。
2017-10-20 20:16:30
7665
原创 卷积神经网络做图像风格迁移的项目代码笔记
算法来源 CVPR 2016 的文章 “Image Style Transfer Using Convolutional Neural Networks”。主要是利用一个已经在ImageNet 上训练好的卷积神经网络 VGG-19。有代码参考和理解笔记。
2017-10-18 20:55:37
6026
16
原创 深度学习中的梯度下降优化算法笔记
梯度下降方法是目前最流行的神经网络优化方法,并且现在主流的深度学习框架(tensorflow,caffe,keras,MXNET等)都包含了若干种梯度下降迭代优化器。我们在搭建网络的时候,基本都是拿它们封装好的函数直接用。实际上这些算法在不同情况可能有很大的性能差异,弄清楚它们的原理差异,有助于我们分析。参考文章:梯度下降优化方法总结 梯度下降(gradient descent,GD)...
2017-09-20 20:44:01
1878
原创 机器学习中的标准化/归一化
数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。在一些数据比较和评价中常用到。典型的有归一化方法。归一化方法的主要有两种形式:一种是把数变为(0,1)之间的小数,一种是把有量纲表达式变为无量纲表达式。笔记的目的是弄清概念,和python的实现。
2017-09-20 20:20:35
12320
原创 python存储16bit和32bit图像
笔记:python中存储16bit和32bit图像的方法。说明:主要是利用scipy库和pillow库,比较其中的不同。
2017-09-13 14:24:48
10154
原创 screen命令 | tee命令
Screen是一个可以在多个进程之间多路复用一个物理终端的窗口管理器。Screen中有会话的概念,用户可以在一个screen会话中创建多个screen窗口,在每一个screen窗口中就像操作一个真实的telnet/SSH连接窗口那样。
2017-09-11 21:27:48
1574
原创 【LeetCode】Anagrams(笔记)
DescriptionGiven an array of strings, return all groups of strings that are anagrams.ExampleGiven ["lint", "intl", "inlt", "code"], return ["lint", "inlt", "intl"].Given ["a
2017-09-07 18:27:13
371
原创 【LintCode】Sort List(笔记)
DescriptionSort a linked list in O(n log n) time using constant space complexity.ExampleGiven 1->3->2->null, sort it to 1->2->3->null.Notes主要思想就是如何对链表作归并排序。1.归并排序的思想2.寻...
2017-09-01 17:52:47
309
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人