自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 资源 (13)
  • 收藏
  • 关注

原创 pyspark生成csv格式文件

>>> rdd.toDF().write.csv("path") 或:>>> rdd.map(lambda (k, v): "{0},{1}".format(k, v)).saveAsTextFile("path")

2020-05-27 13:54:07 2958

原创 tensorflow读取数据部分

以往在传统模型训练,在处理比较小的数据的时候,我们的都是一次性加载进内存,然后再分batch灌给模型,但是数据量特别大的时候,这种方法就不太现实了,tensorflow针对大数据量输入模型部分,提供了几种方法:1、To process lines from files, usetf.data.TextLineDataset:dataset = tf.data.TextLineDataset(["file1.txt", "file2.txt"])2、To process records ..

2020-05-19 15:18:43 379

转载 Hive用array_contains判断列表是否包含某个元素

select task_id, task_code, task_version, case when array_contains(collect_set(tag_id), 599) or array_contains(collect_set(tag_id), 1225) then 'L1-级别' when array_contains(collect_set(tag_id), 600) .

2020-05-14 17:03:12 8566

原创 tensorflow 评估指标中F1,AUC的计算

AUC计算的函数:tf.metrics.auc( labels, predictions, weights=None, num_thresholds=200, metrics_collections=None, updates_collections=None, curve='ROC', name=None, summation_method='trapezoidal')函数返回值: auc: A scalarTen.

2020-05-10 23:25:05 6074

原创 用python3的_pickle读取python2 cPickle保存的数据时出现UnicodeDecodeError: 'ascii' codec can't decode byte 0x8b

用python3的_pickle读取python2 cPickle保存的数据时出现这个问题,只需要指定编码encoding='iso-8859-1’,OKimport picklewith open("my.pkl",'rb') as f: pkl_data = pickle.load(f, encoding='iso-8859-1')...

2020-04-30 15:41:51 217

转载 【转】NLP 的巨人肩膀(中)

3. 梯子的一级半除了在word级别的embedding方法上有大量模型和算法的涌现,同样地,在char级别、句子级别和段落级别同样有大量模型提出。word2vec开源随后的第一年,也就是在2014年,还是Mikolov,在他和另一位作者合作的一篇论文《Distributed Representations of Sentences and Documents》中,提出了可以借鉴word2...

2020-04-08 10:50:00 417

转载 【转】NLP的巨人肩膀(上)

我们都知道,牛顿说过一句名言If I have seen further, it is by standing on the shoulders of giants.无可否认,牛顿取得了无与匹敌的成就,人类历史上最伟大的科学家之一,但同样无可否认的是,牛顿确实吸收了大量前人的研究成果,诸如哥白尼、伽利略和开普勒等人,正因如此,联合国为了纪念伽利略首次将望远镜用作天文观测四百周年,200...

2020-04-08 10:47:10 406

转载 【转】NLP 的巨人肩膀(下)

摘要: 分类器足够简单,足够浅层,相比那些在这些分类任务上设计的足够复杂的模型来说简直不值一提。然而令人大跌眼镜的是,这些简单的分类器都能够比肩甚至超越他们各自时代的最好结果,这不能不说是个惊喜。而创造这些惊 ... tm网络模型框架自然语言处理 我们都知道,牛顿说过一句名言"If I have seen further, it is by standing on the...

2020-04-08 10:21:23 410

原创 bert连续输出loss

这里写自定义目录标题bert 连续输出loss解决方法:bert 连续输出loss解决方法: train_op = optimization.create_optimizer( total_loss, learning_rate, num_train_steps, num_warmup_steps, use_tpu) logging_hook = tf.train.......

2020-04-01 17:37:56 1887 3

转载 bert 分布式优化

如何实现多GPU并发:goole提供的BERT源码使用TPUEstimator实现的,TPUEstimator支持多TPU并发但不支持多GPU并发。为了能支持多GPU并发充分利用GPU资源提高效率,对BERT做一下修改:1、使用optimization_multigpu.py替换optimization.py,执行一下命令 cp optimization.py optim...

2020-03-31 14:20:52 1004 1

原创 NLP相关论文记录

1、ALBERT:https://openreview.net/pdf?id=H1eA7AEtvS 第一个技术是对嵌入参数化进行因式分解(factorized embedding parameterization)。通过将大的词汇表嵌入矩阵分解为两个小的矩阵,将隐藏层的大小与词汇表嵌入的大小分离开来。这种分离使得在不显著增加词汇表嵌入的参数大小的情况下,更容易增加隐藏大小。 ...

2020-03-21 19:21:49 219

原创 NLP基准测试总结

先把GLUE榜单地址挂上 :https://gluebenchmark.com/leaderboard/1、SQuAD(Stanford Question Answering Dataset)SQuAD是什么?SQuAD 是斯坦福大学于2016年推出的数据集,一个阅读理解数据集,给定一篇文章,准备相应问题,需要算法给出问题的答案。此数据集所有文章选自维基百科,数据集的量为当今其他数据集...

2020-03-21 19:05:00 979

原创 基于bert的文本表征向量embedding模型由ckpt转成pb

# -*- coding: utf-8 -*-"""Created on Sun Apr 28 10:20:04 2019@author: wumingshi"""#import contextlibimport jsonimport osfrom enum import Enumfrom termcolor import coloredimport sysimport...

2020-02-29 23:10:11 936

原创 关于【python】【UDF】【HIVE】读取外部资源文件和第三方库的问题解决方案

因为项目需要使用到pythonudf工hql调用python脚本中用到了第三方库解决方案:1.将需要的环境进行打包 tar virtualenv2.hive->add archivepython脚本中调用了本地的资源文件解决方案:1.hive->add file2.调用路径改为 './test.txt'...

2020-02-20 17:55:27 1308

原创 TensorFlow saved_model 模块

https://blog.youkuaiyun.com/thriving_fcl/article/details/75213361

2020-02-18 15:21:06 163

原创 Bert源码解读

目前看到bert解读最好的是:https://blog.youkuaiyun.com/jiaowoshouzi/article/details/89388794

2020-02-14 14:53:05 167

原创 bert推理速度太慢的解决方案[用于生成表征向量]

思路借鉴:https://blog.youkuaiyun.com/hezhefly/article/details/98877796,再次表示感谢本文的用途是基于bert的表征向量的生成基于上面的文章的分类预测思路,修改成了基于bert 的表征向量生成,其中表征向量以最后一层CLS的向量表示,也可以取最后一层的所有token的平均,或者取倒数第二层的所有tokens的平均(倒数第二层不那么接近任务,但...

2020-02-12 19:58:08 3051 1

原创 印地语的编码范围

印度语/印地语utf-8编码是 0900-097F:天城文书 (Devanagari)另外附上比较全的:https://blog.youkuaiyun.com/yanghongchang_/article/details/25025799

2019-07-27 11:38:25 2069

原创 关于fastText工具python版本在windows环境下准确率及召回率都是NaN的问题

如果使用python版本训练,则需要linux运行环境。python版本的库在windows下执行,计算的准确率及召回率都是NaN。

2019-03-22 10:48:59 1406

原创 维特比算法最浅显易懂的讲解

在网上看了很多的维特比算法的解析,然而还总是过段时间就忘记了,仔细想想应该还是自己没有完全彻底的弄明白维特比算法的真正含义。今天看到一篇文章,讲解的浅显易懂,醍醐灌顶。https://blog.youkuaiyun.com/athemeroy/article/details/79339546#小白给小白详解维特比算法一...

2019-03-12 16:30:59 513

原创 闲话深度神经网络中的正则化方法之一:Dropout

网上关于正则化的一些方法、以及Dorpout原理解释有很多,大家有感兴趣的可以百度。本文主要聊下inverted dropout。想看英文解释的可以查看《Regularization of Neural Networks using DropConnect》所谓inverted dropout,当模型使用了dropout layer,训练的时候只有占比为 p的隐藏层单元参与训练,那么在...

2019-03-01 11:00:04 371

原创 闲话机器学习中偏差---方差权衡问题

机器学习中,寻找偏差与方差平衡是机器学习中的根本。 一般的,针对机器学习而言,数据集在模型训练中会被分为训练集(training data)、验证集(validation data)、测试集(test data)。其中,测试集是在模型训练好后,对该模型的客观评价,测试集数据一定不要参与训练。这里探讨的主要是偏差与方差的关系,测试集就不过多的探讨。模型的偏差=偏差+方差+不可消除的偏...

2019-02-21 16:08:36 401

原创 关于bidirectional_dynamic_rnn出现 Dimensions of inputs should match问题

在搭建双向BIRNN模型的时候,调用tensorflow自动展开函数bidirectional_dynamic_rnn(cell_fw, cell_bw, data, dtype=tf.float32)时候出现异常:InvalidArgumentError (see above for traceback): ConcatOp : Dimensions of inputs should match...

2019-01-04 11:03:43 4461 5

转载 十大 python 可视化第三方包

浏览一下Python程序库目录你会发现无论要画什么图,都能找到相对的库——从适用于眼球移动研究的GazeParser,到用于可视化实时神经网络训练过程的pastalog。有许多库只完成非常特定的任务,也有许多可以用于更广泛的领域。今天我们会介绍一下10个适用于多个学科的Python数据可视化库,其中有名气很大的也有鲜为人知的。在这里我们提醒一下大家如果想轻松的在本地运行Python,可以使

2017-03-30 16:26:54 20884

原创 超简单的安装python包的方法

由于此前安装pandas出现的问题:下载whl文件,pip install xxx.whl总是出错;easy_install xxx也是出错。后来看到一个道友的博客,轻松解决啊,以后妈妈再也不用担心我安装python第三方包了方法如下:1.需要先安装pycharmPS:强烈推荐的python IDE,尤其是智能语法提醒,再也不用死记那些函数名称了,而且有方便的调试功能2.p

2017-03-30 15:55:19 563

转载 Python爬虫:一些常用的爬虫技巧总结

转载来源:开源中国 http://my.oschina.net/jhao104/blog/647308 用python也差不多一年多了,python应用最多的场景还是web快速开发、爬虫、自动化运维:写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。爬虫在开发过程中也有很多复用的过程,这里总结一下,以后也能省些事情。1、基本抓取网页get方法impor...

2017-03-22 15:46:51 599

原创 [记录caffe学习]1.caffe自带数字识别例子

学习了一段时间的caffe ,虽然对于这个深度学习平台有了一点认识,基本上也可以从网上download下别人训练好的模型来fine tuning(原谅我真的无法从头来训练,单位给我配的渣渣电脑),但是想要成为一名老司机,这远远是不够的,所以本司机打算从头好好系统的学习下,整理成博客的形式.作为一个新手,对caffe的认识肯定有很多的不足之处,有不到位的地方,希望各位老司机轻拍

2017-03-14 15:50:19 2017 1

转载 基于gensim的Doc2Vec简析

1、Word2vec的基本原理先简述一下Word2vec相关原理,因为本文要讲述的doc2vec是基于Word2vec思想的算法。w2v的数学知识还比较丰富,网络上相关资料也很多。如果要系统的讲述,我可能会涉及包括词向量的理解、sigmoid函数、逻辑回归、Bayes公式、Huffman编码、n-gram模型、浅层神经网络、激活函数、最大似然及其梯度推导、随机梯度下降法、词向量与模型参数的

2016-12-16 18:20:46 2599 1

转载 使用文本挖掘实现站点个性化推荐

技术背景一条信息是否能够让用户感兴趣,主要取决于这条信息的内容是否是用户关注的内容。而将用户感兴趣的信息推送给对应的用户,可以更好地发挥该信息的价值,否则,不仅对应信息的价值无法有效发挥,甚至会引起用户的情绪,因为如果用户对这条信息不感兴趣,那么这条信息对于该用户来说就相当于垃圾信息。现在关键的问题是,如何判断出现有的信息中,哪些信息是用户感兴趣的信息,从而把这些用户可能感兴趣的信

2016-12-16 17:57:28 882

转载 string hash 函数

static longstring_hash(PyStringObject *a){    register Py_ssize_t len;    register unsigned char *p;    register long x;    if (a->ob_shash != -1)        return a->ob_shash;    len

2016-12-16 16:39:54 496

转载 sklearn 用于文本分类

文本挖掘的paper没找到统一的benchmark,只好自己跑程序,走过路过的前辈如果知道20newsgroups或者其它好用的公共数据集的分类(最好要所有类分类结果,全部或取部分特征无所谓)麻烦留言告知下现在的benchmark,万谢!嗯,说正文。20newsgroups官网上给出了3个数据集,这里我们用最原始的20news-19997.tar.gz。分为以下

2016-12-14 11:15:14 2169

转载 scikit-learn包进行tf-idf计算

采用scikit-learn包进行tf-idf分词权重计算关键用到了两个类:CountVectorizer和TfidfTransformer,具体参见这里  一个简单的代码如下:[python] view plain copy # coding:utf-8  __author__ = "liuxuejiang"  import

2016-12-14 11:11:40 777

转载 一种海量文章排重的算法

simhash是一种能计算文档相似度的hash算法。通过simhash能将一篇文章映射成64bit,再比较两篇文章的64bit的海明距离,就能知道文章的相似程序。若两篇文章的海明距离<=3,可认为这两篇文章很相近,可认为它们是重复的文章。

2016-11-29 11:35:17 2224

转载 分类算法之贝叶斯网络--转自 T2噬菌体

2.1、摘要      在上一篇文章中我们讨论了朴素贝叶斯分类。朴素贝叶斯分类有一个限制条件,就是特征属性必须有条件独立或基本独立(实际上在现实应用中几乎不可能做到完全独立)。当这个条件成立时,朴素贝叶斯分类法的准确率是最高的,但不幸的是,现实中各个特征属性间往往并不条件独立,而是具有较强的相关性,这样就限制了朴素贝叶斯分类的能力。这一篇文章中,我们接着上一篇文章的例子,讨论贝叶斯分类中更

2015-10-27 09:55:32 382

LuckLottery

这是一个基于神经网络的彩票预测系统,不过鉴于中国彩票现状(你懂得),不知道基于人工智能的方式是不是可以预测,或者说这个用人工智能来预测中国彩票,这个思路是不是可行,可能就需要广大人工智能爱好者的共同探讨了,这是一个仁者见仁智者见智的问题...

2016-01-15

泄漏诊断工具 Leak Diagnosis Tool,LeakDiag

泄漏诊断工具(Leak Diagnosis Tool,LeakDiag)是一种用于检测内存泄漏的工具。它不仅包含了一些基本的功能,例如显示在进程中存在着多少内存泄漏,而且还能提供一些详细的信息,例如执行内存分配的栈回溯(Stack Trace)信息以及内存分配统计信息。

2015-08-27

CUDA_C_Programming_Guide

CUDA编程英文原版...CUDA_C_Programming_Guide_CN4.0 CUDA 编程指南4.0

2015-06-15

基于matlab的图像检索系统

这个是一个基于matlab开发的图像检索系统

2011-04-07

基于VC的图像检索(内带有图像库)

绝对好用,基于VC的图像检索。内有图像库

2011-04-07

人工神经网络原理及仿真实例

本书以神经网络为主线,以学习算法为副线,详细介绍了神经网络结构和算法步骤,并给出实例和练习

2010-04-10

MATLAB 图像处理命令

最常用的MATLAB图像处理命令,方便查用,集结了用于数字图像处理的最常用的matlab函数

2010-04-08

一种改进的Hough 变换直线检测算法

为了能有效解决Hough 变换的计算量大的问题,文中提出了一种基于直线局部结构特征的Hough 变换改进的直 线检测算法。该算法根据Freeman 准则分析了直线上基元的特征信息,通过图像上邻近的同类基元的倾斜角约束基元上 像素点的极角范围,减少每个点的计算次数,在保持精度的同时,提高直线检测的速度,在有噪声的情况下,该算法相对标 准Hough 变换算法可以提高到6 到7 倍。

2010-03-27

VC++数字图像处理与工程应用篇

绝对的好东西,尤其对于那些刚刚接触用VC++实现的数字图象处理的学生。里面提供各个图片的信息以及很多算法的VC++实现的源代码

2010-03-23

计算机图形学课程讲义PDF

计算机图形学是利用计算机研究图形的表示、生成、处理、显示的学科。经过30多年的发展,计算机图形学已成为计算机科学中,最为活跃的分支之一,并得到广泛的应用

2010-03-23

计算机视觉课程COMPUTER VISION

1)  绪论 (Introduction) 2)  图象滤波 (Image Filtering) 3)  二进制图象处理 (Binary Image Processing) 4)  区域 (Region) 5)  边缘检测 (Edge Detection) 6)  立体视觉 (Stereo) 7)  运动的理解与估值 (Motion) 8)  轮廓 (Contours) 9)  纹理 (Texture)   10)  图象光度学 (Shading) 11)  光流场 (Optic Flows) 12)  系统校准 (Calibration) 13) 

2010-03-22

SSDA图像匹配算法的研究及实现

SSDA图像匹配算法的研究及实现 是一种关于SSDA图像匹配算法的创新研究

2010-03-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除