- 博客(34)
- 资源 (13)
- 收藏
- 关注
原创 pyspark生成csv格式文件
>>> rdd.toDF().write.csv("path") 或:>>> rdd.map(lambda (k, v): "{0},{1}".format(k, v)).saveAsTextFile("path")
2020-05-27 13:54:07
2958
原创 tensorflow读取数据部分
以往在传统模型训练,在处理比较小的数据的时候,我们的都是一次性加载进内存,然后再分batch灌给模型,但是数据量特别大的时候,这种方法就不太现实了,tensorflow针对大数据量输入模型部分,提供了几种方法:1、To process lines from files, usetf.data.TextLineDataset:dataset = tf.data.TextLineDataset(["file1.txt", "file2.txt"])2、To process records ..
2020-05-19 15:18:43
379
转载 Hive用array_contains判断列表是否包含某个元素
select task_id, task_code, task_version, case when array_contains(collect_set(tag_id), 599) or array_contains(collect_set(tag_id), 1225) then 'L1-级别' when array_contains(collect_set(tag_id), 600) .
2020-05-14 17:03:12
8566
原创 tensorflow 评估指标中F1,AUC的计算
AUC计算的函数:tf.metrics.auc( labels, predictions, weights=None, num_thresholds=200, metrics_collections=None, updates_collections=None, curve='ROC', name=None, summation_method='trapezoidal')函数返回值: auc: A scalarTen.
2020-05-10 23:25:05
6074
原创 用python3的_pickle读取python2 cPickle保存的数据时出现UnicodeDecodeError: 'ascii' codec can't decode byte 0x8b
用python3的_pickle读取python2 cPickle保存的数据时出现这个问题,只需要指定编码encoding='iso-8859-1’,OKimport picklewith open("my.pkl",'rb') as f: pkl_data = pickle.load(f, encoding='iso-8859-1')...
2020-04-30 15:41:51
217
转载 【转】NLP 的巨人肩膀(中)
3. 梯子的一级半除了在word级别的embedding方法上有大量模型和算法的涌现,同样地,在char级别、句子级别和段落级别同样有大量模型提出。word2vec开源随后的第一年,也就是在2014年,还是Mikolov,在他和另一位作者合作的一篇论文《Distributed Representations of Sentences and Documents》中,提出了可以借鉴word2...
2020-04-08 10:50:00
417
转载 【转】NLP的巨人肩膀(上)
我们都知道,牛顿说过一句名言If I have seen further, it is by standing on the shoulders of giants.无可否认,牛顿取得了无与匹敌的成就,人类历史上最伟大的科学家之一,但同样无可否认的是,牛顿确实吸收了大量前人的研究成果,诸如哥白尼、伽利略和开普勒等人,正因如此,联合国为了纪念伽利略首次将望远镜用作天文观测四百周年,200...
2020-04-08 10:47:10
406
转载 【转】NLP 的巨人肩膀(下)
摘要: 分类器足够简单,足够浅层,相比那些在这些分类任务上设计的足够复杂的模型来说简直不值一提。然而令人大跌眼镜的是,这些简单的分类器都能够比肩甚至超越他们各自时代的最好结果,这不能不说是个惊喜。而创造这些惊 ... tm网络模型框架自然语言处理 我们都知道,牛顿说过一句名言"If I have seen further, it is by standing on the...
2020-04-08 10:21:23
410
原创 bert连续输出loss
这里写自定义目录标题bert 连续输出loss解决方法:bert 连续输出loss解决方法: train_op = optimization.create_optimizer( total_loss, learning_rate, num_train_steps, num_warmup_steps, use_tpu) logging_hook = tf.train.......
2020-04-01 17:37:56
1887
3
转载 bert 分布式优化
如何实现多GPU并发:goole提供的BERT源码使用TPUEstimator实现的,TPUEstimator支持多TPU并发但不支持多GPU并发。为了能支持多GPU并发充分利用GPU资源提高效率,对BERT做一下修改:1、使用optimization_multigpu.py替换optimization.py,执行一下命令 cp optimization.py optim...
2020-03-31 14:20:52
1004
1
原创 NLP相关论文记录
1、ALBERT:https://openreview.net/pdf?id=H1eA7AEtvS 第一个技术是对嵌入参数化进行因式分解(factorized embedding parameterization)。通过将大的词汇表嵌入矩阵分解为两个小的矩阵,将隐藏层的大小与词汇表嵌入的大小分离开来。这种分离使得在不显著增加词汇表嵌入的参数大小的情况下,更容易增加隐藏大小。 ...
2020-03-21 19:21:49
219
原创 NLP基准测试总结
先把GLUE榜单地址挂上 :https://gluebenchmark.com/leaderboard/1、SQuAD(Stanford Question Answering Dataset)SQuAD是什么?SQuAD 是斯坦福大学于2016年推出的数据集,一个阅读理解数据集,给定一篇文章,准备相应问题,需要算法给出问题的答案。此数据集所有文章选自维基百科,数据集的量为当今其他数据集...
2020-03-21 19:05:00
979
原创 基于bert的文本表征向量embedding模型由ckpt转成pb
# -*- coding: utf-8 -*-"""Created on Sun Apr 28 10:20:04 2019@author: wumingshi"""#import contextlibimport jsonimport osfrom enum import Enumfrom termcolor import coloredimport sysimport...
2020-02-29 23:10:11
936
原创 关于【python】【UDF】【HIVE】读取外部资源文件和第三方库的问题解决方案
因为项目需要使用到pythonudf工hql调用python脚本中用到了第三方库解决方案:1.将需要的环境进行打包 tar virtualenv2.hive->add archivepython脚本中调用了本地的资源文件解决方案:1.hive->add file2.调用路径改为 './test.txt'...
2020-02-20 17:55:27
1308
原创 TensorFlow saved_model 模块
https://blog.youkuaiyun.com/thriving_fcl/article/details/75213361
2020-02-18 15:21:06
163
原创 Bert源码解读
目前看到bert解读最好的是:https://blog.youkuaiyun.com/jiaowoshouzi/article/details/89388794
2020-02-14 14:53:05
167
原创 bert推理速度太慢的解决方案[用于生成表征向量]
思路借鉴:https://blog.youkuaiyun.com/hezhefly/article/details/98877796,再次表示感谢本文的用途是基于bert的表征向量的生成基于上面的文章的分类预测思路,修改成了基于bert 的表征向量生成,其中表征向量以最后一层CLS的向量表示,也可以取最后一层的所有token的平均,或者取倒数第二层的所有tokens的平均(倒数第二层不那么接近任务,但...
2020-02-12 19:58:08
3051
1
原创 印地语的编码范围
印度语/印地语utf-8编码是 0900-097F:天城文书 (Devanagari)另外附上比较全的:https://blog.youkuaiyun.com/yanghongchang_/article/details/25025799
2019-07-27 11:38:25
2069
原创 关于fastText工具python版本在windows环境下准确率及召回率都是NaN的问题
如果使用python版本训练,则需要linux运行环境。python版本的库在windows下执行,计算的准确率及召回率都是NaN。
2019-03-22 10:48:59
1406
原创 维特比算法最浅显易懂的讲解
在网上看了很多的维特比算法的解析,然而还总是过段时间就忘记了,仔细想想应该还是自己没有完全彻底的弄明白维特比算法的真正含义。今天看到一篇文章,讲解的浅显易懂,醍醐灌顶。https://blog.youkuaiyun.com/athemeroy/article/details/79339546#小白给小白详解维特比算法一...
2019-03-12 16:30:59
513
原创 闲话深度神经网络中的正则化方法之一:Dropout
网上关于正则化的一些方法、以及Dorpout原理解释有很多,大家有感兴趣的可以百度。本文主要聊下inverted dropout。想看英文解释的可以查看《Regularization of Neural Networks using DropConnect》所谓inverted dropout,当模型使用了dropout layer,训练的时候只有占比为 p的隐藏层单元参与训练,那么在...
2019-03-01 11:00:04
371
原创 闲话机器学习中偏差---方差权衡问题
机器学习中,寻找偏差与方差平衡是机器学习中的根本。 一般的,针对机器学习而言,数据集在模型训练中会被分为训练集(training data)、验证集(validation data)、测试集(test data)。其中,测试集是在模型训练好后,对该模型的客观评价,测试集数据一定不要参与训练。这里探讨的主要是偏差与方差的关系,测试集就不过多的探讨。模型的偏差=偏差+方差+不可消除的偏...
2019-02-21 16:08:36
401
原创 关于bidirectional_dynamic_rnn出现 Dimensions of inputs should match问题
在搭建双向BIRNN模型的时候,调用tensorflow自动展开函数bidirectional_dynamic_rnn(cell_fw, cell_bw, data, dtype=tf.float32)时候出现异常:InvalidArgumentError (see above for traceback): ConcatOp : Dimensions of inputs should match...
2019-01-04 11:03:43
4461
5
转载 十大 python 可视化第三方包
浏览一下Python程序库目录你会发现无论要画什么图,都能找到相对的库——从适用于眼球移动研究的GazeParser,到用于可视化实时神经网络训练过程的pastalog。有许多库只完成非常特定的任务,也有许多可以用于更广泛的领域。今天我们会介绍一下10个适用于多个学科的Python数据可视化库,其中有名气很大的也有鲜为人知的。在这里我们提醒一下大家如果想轻松的在本地运行Python,可以使
2017-03-30 16:26:54
20884
原创 超简单的安装python包的方法
由于此前安装pandas出现的问题:下载whl文件,pip install xxx.whl总是出错;easy_install xxx也是出错。后来看到一个道友的博客,轻松解决啊,以后妈妈再也不用担心我安装python第三方包了方法如下:1.需要先安装pycharmPS:强烈推荐的python IDE,尤其是智能语法提醒,再也不用死记那些函数名称了,而且有方便的调试功能2.p
2017-03-30 15:55:19
563
转载 Python爬虫:一些常用的爬虫技巧总结
转载来源:开源中国 http://my.oschina.net/jhao104/blog/647308 用python也差不多一年多了,python应用最多的场景还是web快速开发、爬虫、自动化运维:写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。爬虫在开发过程中也有很多复用的过程,这里总结一下,以后也能省些事情。1、基本抓取网页get方法impor...
2017-03-22 15:46:51
599
原创 [记录caffe学习]1.caffe自带数字识别例子
学习了一段时间的caffe ,虽然对于这个深度学习平台有了一点认识,基本上也可以从网上download下别人训练好的模型来fine tuning(原谅我真的无法从头来训练,单位给我配的渣渣电脑),但是想要成为一名老司机,这远远是不够的,所以本司机打算从头好好系统的学习下,整理成博客的形式.作为一个新手,对caffe的认识肯定有很多的不足之处,有不到位的地方,希望各位老司机轻拍
2017-03-14 15:50:19
2017
1
转载 基于gensim的Doc2Vec简析
1、Word2vec的基本原理先简述一下Word2vec相关原理,因为本文要讲述的doc2vec是基于Word2vec思想的算法。w2v的数学知识还比较丰富,网络上相关资料也很多。如果要系统的讲述,我可能会涉及包括词向量的理解、sigmoid函数、逻辑回归、Bayes公式、Huffman编码、n-gram模型、浅层神经网络、激活函数、最大似然及其梯度推导、随机梯度下降法、词向量与模型参数的
2016-12-16 18:20:46
2599
1
转载 使用文本挖掘实现站点个性化推荐
技术背景一条信息是否能够让用户感兴趣,主要取决于这条信息的内容是否是用户关注的内容。而将用户感兴趣的信息推送给对应的用户,可以更好地发挥该信息的价值,否则,不仅对应信息的价值无法有效发挥,甚至会引起用户的情绪,因为如果用户对这条信息不感兴趣,那么这条信息对于该用户来说就相当于垃圾信息。现在关键的问题是,如何判断出现有的信息中,哪些信息是用户感兴趣的信息,从而把这些用户可能感兴趣的信
2016-12-16 17:57:28
882
转载 string hash 函数
static longstring_hash(PyStringObject *a){ register Py_ssize_t len; register unsigned char *p; register long x; if (a->ob_shash != -1) return a->ob_shash; len
2016-12-16 16:39:54
496
转载 sklearn 用于文本分类
文本挖掘的paper没找到统一的benchmark,只好自己跑程序,走过路过的前辈如果知道20newsgroups或者其它好用的公共数据集的分类(最好要所有类分类结果,全部或取部分特征无所谓)麻烦留言告知下现在的benchmark,万谢!嗯,说正文。20newsgroups官网上给出了3个数据集,这里我们用最原始的20news-19997.tar.gz。分为以下
2016-12-14 11:15:14
2169
转载 scikit-learn包进行tf-idf计算
采用scikit-learn包进行tf-idf分词权重计算关键用到了两个类:CountVectorizer和TfidfTransformer,具体参见这里 一个简单的代码如下:[python] view plain copy # coding:utf-8 __author__ = "liuxuejiang" import
2016-12-14 11:11:40
777
转载 一种海量文章排重的算法
simhash是一种能计算文档相似度的hash算法。通过simhash能将一篇文章映射成64bit,再比较两篇文章的64bit的海明距离,就能知道文章的相似程序。若两篇文章的海明距离<=3,可认为这两篇文章很相近,可认为它们是重复的文章。
2016-11-29 11:35:17
2224
转载 分类算法之贝叶斯网络--转自 T2噬菌体
2.1、摘要 在上一篇文章中我们讨论了朴素贝叶斯分类。朴素贝叶斯分类有一个限制条件,就是特征属性必须有条件独立或基本独立(实际上在现实应用中几乎不可能做到完全独立)。当这个条件成立时,朴素贝叶斯分类法的准确率是最高的,但不幸的是,现实中各个特征属性间往往并不条件独立,而是具有较强的相关性,这样就限制了朴素贝叶斯分类的能力。这一篇文章中,我们接着上一篇文章的例子,讨论贝叶斯分类中更
2015-10-27 09:55:32
382
LuckLottery
2016-01-15
泄漏诊断工具 Leak Diagnosis Tool,LeakDiag
2015-08-27
一种改进的Hough 变换直线检测算法
2010-03-27
计算机图形学课程讲义PDF
2010-03-23
计算机视觉课程COMPUTER VISION
2010-03-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人