
python
junjie20082008
这个作者很懒,什么都没留下…
展开
-
pyspark生成csv格式文件
>>> rdd.toDF().write.csv("path") 或:>>> rdd.map(lambda (k, v): "{0},{1}".format(k, v)).saveAsTextFile("path")原创 2020-05-27 13:54:07 · 2974 阅读 · 0 评论 -
用python3的_pickle读取python2 cPickle保存的数据时出现UnicodeDecodeError: 'ascii' codec can't decode byte 0x8b
用python3的_pickle读取python2 cPickle保存的数据时出现这个问题,只需要指定编码encoding='iso-8859-1’,OKimport picklewith open("my.pkl",'rb') as f: pkl_data = pickle.load(f, encoding='iso-8859-1')...原创 2020-04-30 15:41:51 · 228 阅读 · 0 评论 -
bert连续输出loss
这里写自定义目录标题bert 连续输出loss解决方法:bert 连续输出loss解决方法: train_op = optimization.create_optimizer( total_loss, learning_rate, num_train_steps, num_warmup_steps, use_tpu) logging_hook = tf.train.......原创 2020-04-01 17:37:56 · 1905 阅读 · 3 评论 -
bert 分布式优化
如何实现多GPU并发:goole提供的BERT源码使用TPUEstimator实现的,TPUEstimator支持多TPU并发但不支持多GPU并发。为了能支持多GPU并发充分利用GPU资源提高效率,对BERT做一下修改:1、使用optimization_multigpu.py替换optimization.py,执行一下命令 cp optimization.py optim...转载 2020-03-31 14:20:52 · 1026 阅读 · 1 评论 -
基于bert的文本表征向量embedding模型由ckpt转成pb
# -*- coding: utf-8 -*-"""Created on Sun Apr 28 10:20:04 2019@author: wumingshi"""#import contextlibimport jsonimport osfrom enum import Enumfrom termcolor import coloredimport sysimport...原创 2020-02-29 23:10:11 · 945 阅读 · 0 评论 -
TensorFlow saved_model 模块
https://blog.youkuaiyun.com/thriving_fcl/article/details/75213361原创 2020-02-18 15:21:06 · 166 阅读 · 0 评论 -
bert推理速度太慢的解决方案[用于生成表征向量]
思路借鉴:https://blog.youkuaiyun.com/hezhefly/article/details/98877796,再次表示感谢本文的用途是基于bert的表征向量的生成基于上面的文章的分类预测思路,修改成了基于bert 的表征向量生成,其中表征向量以最后一层CLS的向量表示,也可以取最后一层的所有token的平均,或者取倒数第二层的所有tokens的平均(倒数第二层不那么接近任务,但...原创 2020-02-12 19:58:08 · 3069 阅读 · 1 评论 -
印地语的编码范围
印度语/印地语utf-8编码是 0900-097F:天城文书 (Devanagari)另外附上比较全的:https://blog.youkuaiyun.com/yanghongchang_/article/details/25025799原创 2019-07-27 11:38:25 · 2090 阅读 · 0 评论 -
关于fastText工具python版本在windows环境下准确率及召回率都是NaN的问题
如果使用python版本训练,则需要linux运行环境。python版本的库在windows下执行,计算的准确率及召回率都是NaN。原创 2019-03-22 10:48:59 · 1414 阅读 · 0 评论 -
闲话机器学习中偏差---方差权衡问题
机器学习中,寻找偏差与方差平衡是机器学习中的根本。 一般的,针对机器学习而言,数据集在模型训练中会被分为训练集(training data)、验证集(validation data)、测试集(test data)。其中,测试集是在模型训练好后,对该模型的客观评价,测试集数据一定不要参与训练。这里探讨的主要是偏差与方差的关系,测试集就不过多的探讨。模型的偏差=偏差+方差+不可消除的偏...原创 2019-02-21 16:08:36 · 408 阅读 · 0 评论 -
关于bidirectional_dynamic_rnn出现 Dimensions of inputs should match问题
在搭建双向BIRNN模型的时候,调用tensorflow自动展开函数bidirectional_dynamic_rnn(cell_fw, cell_bw, data, dtype=tf.float32)时候出现异常:InvalidArgumentError (see above for traceback): ConcatOp : Dimensions of inputs should match...原创 2019-01-04 11:03:43 · 4479 阅读 · 5 评论 -
十大 python 可视化第三方包
浏览一下Python程序库目录你会发现无论要画什么图,都能找到相对的库——从适用于眼球移动研究的GazeParser,到用于可视化实时神经网络训练过程的pastalog。有许多库只完成非常特定的任务,也有许多可以用于更广泛的领域。今天我们会介绍一下10个适用于多个学科的Python数据可视化库,其中有名气很大的也有鲜为人知的。在这里我们提醒一下大家如果想轻松的在本地运行Python,可以使转载 2017-03-30 16:26:54 · 20908 阅读 · 0 评论 -
超简单的安装python包的方法
由于此前安装pandas出现的问题:下载whl文件,pip install xxx.whl总是出错;easy_install xxx也是出错。后来看到一个道友的博客,轻松解决啊,以后妈妈再也不用担心我安装python第三方包了方法如下:1.需要先安装pycharmPS:强烈推荐的python IDE,尤其是智能语法提醒,再也不用死记那些函数名称了,而且有方便的调试功能2.p原创 2017-03-30 15:55:19 · 573 阅读 · 0 评论 -
Python爬虫:一些常用的爬虫技巧总结
转载来源:开源中国 http://my.oschina.net/jhao104/blog/647308 用python也差不多一年多了,python应用最多的场景还是web快速开发、爬虫、自动化运维:写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。爬虫在开发过程中也有很多复用的过程,这里总结一下,以后也能省些事情。1、基本抓取网页get方法impor...转载 2017-03-22 15:46:51 · 602 阅读 · 0 评论