- 博客(409)
- 资源 (2)
- 收藏
- 关注
转载 Conda 环境迁移
本文转载自:Conda环境迁移背景:随着我们的python项目越来越大,我们的项目依赖库也越来越复杂. 比如类似下图中的依赖.如何方便快速的对我们的环境依赖导出为文件,并可以基于环境文件快速的恢复重现,就很有意义了。以下是几个方法的内容:Conda 是著名的包管理器和虚拟环境管理器。在配置完项目环境,并编写和测试代码后,您可能希望将其移至另一台计算机。Conda 提供了多种保存和移动环境的方法。Clone在本地,conda 可以方便地创建环境的快照或者备份:..
2021-10-09 16:37:08
2156
原创 Self-Guided Contrastive Learning for BERT Sentence Representations
文章链接:《Self-Guided Contrastive Learning for BERT Sentence Representations》文章的背景:尽管bert及后续很多优化的变体,但是对用于句子相似度计算的句子如何最优的表征, 这块的结论并不是很清晰。比如之前常用的方法是直接取bert的倒数第一层 或者 倒数第二层的[cls]向量作为句子表征。然而我们实际中拿这个[cls]向量直接计算句子相似度的时候就会发现, 本该距离远的sentence 的 cls 向量表征也可能很近,这个现象在题.
2021-09-30 15:41:27
1129
1
原创 2020年总结-只做了买房和理财。。。
今年发现都没写什么博客,当然原来写的也不多,今天都在忙着搞钱,但是不是技术搞钱。。。稍微总结一下今年的事情:1 北京海淀买了1套新房,当时取出了理财的大部分资金,造成我错过今年很高的理财收益2 忙着学习理财,20年理财收益率可以达到40%+3 做了一些港股美股打新,8天赚了1w多,开始渐入佳境。回顾一下发现,今年由于货币放水的原因,美股港股A股收益率都挺高,我心态比较浮躁了,在想着赚快钱。但其实本金的大小很关键,没有大额本金,高收益是没有意义的。在20年的年底,还是觉得明年...
2020-12-31 16:30:18
650
3
转载 完全图解GPT-2:看完这篇就够了(一)
在过去的一年中,BERT、Transformer XL、XLNet 等大型自然语言处理模型轮番在各大自然语言处理任务排行榜上刷新最佳纪录,可谓你方唱罢我登场。其中,GPT-2 由于其稳定、优异的性能吸引了业界的关注今年涌现出了许多机器学习的精彩应用,令人目不暇接,OpenAI 的 GPT-2 就是其中之一。它在文本生成上有着惊艳的表现,其生成的文本在上下文连贯性和情感表达上都超过了人们对目前阶段语言模型的预期。仅从模型架构而言,GPT-2 并没有特别新颖的架构,它和只带有解码器的 tra...
2020-07-31 17:43:30
2362
原创 聊天机器人及Facebook Blender
1 聊天机器人定义 聊天机器人是经由对话或者文字进行交谈的计算机程序,能够模拟人类对话。 应用场景: 智能客服(电商,各垂直业务平台),智能音箱(小度,小爱),语音助手等。 2 聊天机器人常见实现方法总结 常见的有以下3种,即: 2.1 基于模板的聊天机器人 2.2 基于检索的聊天机器人 2.3 基于生成式的聊天机器人3 基于模板的聊天机器人 以下是个玩具版聊天机器人,为基于模板的....
2020-06-08 17:42:16
1697
3
转载 自然语言处理中的语言模型预训练方法(ELMo、GPT和BERT)
自然语言处理中的语言模型预训练方法(ELMo、GPT和BERT)最近,在自然语言处理(NLP)领域中,使用语言模型预训练方法在多项NLP任务上都获得了不错的提升,广泛受到了各界的关注。就此,我将最近看的一些相关论文进行总结,选取了几个代表性模型(包括ELMo [1],OpenAI GPT [2]和BERT [3])和大家一起...
2020-03-15 16:23:39
910
转载 爱奇艺视频标签技术解析
本文转载自:https://mp.weixin.qq.com/s/gTdVJs8PEzy-8fbYfXOrHA前言随着短视频的兴起,每天有大量的短视频被生产并上传到各大视频平台,面对海量的短视频,如何提升这些短视频的智能分发效率是各大短视频平台面临的重要课题。视频的标签技术是内容理解的一种重要手段,已经在业界被广泛应用于推荐系统的各个环节:用户画像、召回、排序等。标签一般分为“类型标签...
2020-02-27 16:05:54
3483
转载 AC自动机 算法详解(图解)及模板
本文转载自:https://blog.youkuaiyun.com/bestsort/article/details/82947639要学AC自动机需要自备两个前置技能:KMP和trie树(其实个人感觉不会kmp也行,失配指针的概念并不难)其中,KMP是用于一对一的字符串匹配,而trie虽然能用于多模式匹配,但是每次匹配失败都需要进行回溯,如果模式串很长的话会很浪费时间,所以AC自动机应运而生,如同M...
2020-01-03 11:28:57
776
原创 ALBERT 思想简介
前段时间简单看了下ALBERT 的paper(ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS), 简单记录下论文的思想,穿插一点点个人想法。 1 背景 1.1 从BERT以来,NLP的预训练模型变得越来越大,占用的 GPU/TPU显存越来越高。...
2019-11-29 12:01:30
1191
转载 ELECTRA:超越BERT,19年最佳NLP预训练模型
本文转载自:https://mp.weixin.qq.com/s/gqc3jKB33mvMKyGXUFTBdwBERT推出这一年来,除了XLNet,其他的改进都没带来太多惊喜,无非是越堆越大的模型和数据,以及动辄1024块TPU,让工程师们不知道如何落地。今天要介绍的ELECTRA是我在ICLR盲审中淘到的宝贝(9月25日已截稿),也是BERT推出以来我见过最赞的改进,通过类似G...
2019-11-29 11:05:24
437
原创 Mac下Iterm2 分屏命令
⌘ + d: 垂直分屏 (将屏幕分成左右)⌘ + shift + d: 水平分屏 (将屏幕分成上下)⌘ + ]和⌘ + [在最近使用的分屏直接切换.⌘ + opt + 方向键切换到指定位置的分屏...
2019-10-25 15:44:40
3299
原创 通过 Dockerfile build镜像 挂载宿主机目录 及 一个有意思的bug
1 通过Dockerfile 构建docker镜像docker build -t transformers_docker . 说明:通过docker build构建镜像,参数-t表示镜像的tag,transformers_docker 表示镜像的名称,. 表示当前目录,根据当前目录查找 Dockerfile 文件。 运行状态如下: 2 查看镜像列表...
2019-09-27 17:58:28
7681
转载 人脸检测论文:BlazeFace: Sub-millisecond Neural Face Detection on Mobile GPUs 及其Pytorch实现
参考链接:https://blog.youkuaiyun.com/shanglianlm/article/details/95809339
2019-08-27 14:38:11
508
转载 GAN原理,优缺点、应用总结
1.GAN的 ‘前世’?大家都知道GAN是Ian Goodfellow 2 014年放出的一篇开山之作,在深度学习界评价很高,可以说GAN的出现,给深度学习界带来了很多的研究(shui)课(lun)题(wen)。但是如果说GAN是另外一种网络的变种,不知道你是否相信呢?但是有一个人是坚信不疑的,这个人就是德国AI科学家Jürgen Schmidhuber,说到这个人可能很多人不太了解,毕竟不是...
2019-08-16 18:03:04
808
原创 docker 删除镜像
1 查询镜像docker images2 先查询该镜像启动的容器的 container iddocker ps -a3 首先根据容器id 删除容器docker rm b5568112d2624 根据镜像id image id 删除镜像docker rmi e73bed6e09dc即,删除容器和删除镜像的命令不同。删除容器是 rm,删除镜像...
2019-07-23 15:02:43
441
转载 Docker启动Get Permission Denied
以下问题及解决方法都在Ubuntu16.04下,其他环境类似问题描述安装完docker后,执行docker相关命令,出现”Got permission denied while trying to connect to the Docker daemon socket at unix:///var/run/docker.sock: Get http://%2Fvar%2Frun%2F...
2019-07-22 19:17:13
221
原创 Object of type 'ObjectId' is not JSON serializable
从 mongo 中直接将查到的数据 dumps 导出,报错:Object of type 'ObjectId' is not JSON serializable解决方法:from bson import json_utiljson_util.dumps(data)
2019-07-18 16:29:01
4798
1
转载 python--常用的十进制、16进制、字符串、字节串之间的转换
本文转载自:https://www.cnblogs.com/fqfanqi/p/7900758.html进行协议解析时,总是会遇到各种各样的数据转换的问题,从二进制到十进制,从字节串到整数等等整数之间的进制转换:10进制转16进制: hex(16) ==> 0x10 16进制转10进制: int('0x10', 16) ==> 16类似的还有oct(), bi...
2019-07-16 10:02:18
295
原创 视频抽取音频,对阿里 百度 腾讯 科大讯飞的语音识别进行评测
1 视频抽取音频 我手头的视频格式为 mov 或者 mp4格式的,需要首先从视频中抽取音频。 看了下各家对音频数据的格式要求,一般是 pcm/wav/amr/mp3 等,采样率 16k/8k, 位长 16bit,单声道。 用到的视频抽音频工具是 ffmpeg,这个没啥说的了。 针对视频抽取音频: ffmpeg -y -i audio.wav -acodec...
2019-06-19 14:34:41
2471
原创 使用numpy pandas 读取csv文件及遍历 && 二者处理数据时间对比
1 使用numpy 及 pandas 读取csv文件及遍历 1.1 numpy fin = np.loadtxt(self.path,dtype=np.str,delimiter=',') test_dict = {} data = fin[1:].tolist() for list1 in data: name,c...
2019-05-29 16:36:47
17782
转载 Python必会的单元测试框架 —— unittest
本文转载自:https://blog.youkuaiyun.com/huilan_same/article/details/52944782unittest是xUnit系列框架中的一员,如果你了解xUnit的其他成员,那你用unittest来应该是很轻松的,它们的工作方式都差不多。unittest核心工作原理unittest中最核心的四个概念是:test case, test suite, test...
2019-04-29 17:50:24
218
原创 rsync error: error in socket IO (code 10) at clientserver.c(128) [Receiver=3.1.1]
今天从一台新服务器上rsync 文件,已配置好/etc/rsyncd.conf 文件,拉取数据时报错:rsync error: error in socket IO (code 10) at clientserver.c(128) [Receiver=3.1.1]. 发现是待拉取机器的服务未启动,服务启动后ok。sudo rsync --daemon --con...
2019-04-22 19:07:39
18822
转载 以 linear_regression为例讲解神经网络实现基本步骤以及解读nn.Linear函数
参考:https://blog.youkuaiyun.com/dss_dssssd/article/details/83892824
2019-04-16 21:31:43
861
转载 关于深度学习优化器 optimizer 的选择
在很多机器学习和深度学习的应用中,我们发现用的最多的优化器是 Adam,为什么呢?下面是 TensorFlow 中的优化器,https://www.tensorflow.org/api_guides/python/train在 keras 中也有 SGD,RMSprop,Adagrad,Adadelta,Adam 等:https://keras.io/optimizers/我们可...
2019-04-16 16:46:54
871
转载 pytorch使用torch.dtype、torch.device和torch.layout管理数据类型属性
本文转载自:https://ptorch.com/news/187.htmlpytorch从0.4开始提出了Tensor Attributes,主要包含了torch.dtype,torch.device,torch.layout。pytorch可以使用他们管理数据类型属性。以下内容为pytorch0.4文档内容,具体可以查看Tensor AttributesTensor Attribute...
2019-04-16 15:00:44
13140
转载 mac 中将gitlab拉取代码到本地
步骤0:安装git、注册/申请gitlab账号、生成key这里只说明生成key设置Git的user name和email: git config --global user.name "name" git config --global user.email "emailname@gmail.com"二、生成SSH密钥过程:1.查看是否已经有了ssh密钥:cd ~/....
2019-04-13 15:39:36
8518
2
转载 损失函数loss总结
分类任务loss:二分类交叉熵损失sigmoid_cross_entropy:TensorFlow 接口:tf.losses.sigmoid_cross_entropy( multi_class_labels, logits, weights=1.0, label_smoothing=0, scope=None, loss_coll...
2019-03-29 19:31:33
1046
原创 Dota中卡尔技能总数的组合数量
问题:在游戏Dota2中,有一位非常强大的英雄:卡尔,他有三种属性:冰 火 雷. 同时卡尔身上有三个无顺序的属性槽, 他可以从三种属性中任意选择3个放入属性槽中,然后通过当前的属性组合召唤技能. 每种不同的属性组合 都可以为卡尔召唤出不同的技能,共有10种组合:1 冰冰冰2 冰冰火3 冰冰雷4 冰火火5 冰火雷6 冰雷雷7 火火火8 火火雷9 火雷雷10...
2019-03-21 19:34:35
7531
转载 『TensorFlow』网络操作API中损失函数及分类器
本文转载自:https://www.cnblogs.com/hellcat/p/7039482.html目录一、误差值 l2_loss 二、分类器 sigmoid_cross_entropy_with_logits softmax log_softmax softmax_cross_entropy_with_logits sparse_softmax_cro...
2019-03-19 15:59:13
249
转载 机器学习中 L1 和 L2 正则化的直观解释
机器学习中,如果参数过多,模型过于复杂,容易造成过拟合(overfit)。即模型在训练样本数据上表现的很好,但在实际测试样本上表现的较差,不具备良好的泛化能力。为了避免过拟合,最常用的一种方法是使用使用正则化,例如 L1 和 L2 正则化。但是,正则化项是如何得来的?其背后的数学原理是什么?L1 正则化和 L2 正则化之间有何区别?本文将给出直观的解释。1. L2 正则化直观解释L2 正则化...
2019-03-11 17:04:11
344
转载 python结巴(jieba)分词
一、特点1、支持三种分词模式: (1)精确模式:试图将句子最精确的切开,适合文本分析。 (2)全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。 (3)搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。2、支持繁体分词3、支持自定义词典二、实现结巴分词的实现原理主要有一下三点:(1)基于Trie树结构实现高效...
2019-02-22 16:58:26
397
转载 在分类中如何处理训练集不均衡问题
本文转载自: https://blog.youkuaiyun.com/heyongluoyao8/article/details/49408131文章翻译自Quora: https://www.quora.com/In-classification-how-do-you-handle-an-unbalanced-training-set在分类中如何处理训练集中不平衡问题 在很多机器学习任务中...
2019-02-20 10:44:55
1212
转载 Hive常用函数大全一览
本文转载自: https://www.iteblog.com/archives/2258.html文章目录1 关系运算 1.1 1、等值比较: = 1.2 2、不等值比较: 1.3 3、小于比较: < 1.4 4、小于等于比较: <= 1.5 5、大于比较: > 1.6 6、大于等于比较: >= 1.7 7、空值判断: IS NULL ...
2019-02-18 20:57:22
7581
转载 redis数据库命令快查表
本文转载自:https://blog.youkuaiyun.com/javali1995/article/details/78496545一、String 概述:String是redis最基本的类型,最大能存储512MB的数据,String类型是二进制安全的,即可以存储任何数据、比如数字、图片、序列化对象等 1、设置 a、设置键值 set key value b、设置键值及过期时间,以秒为单位 ...
2019-02-18 16:59:33
2132
转载 Docker目录挂载
Docker容器启动的时候,如果要挂载宿主机的一个目录,可以用-v参数指定。譬如我要启动一个centos容器,宿主机的/test目录挂载到容器的/soft目录,可通过以下方式指定:# docker run -it -v /test:/soft centos /bin/bash这样在容器启动后,容器内会自动创建/soft的目录。通过这种方式,我们可以明确一点,即-v参数中,冒号":"前面...
2019-01-28 19:11:30
1213
原创 docker容器保持运行不退出
nsenter工具进入docker容器概述对于运行在后台的docker容器,我们经常需要做的事情是进入到容器中,docker为我们提供了docker exec 、docker attach 命令,并且还提供了nsenter工具,外部工具供我们使用。docker attach存在的问题是:当多个窗口同时attach到同一个容器时,所有的窗口都会同步的显示,假如其中的一个窗口发生阻塞时,其它的窗口...
2019-01-20 23:21:22
20785
2
原创 Docker容器和主机如何互相拷贝传输文件
语法docker cp [OPTIONS] CONTAINER:SRC_PATH DEST_PATH|-docker cp [OPTIONS] SRC_PATH|- CONTAINER:DEST_PATHOPTIONS说明:-L :保持源目标中的链接 实例将主机./RS-MapReduce目录拷贝到容器30026605dcfe的/home/cloudera目录下。docke...
2019-01-18 14:11:26
778
转载 源码解读之Pre-train
pre-train是迁移学习的基础,虽然Google已经发布了各种预训练好的模型,而且因为资源消耗巨大,自己再预训练也不现实(在Google Cloud TPU v2 上训练BERT-Base要花费近500刀,耗时达到两周。在GPU上可想而知只会更贵),但是学习bert的预训练方法可以为我们弄懂整个bert的运行流程提供莫大的帮助。预训练涉及到的模块有点多,所以这也将会是一篇长文,在能简略的地方我...
2019-01-15 11:09:11
911
转载 欧式距离、标准化欧式距离、马氏距离、余弦距离
参考地址:https://blog.youkuaiyun.com/Kevin_cc98/article/details/73742037
2018-12-29 16:31:39
741
转载 python中pylint使用方法(pylint代码检查)
一、Pylint 是什么Pylint 是一个 Python 代码分析工具,它分析 Python 代码中的错误,查找不符合代码风格标准和有潜在问题的代码。Pylint 是一个 Python 工具,除了平常代码分析工具的作用之外,它提供了更多的功能:如检查一行代码的长度,变量名是否符合命名标准,一个声明过的接口是否被真正实现等等。Pylint 的一个很大的好处是它的高可配置性,高可定制性,并且...
2018-11-27 15:22:12
54750
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人