
工具
文章平均质量分 66
于建民
主要从事新闻信息流的推荐算法、NLP相关工作,对图像处理、智能医疗、深度学习、对抗网络及对抗样本 有一定理解。
展开
-
GPU加速计算-工具介绍
本人主要在R下和Python下使用GPU加速计算,使用成熟的工具来提高自己的工作效率,现在对其中一些方法做一下简单总结。原创 2015-08-30 23:49:37 · 8413 阅读 · 0 评论 -
使用TF Service搭建在线服务:part-1
现在利用docker来配置可用的虚拟服务环境并搭载tf Service模块,直接在各个服务器上拉取虚拟服务镜像,就可以快速地部署模型预测服务了。 docker 安装 Docker官方要求内核必须3.x+才可以,查看内核$ uname -r。 docker对Ubuntu的支持是最友好全面的,但我们仍然需要面对机器是CentOS的时候。 升级内核 如果内核版本低于3,...原创 2018-09-15 17:00:17 · 1705 阅读 · 0 评论 -
Batch Normalize的几点说明
前言 前面也讲过部分Batch Normalize的内容,单独拿出来成文,是因为感觉这方法非常赞,加快训练速度十几倍不等,模型越复杂越受益。 一句话总结BN:对每层输入加同分布约束,再加参数线性变换学习其表达能力。 BN解决的问题 Problem :: Internal Covariate Shift 神经网络训练的难题之一,在前层参数变化时,每层的输入分布也随之变化。这就造成了原创 2017-12-16 16:37:17 · 9936 阅读 · 5 评论 -
awk#egrep#cat#.sh#
总结一下最近碰到的一些linux问题awk ; grep/egrep ; cat ; shell ; python ;原创 2016-06-08 15:21:34 · 846 阅读 · 0 评论 -
踩过的几个坑json.dumps/含while的shell脚本/awk~
坑了自己的坑 踩坑的经历是痛苦的,值得纪念,毕竟表示曾经逝去的青涩,同时避免以后再踩,虽然踩踩更健康。原创 2016-07-23 13:44:39 · 848 阅读 · 0 评论 -
awk的小结
最近一直在用awk处理文本,之前一直不怎么用的功能也用到。现在简单总结一下。原创 2016-08-11 10:41:59 · 645 阅读 · 0 评论 -
Spark浅显了解
Spark是基于内存计算的集群计算系统,非常适合于迭代运算的机器学习方法实现。作为一个数据挖掘的专业人员,不容错过此等神器,下面我们就来简单地体验一下Spark。什么是RDD RDD(弹性分布式数据集)是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。原创 2015-09-21 20:52:27 · 860 阅读 · 0 评论 -
Python如何调用R:rpy2使用介绍
Python编程灵活方便,R的模型方法众多,如何将两者结合起来,发挥更大的作用,值得探索。本文简单介绍如何在Python里调用R,实现两者的完美结合,并且给出实际可用的例子,手把手地教给大家。rpy2的安装 notice:本文实验环境是ubuntu14+Python2.7+R3.0.1 ## rpy2 使得python里面可以调用R – it is a very useful tool原创 2015-09-12 18:55:16 · 13587 阅读 · 3 评论 -
R语言:网页抓取之get the data
前言 题记–任何一个数据挖掘工程师都应该有对数据的热情 网络上的数据是免费的,是无限的,是有无穷价值的,关键看你怎么去挖掘。为了财富,为了生活,要挖,在挖之前要先爬。 爬什么?怎么爬?工具+语言?原创 2015-09-12 18:21:28 · 7546 阅读 · 0 评论 -
R语言:网页抓取之不同提取方法解析
接上篇,用R获取网页数据之后的处理 当获取表格数据时,可以用readHTMLTable来获取数据,很方便。当数据不是表格化的时,则常用xmlTreeParse(xmlParse)和getNodeSet配合来获取相应的数据。xmlTreeParse 来抓取页面数据,并且形成树。getNodeSet来对树结构数据,根据XPath语法来选取特定的节点集。下面举个实际例子来讲解一下这两个最重要函数的应原创 2015-09-12 18:41:25 · 14939 阅读 · 0 评论 -
使用TF Service搭建在线服务:part-2
前文已经在服务器上下载好了docker,下面来搭建一个完整的开发测试服务环境。原创 2018-09-16 14:13:11 · 1776 阅读 · 5 评论