自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(61)
  • 收藏
  • 关注

转载 Pandas Statistical Functions

import pandas as pdimport randomimport numpy as npn_rows=5n_cols=2df = pd.DataFrame(np.random.randn(n_rows, n_cols), index = pd.date_range('1/1/2000', periods=n_rows), columns = ['A','...

2019-02-11 16:58:00 233

转载 pyspark 记录

import osimport sysspark_name = os.environ.get('SPARK_HOME',None)if not spark_name: raise ValueErrorError('spark环境没有配置好')sys.path.insert(0,os.path.join(spark_name,'python'))sys.path.inse...

2018-11-23 22:08:00 251

转载 pandas 使用总结

import pandas as pdimport numpy as np## 从字典初始化dfipl_data = {'Team': ['Riders', 'Riders', 'Devils', 'Devils', 'Kings', 'Kings', 'Kings', 'Kings', 'Riders', 'Royals', 'Royals', 'Riders'...

2018-11-08 15:07:00 421

转载 ConfigParser 读写配置文件

很多时候需要从配置文件中读取参数,在程序中使用,这时候就需要用到ConfigParser模块(在Python3以上的版本中为configparser模块)首先新建一个配置文件样例:myapp.conf# database source[db]host = 127.0.0.1port = 3306user = rootpass = root# ssh[ssh]host ...

2018-10-09 17:12:00 199

转载 Cheat Sheet pyspark RDD(PySpark 速查表)

转载于:https://www.cnblogs.com/sandy-t/p/9688492.html

2018-09-21 21:15:00 199

转载 python随机生成字符

Python2:Unicode是一种通用的编码方式,不论是英文字母、汉字、日语还是其他文字都能够对应一个唯一的Unicode编码(序号)。chr(100) # 得到整数对应的ascii码(小于256)ord('?') # 得到一个ascii字符对应的ascii码int('4f60',16) # 从16进制数得到对应的十进制数hex(20320) # '0x4f60'#随机生成...

2018-09-20 21:34:00 474

转载 python dict 中的中文处理

dict1 = {'中':'国 '}print dict1 ##{'\xc3\xa4\xc2\xb8\xc2\xad': '\xc3\xa5\xc2\x9b\xc2\xbd'}import jsonjson1 = json.dumps(dict1) print json1 ##{"\u00e4\u00b8\u00ad": "\u00e5\u009b\u00bd"}print...

2018-08-28 20:21:00 1070

转载 grep 命令

参考:shell命令之一天一见:grep转载于:https://www.cnblogs.com/sandy-t/p/9306451.html

2018-07-13 17:57:00 97

转载 hadoop 日常使用记录

1.Hadoop分布式文件系统(HDFS)HDFS基于GFS(Google File System),能够存储海量的数据,并且使用分布式网络客户端透明访问。HDFS中将文件拆分成特定大小的块结构(block-structured filesystem),一个文件的不同块存储在不同的节点中。为了防止数据丢失,HDFS默认将一个块重复保存3份。HDFS的架构主要包括两个部分:Nam...

2018-07-12 21:09:00 108

转载 python 2 计算字符串 余弦相似度

def get_ord_list(str): return [ord(i) for i in str]def calcu_approx(str1,str2): def dot(A,B): return (sum(a*b for a,b in zip(A,B))) def cosine_similarity(a,b): retur...

2018-06-26 11:45:00 531

转载 screen命令

背景Screen是Linux非常好用的工具。由于经常在服务器上运行程序,本地不可能一直和服务器保持ssh连接,而且如果本地和服务器的连接断开,在服务器上运行的程序将会终止,如果使用screen来进行ssh连接,则可以在本地与远端服务器的连接断开后,继续保持服务器上的程序运行,在本地重新与远端服务器连接后,screen还可以恢复之前的连接。尤其适用于在服务器上执行一些长时间才能运行完成的...

2018-06-11 23:10:00 140

转载 LintCode 433. 岛屿的个数(Number of Islands)

LintCode 433. 岛屿的个数(Number of Islands)代码:class Solution: """ @param grid: a boolean 2D matrix @return: an integer """ def numIslands(self, grid): # write your code ...

2018-05-23 23:15:00 154

转载 PySpark Rdd Cheat Sheet Python

转载于:https://www.cnblogs.com/sandy-t/p/8944172.html

2018-04-25 13:41:00 131

转载 Cheat sheet PySpark SQL Python(PySpark 速查表)

转载于:https://www.cnblogs.com/sandy-t/p/8917938.html

2018-04-23 13:01:00 192

转载 python的深拷贝和浅拷贝

# 对象赋值a = 'hello world'b = aprint('a:',a,', b:',b)# a: hello world , b: hello worldprint(id(a)==id(b))# Truea = 'Hello World'print('a:',a,', b:',b)# Hello World , b: hello worldprint(id...

2018-01-05 12:01:00 295

转载 如何准备机器学习工程师的面试?

struct 和 class 区别,你更倾向用哪个kNN,朴素贝叶斯,SVM 的优缺点,朴素贝叶斯的核心思想,有没有考虑属性之间不是相互独立的情况10 亿个整数,1G 内存,O(n) 算法,统计只出现一次的数。SVM 非线性分类,核函数的作用海量数据排序项目中的数据是否会归一化处理,哪个机器学习算法不需要归一化处理两个数组,求差集开放性问题:每个实体有不同属性,现在有很多...

2017-10-31 14:01:00 131

转载 TensorFlow 中的张量,图,会话

tensor的含义是张量,张量是什么,听起来很高深的样子,其实我们对于张量一点都不陌生,因为像标量,向量,矩阵这些都可以被认为是特殊的张量。如下图所示:在TensorFlow中,tensor实际上就是各种“数”的统称。而flow是流动的意思。所以TensorFlow的意思就是“数”的流动,可以说TensorFlow这个名字很形象。一般来说,编程模式有两种,一种是命令式的,一种是符号式...

2017-10-21 20:41:00 146

转载 人脸对齐(One Millisecond Face Alignment with an Ensemble of Regression Trees)

https://pdfs.semanticscholar.org/d78b/6a5b0dcaa81b1faea5fb0000045a62513567.pdf转载于:https://www.cnblogs.com/sandy-t/p/7689509.html

2017-10-18 22:31:00 331

转载 Python 语言规范(Google)

Python语言规范Linttip对你的代码运行pylint定义:pylint是一个在Python源代码中查找bug的工具. 对于C和C++这样的不那么动态的(译者注: 原文是less dynamic)语言, 这些bug通常由编译器来捕获. 由于Python的动态特性, 有些警告可能不对. 不过伪告警应该很少.优点:可以捕获容易忽视的错误, 例如输入错误, 使用未赋值的...

2017-10-13 19:48:00 175

转载 Python 代码风格规范(Google)

Python风格规范分号tip不要在行尾加分号, 也不要用分号将两条命令放在同一行.行长度tip每行不超过80个字符例外:长的导入模块语句注释里的URL不要使用反斜杠连接行.Python会将 圆括号,中括号和花括号中的行隐式的连接起来, 你可以利用这个特点. 如果需要, 你可以在表达式外围增加一对额外的圆括号.Yes: foo_bar(self, wi...

2017-10-13 17:58:00 342

转载 GBM,XGBoost,LightGBM

GBM如何调参:https://www.analyticsvidhya.com/blog/2016/02/complete-guide-parameter-tuning-gradient-boosting-gbm-python/XGBoost 应该如何调参:https://www.analyticsvidhya.com/blog/2016/03/complete-guide-param...

2017-09-28 11:08:00 115

转载 面试编程总结

1.输入一棵二元查找树,将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点,只调整指针的指向。 10 / \ 6 14 / \ / \ 4 8 12 16转换成双向链表:4=6=8=10=12=14=16。思路:利用递归的思想求解,分别调整某结点的左右子树,调整完后,将该结点的左指针指向左子树的最大节点,右指针指向右子树的最...

2017-09-15 15:45:00 96

转载 深度学习在图像语义分割中的应用

深度学习在图像语义分割中的应用本文主要分为三个部分:图像的语义分割问题是什么分割方法的概述对语义分割方面有代表性的论文的总结什么是图像的语义分割?在计算机视觉领域,分割、检测、识别、跟踪这几个问题是紧密相连的。不同于传统的基于灰度、颜色、纹理和形状等特征的图像分割问题,图像语义分割是从像素级理解图像,需要确定图像中每个像素的对应的目标类别。如下图:除了识别出摩托车和骑摩...

2017-09-01 17:37:00 1693

转载 快速理解YOLO目标检测

YOLO(You Only Look Once)论文近些年,R-CNN等基于深度学习目标检测方法,大大提高了检测精度和检测速度。例如在Pascal VOC数据集上Faster R-CNN的mAP达到了73.2。而YOLO和SSD在达到较高的检测精度的同时,检测速度都在40FPS以上。这里主要对YOLO做简单介绍。整个YOLO的网络结构如图,前面20层使用了改进的GoogleNe...

2017-08-19 19:47:00 180

转载 Python logging记录日志

Python logging记录日志调试的几种方法:使用print()在控制台上输出使用assert断言使用logging模块logging提供了一组便利的函数,用来做简单的日志,(当然也能利用日志调试程序)。与使用print()相比,logging有以下的优势:你可以控制消息的级别,过滤掉那些并不重要的消息。你可决定输出到什么地方,以及怎么输出。logging...

2017-08-15 16:58:00 86

转载 gcc 相关总结 动态链接库

#include < >与#include " "#include < >:直接到系统指定的目录中去找头文件。#include " " :先在源文件所在文件夹寻找,再到系统指定的目录中去找头文件。gcc 常用命令GCC是GNU C Compiler 的简写,GCC现在已经支持多种语言的编译,是开放源代码领域应用最广泛的编译器,具有功能强大,编译代码支持性能...

2017-07-31 10:20:00 80

转载 目标检测之单步检测(Single Shot detectors)

目标检测之单步检测(Single Shot detectors)前言像RCNN,fast RCNN,faster RCNN,这类检测方法都需要先通过一些方法得到候选区域,然后对这些候选区使用高质量的分类器进行分类。这类方法的检测准确率比较高但是计算开销非常大,不利于实时检测和嵌入式等设备。另一类方法是将提取候选区和进行分类这两个任务融合到一个网络中。既不使用预定义的box也不使用候...

2017-07-03 21:31:00 1263

转载 目标检测之RCNN,fast RCNN,faster RCNN

RCNN:候选区生成(Selective Search)。分割成2000左右的候选小区域合并规则:颜色、纹理相近,尺度均匀,合并后形状规则特征提取。归一候选区尺寸为227×227,归一方法。使用在imageNet上的分类网络作为预训练网络,预训练网络输出4096维特征预训练网络加上全连接层在分类数据集上预训练每一类使用SVM分类器对预训练网络输出的4096...

2017-06-19 22:36:00 82

转载 Deep Learning for Chatbots(Introduction)

聊天机器人又被称为会话系统,已经成为一个热门话题,许多公司都在这上面的投入巨大,包括微软,Facebook,苹果(Siri),Google,微信,Slack。许多创业公司尝试通过多种方式来改变与消费者服务方式。许多公司希望开发对话机器人能够自然地和人进行交流,并且为了实现这个目标,很多公司声称使用了自然语言处理(NLP)和深度学习技术。但是很多时候对AI的夸大宣传,让人民很难分清事实和美...

2017-06-15 20:54:00 169

转载 GAN tensorflow 实作

从2014年Ian Goodfellow提出GANs(Generative adversarial networks)以来,GANs可以说是目前深度学习领域最为热门的研究内容之一,这种可以人工生成数据的方法给我们带来了丰富的想象。有研究者已经能够自动生成相当真实的卧室、专辑封面、人脸等图像,并且在此基础上做了一些有趣的事情。当然那些工作可能会相当困难,下面我们来实现一个简单的例子,建立一...

2017-06-05 11:38:00 178

转载 说说GAN(生成式对抗网络)

在Auto-encoder中,input data通过一个encoder神经网络得到一个维度的较低的向量,称这个向量为code,code经过一个decoder神经网络后输出一个output data。encoder 网络的作用是用来发现给定数据的压缩表示。decoder网络使原始输入的尽可能地相同的重建的表示。在训练时,decoder 强迫 auto-encoder选择最有信息量的特征...

2017-06-03 15:32:00 115

转载 卷积神经网络中的反向传播

卷积神经网络中的反向传播反向传播是梯度下降法在神经网络中应用,反向传播算法让神经网络的训练成为来可能。首先要弄清一点,神经网络的训练过程就是求出一组较好的网络权值的过程。反向传播的直观解释就是先用当前网络的权值计算结果,然后根据计算结果和真实结果的差值来更新网络的权值,使得计算结果和真实结果的差值越来越小。当然要想准确的理解反向传播,你需要知道:梯度的概念,梯度下降法,复合函数求导...

2017-05-29 16:57:00 627

转载 Kaggle 数据挖掘比赛经验分享(转)

原作者:陈成龙 https://github.com/ChenglongChen简介Kaggle于2010年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台。笔者从2013年开始,陆续参加了多场Kaggle上面举办的比赛,相继获得了CrowdFlower搜索相关性比赛第一名(1326支队伍)和HomeDepot商品搜索相关性...

2017-05-18 21:58:00 1172

转载 机器学习总结-sklearn参数解释

本文转自:lytforgood机器学习总结-sklearn参数解释实验数据集选取:1分类数据选取 load_iris 鸢尾花数据集from sklearn.datasets import load_irisdata = load_iris()data.data[[10, 25, 50]]data.target[[10, 25, 50]]list(data.target_n...

2017-05-16 21:52:00 1478

转载 机器学习总结-特征处理和特征选择

特征处理和特征选择统计特征加减平均:与均值进行比较。分位线:处于前百分之几。次序:排在第几位。比例:类目占比。购物推荐中的特征处理示例:加入购物车时间距当前的天数。-用户商品统计特征排除30天内从没买过商品的用户。-数据清洗在购物车里的商品,哪些会买,哪些不会买。-规则点击、加购物车、收藏的购买转化率。-用户商品统计特征自定义函数描述不同商品的当前热度。-商品...

2017-05-04 17:43:00 475

转载 机器学习总结-生成模型

生成模型假设训练集是(\(x_{i},y_{i}\)),i=1,2,3,...,N,对新输入的\(x\),要求对应的\(y\)是什么。判别模型是指求条件概率分布\(P(y|x)\)或者\(y=f(x)\),而生成模型需要先求联合分布\(P(x,y)\)。对二分类来说,由贝叶斯公式,给一个\(x\),它属于\(C_{1}\)的概率为:\[P(C_{1}|x)=\frac{P(x|C_...

2017-05-04 10:40:00 163

转载 word2vec

word2vec引入一篇文章、一段话、一个句子是由一个个单词按照某个顺序组合而成。在自然语言处理的过程中不可避免地要考虑如何用计算机来表示一个词。一种方法是One-hot Representation,即先将所有的词创建一个词库,并将每个词编号,然后词就用一个向量来表示,向量的长度与词库的大小相同,向量除了当前词编号的位置的分量为1外,其他位置分量都是0。这种表示方法简单,但是:1...

2017-04-23 10:55:00 108

转载 tensorflow variable scope 变量命名空间和变量共享

import tensorflow as tfdef f(): var = tf.Variable(initial_value=tf.random_normal(shape=[2])) return vara1=f()a2=f()with tf.Session() as sess: sess.run(tf.global_variables_initia...

2017-04-21 17:07:00 143

转载 用tensorflow搭建RNN(LSTM)进行MNIST 手写数字辨识

用tensorflow搭建RNN(LSTM)进行MNIST 手写数字辨识循环神经网络RNN相比传统的神经网络在处理序列化数据时更有优势,因为RNN能够将加入上(下)文信息进行考虑。一个简单的RNN如下图所示:将这个循环展开得到下图:上一时刻的状态会传递到下一时刻。这种链式特性决定了RNN能够很好的处理序列化的数据,RNN 在语音识别,语言建模,翻译,图片描述等问题上已经取得了很...

2017-04-12 20:16:00 424

转载 神经网络误差反向传播

神经网络的反向传播对于下面的神经网络,输入为\(x_1\),\(x_2\),\(x_3\),输出为\(y_1\),\(y_2\),\(y_3\),激活函数\(f\)为逻辑斯蒂函数即\(f=\frac{1}{1+e^{-z}}\),如何用梯度下降法求解呢?首先定义这里的损失函数:\(L(\theta)=\frac{1}{2}\sum_{i}{(y_i-\widehat{y_{i}})...

2017-04-12 17:51:00 244

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除