自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 收藏
  • 关注

原创 Python多进程

多进程的目的还是为了提升cpu的处理效率multiprocessing Process start 启动进程 join 等待进程结束 案例一. 对列表分段求和 采用多进程 from multiprocessing import Process ,Pool import timeimport os import sys sys.path.append("/mnthis/qihao.huang/tools/") from utils impor...

2022-03-23 11:32:01 759

原创 机器学习中常见问题-特征选择

特征选择方法的三大类型 [1]:1.filter method :利用一些统计指标进行特征选择,和模型没有关系2.wrapper method:结合模型来做,每次加入或者减少特征看对模型的准确度是否有提升,如果有提升,那么就增加或者减少,所以需要不断构建模型来判断是否要加入特征3.embedded method:结合模型来做,和模型训练一起做,即模型训练完,特征就出来了;所以,wrapper method 要不断的构建模型,花费的资源是比较多的!filter的部分方法...

2020-06-12 17:47:38 1152

原创 机器学习常见问题 - 类别变量处理

类别变量类型:Nominal: 红,黄,蓝 Ordinal,高,中,低连续变量:1.1,2.1,1.3,1.4类别变量问题的一些挑战类别数量很多,但是每个类别的样本不多,例如“城市” 一些机器学习模型,例如回归或者SVM 需要输入是数值型的,类别需要先转化成数值才能应用这些算法 对于机器来说,不一定能轻松理解一些人理解的信息,例如 北京,上海,杭州三个城市,人可以知道上海到杭州更近点,但是对于模型来说,仅仅代表三个不同的level,所以需要增加一些额外的信息。几种处理方法:..

2020-06-12 15:13:31 3359

原创 读DCGAN文章

主要是建立了CNN 和 GAN 之间的联系,从没有标签的数据中抽取有用的特征很重要,可以作为下游分类任务的输入。GAN在提取图片表征方面有很好的效果,但是训练不稳定,经常生成无意义的图片。 这篇文章主要有如下几点贡献: 提出的Convolutional GANs 可以使得GAN训练更加稳定 用训练的D来用于图片分类任务,跟其他一些无监督算法相比较中表现比较出色 从GANs中学到的filter并显示特定的filter能够识别特定的对象 G的一些向量属性可以控制生成的样例的质...

2020-06-11 11:51:18 312 3

原创 读InfoGan文章

InfoGan,是在GAN是用到了信息论的算法,能够通过非监督的方式学习到特征的含义。非监督学习是ill-posed(解是不唯一的),因为在训练的时候,下游的任务是未知的,如果能从数据样本的找到代表的特征,那么对于那些位置的任务也是非常有帮助的,例如对在一些人脸的数据集上,有用的disentagled representation可能会有不同的维度来表示人脸,眼睛的颜色,发型,是否带眼镜等。我们希望一个好的生成模型能够自动的学习到disentagled representation。最重要的生成模型...

2020-06-09 18:11:28 275

原创 读CycleGAN文章

这篇文章信息量有点大!文章的标题叫做Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks这里的unpaired 指的就是两个不同domain的图片集,不是配对的,不是一一对应的,是无序的,实际上,现实中配对的数据并不容易获得,所以CycleGAN 是无监督的!例如,斑马转化为马,夏天风景转换为冬天的风景。摘要部分: 主要提到了cycle consisten...

2020-06-03 16:56:44 346

原创 读CGAN文章

refer:https://arxiv.org/pdf/1411.1784.pdf

2020-06-01 14:29:46 423

原创 读GAN文章

1.直接丢上算法细节包括生成器G 和 判别器D 首先训练D(红色框部分),D来判别一个数据是真实数据的概率,值越大,说明D的输入X为真实数据的概率越大。对于D来说,有两个输入, 真实数据样本,即算法中提到的x(1),x(2),... G生成的数据,即算法中提到的z(1),z(2) 那么D就需要使得D(x)越大越好; 使得D(G(z))越小越好,1-D(G(z)) 越大越好,所以采用了梯度上升的方法去更新D的参数 再者训练G(蓝色框部分),当D固定的时候,G生成的数据需要骗过D,骗这

2020-05-21 13:44:16 210

原创 读Transformer

transformer 是在文章 attention is all you need 中提出的,在机器翻译中,transformer的输入是一种语言,输出是另外一种语言。 transformer包含两部分:encoders 和 decoders , 这种结构就是常见的seq2seq模式,不同在于encoder 和 decoder 的结果。其中encoders 和 decoders 各自采用了6个encoder单元和6个decoder单元encoders 部分 6个encode...

2020-05-19 13:59:05 223

原创 读ELMO文章

全称是Embeddings from Language Models,从语言模型中学习到词向量。word2vec训练出的词向量有一个问题,一个词只有一个embbeding,实际上一个词会有多个含义,例如 苹果,可以代表水果,也可以代表手机,那么具体表示哪个可以根据上下文的语义来推测,这也是ELMO模型要解决的关键问题。模型:1.双向语言模型双向体现在,使用双向的LSTM模型 语言模型体现在Ngram模式 p(tk | t1,t2,...,tk-1)目标log似然函数为:...

2020-05-13 18:21:23 225

原创 读Attention文章2

本文引入了self-attention,在句子层面,通过一个2维的矩阵来表示,之前是通过一个向量来表示(例如用RNN把句子压缩成一个固定的向量),这里的矩阵每行是捕获句子中不同的部分,另外在模型中提出了一个惩罚项。简介部分:当前获得词向量包含两种类型的方法:1. 基于全局的语料库,用非监督的算法进行训练2. 在做特定的任务的时候,利用监督学习做分类任务,顺便产生了词向量。通常这种方法效果比第1种类型的方法更好。一些模型利用RNN 和 CNN 作为一个分类或者排序任务中的中间步骤...

2020-05-11 09:48:35 356

原创 读Attention文章1

简介部分:对于机器翻译,之前的做法就是把输入压缩成一个向量,然后对这个encode后的向量进行decode,这种方法处理长句子比较难,尤其当句子的长度长于训练集中的语料库 本问提出的模型,当翻译生成一个词语的时候,我们在输入的序列中找到与目标词y(t)最相关的信息,模型预测目标基于这些位置信息的上下文的语义向量 以及 已预测出来的词(y1,y2,...,y(t-1) ) 共同进行。 本文...

2020-05-08 16:57:54 300

原创 读sequence to sequence 文章

文章中首先提到DNN,不能解决sequence2sequence的问题,这篇文章主要是用了多层的LSTM,把输入映射到一个固定的维度,然后再用另外一个LSTM,从这固定的向量去还原目标。这里采用了英文到发文的翻译,采BLEU来度量效果refer:Sequence to Sequence Learning with Neural Networks Goog...

2020-05-02 10:26:12 231

原创 读TextRCNN文章

refer:https://arxiv.org/pdf/1605.05101.pdfRecurrent Neural Network for Text Classification with Multi-Task Learning

2020-04-28 17:27:25 298

原创 读CharCNN文章

charcnn 顾名思义,对于一段文本来说,我们以字符作为最小单位,而不是词语了。对于中文来说,我的名字叫做推推,那么到字符级别的话,该句子的构成为[我,的,名,字,叫,做,推,推] ,而不是 [我的,名字,叫做,推推]1.字符的量化对于英文来说,常见的包括26个英文字母,10个阿拉伯数字,还有33个标点符号,还有1个新的字符。 对于每个字符来说,可以用one-hot表示,...

2020-04-27 22:12:36 326

原创 读TextCnn文章

TextCnn,顾名思义,就是将卷积神经网络应用在文本领域!1.模型示意图输入是一个n*k的矩阵,n表示一个句子切分后的序列,k表示每个词的词向量的维度 ,即 input -> hidden layer 通过权重矩阵h*k大小的W,W就是CNN中的filter,k是固定的,在词序列方向进行滑动,求卷积;然后加一个bias后做非线性激活,即 对于序列长度为n,filter...

2020-04-26 15:52:49 304

原创 读FastText文章

这篇博客主要针对Bag of Tricks for Efficient Text Classification文章的一些理解。主要是介绍FastText算法是速度多块,通过标签预测和情感分析两个任务来说明。1. 模型的结构,文章中给出了这样的图上图注解中提到,x1,x2,,xN都是一个词向量,那么hidden是对N个词的词向量求平均,那么具体怎么计算呢?这个图不是非常直观...

2020-04-25 22:50:56 603

原创 spark机器学习-常见函数使用(pyspark版)

参考spark机器学习 基于pycharm进行开发,pyspark安装见上篇博文 数据集包含的字段为:id,年龄,性别,职业,邮编from pyspark import SparkContext,SparkConf#conf = SparkConf().setAppName("test").setMaster("local")sc = SparkContext(conf=conf)...

2020-04-22 11:07:14 266

原创 MAC本地搭建spark

pyspark安装pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple求和from pyspark import SparkContext,SparkConf#conf = SparkConf().setAppName("test").setMaster("local")sc = SparkConte...

2020-04-21 22:18:29 404

原创 Pytorch autoencoder降维

1. 我们一般面对的数据是numpy array的格式,如何转变为支持batch_size,shuffle等功能的数据集呢,pytorch 采用DataLoader类来实现,参考源码# DataLoader 类的构造函数def __init__(self, dataset, batch_size=1, shuffle=False, sampler=None, ...

2020-04-14 22:17:05 5713 2

原创 Isolation Forest 孤立森林的理解

1.基本原理篇直觉上:我们递归构建随机划分树,所有实例均被划分即构建完毕;异常值,比较早的被划分,在树中路径长度比较短。论文中,提到了一个测试,如下图 从高斯分布中随机生成135个点,上图中正常点xi需要12次随机的划分,而异常的点x0只需要4次划分。 树的数量与xi,x0两个点平均划分长度的关系,可以看到随着树的增加,正常点和异常点的划分路径长...

2020-04-14 21:59:16 974

原创 Python发邮件的关键点

话不多说,能否发送成功,主要在于密码设置是否正确!这里拿163邮箱来说,需要用到安全密码,而不是邮箱的登录密码:安全密码如何获得?结束!放上代码,具体参数解释的很详细了~import smtplibfrom email.mime.text import MIMETextfrom email.header import Headerdef send_mail(conte...

2020-04-07 21:15:49 257

原创 pytorch-利用LSTM做股票预测

1.获取数据import tushare as ts# 获取代号为000300的股票价格cons=ts.get_apis()df=ts.bar('000001', conn=cons, asset='INDEX', start_date='2018-01-01', end_date='')2. 对于获取的数据按日期进行升序排列,因为我们要通过历史的情况预测未来的情况df=...

2020-04-05 01:01:34 15398 20

原创 RNN的几种结构

Elman Network & Jordan Network Bidirectional RNN LSTM

2020-04-02 13:37:05 374

原创 Pytorch-基于colab对中文评论使用LSTM进行情感分析

之前由于在本机mac中训练验证码识别,导致mac后来的使用有点卡,另外囊中羞涩,所以考虑用google的colab进行训练关于google的colab的使用,一般包含两个方面: google的云盘:https://drive.google.com/ colab:https://colab.research.google.com/notebooks/intro.ipynb ...

2020-04-01 15:05:18 1415

原创 Pytorch-识别法院失信、执行验证码图片

爬虫的时候遇到一些图片形式的验证码,比如数字字母组合,通过CNN我们可以训练一个模型,进行识别;下面是针对法院失信、执行的验证码,准确率达到90%+,基本够用。先看下效果吧!import torchfrom torch.autograd import Variableimport numpy as npfrom PIL import Imagefrom torchvisi...

2020-04-01 13:43:54 432 3

原创 Python中异常值,单一值,重复值,缺失值的处理

重复值,输入为DataFrame,检测是否有重复的行以及删除重复的行class Duplicated(): def __init__(self,df,subset=None,keep='first',inplace=False): self.subset=subset if isinstance(self.subset, list) and len...

2020-04-01 12:20:54 1182

原创 Python递归解析同盾返回的json数据

{ '_index': 'td_fqz_data', '_type': '_doc', '_id': 'WF2020022014185100155885', '_score': None, '_source': { 'gmt_create': '2020-02-20 14:18:51', 'id_number': '33049319920423****', 'result_desc': { 'ANTIFRAUD': { 'final_score': 237, 'r

2020-03-27 00:22:12 729

原创 Spark同步mysql数据到hive

第一步:从maven中下连接mysql的jar包第二步:spark2-shell --jars mysql-connector-java-8.0.15.jar第三步:// scala 版val df = spark.read.format("jdbc").option("url", "jdbc:mysql://rr-bp1d22ltxgwa09g44720.mysql.rds.a...

2020-03-26 23:57:37 2648

原创 Python生成pmml文件

什么是pmml predictive model markup language 预测模型标记语言 1997年7月提出 xml格式 通用性(跨平台)、规范性(规范化模型描述语言)、异构性(xml本身的异构性)、独立性(独立于数据挖掘工具和)、易用性(编辑xml文档) fit / transform / fit_transform的区别 fit:从数据中生成参数 tra...

2020-03-26 23:38:08 3939 1

原创 Spark统计DataFrame每列的缺失率

// scala 版本import org.apache.spark.sql.functions.col// tax_info 为一个dataframeval columns=tax_info.columnsval cnt=tax_info.count()// 统计每列的缺失记录数val missing_cnt=columns.map(x=>data.select(co...

2020-03-24 17:04:59 2905

原创 pytorch的Tensor基础操作

一.数据类型64位整型:torch.LongTensor32位整型:torch.IntTensor16位整型:torch.ShortTensor64位浮点型:torch.DoubleTensorimport torchimport numpy as npfrom torch.autograd import Variablex0=torch.tensor([1,2,3,4]...

2019-12-25 16:46:28 343

原创 pytorch实现逻辑回归训练

! 比较简单,直接上代码import torchimport torch.nn as nnimport torch.optimfrom torch.autograd import Variablefrom sklearn import datasetsimport numpy as np#### 读取iris数据iris=datasets.load_iris()x,y...

2019-12-25 14:53:16 481 1

原创 利用fasttext对短信内容进行分类

一.样本说明:共1405506条记录,其中逾期的为486996条记录,非逾期的为486996条 包含两个字段 tag (标识是否逾期) ,message(短信内容) 实际训练样本(non_overdue: 641065, overdue: 340783) 实际测试样本(non_overdue: 274660, overdue: 146132) 目标:根据短信内容,预测类别是否逾期二...

2019-04-10 15:50:13 434

原创 机器学习中上(过)、下(欠)采样的方法

过采样:smote假设有两个class:class1 和 class2 ,其中class1样本数少 从class1中随机选择一个点C,找到该点的K个邻居 从K个邻居中随机选择一个点C_ne 连接C与C1,在C与C_ne的连线上生成新的点C_new 重复1-4 M步骤,可构造M个点from sklearn.datasets import make_classificationfr...

2019-04-04 13:55:13 2306

原创 集成学习概念与python代码实现

bootstrap来自短语to pull oneself up by one,不靠外界力量,也称为自助 重采样技术,用于统计推断,估计样本分布 有放回采样,抽样的数据和原始数目一样 1/3袋外比例 (1-1/n)^n =0.368jacknife瑞士小刀 不涉及放回问题 若X=(x1,x2,...,xn), 则jacknife样本为X_i=(x1,...x_i-1,x_i+1...

2019-04-03 13:47:23 417

原创 python与mysql、hbase、mongodb等数据源交互

一.ssh登录堡垒机 import paramikossh=paramiko.SSHClient()ssh.set_missing_host_key_policy(paramiko.AutoAddPolicy()) # 跳过了远程连接中选择'是'的环节,ssh.connect('192.168.19.****', 22, 'app', '****')stdin, stdo...

2019-04-01 18:27:48 954

原创 异常值识别方法小结

总览:编号 方法 1 经验判断 2 3σ 3 dbscan 4 lof 5 isolation tree 6 one class svm 一. 经验判断X={x1,x2,...,xn}IQR=0.75 分位数 - 0.25 分位数outlier_min=0.25分位数-1.5IQRou...

2019-04-01 18:21:56 3822

原创 jieba、pyltp、百度api三种方式分词效果比较

一.几种分词方式参考文档:1.百度api:https://cloud.baidu.com/doc/NLP/NLP-API/12.5C.E7.AE.80.E4.BB.8B.html这里需要说明一点:调用api的时候需要拿到acess_token(而acess_token的获得需要通过申请的api key 和 secret key发送http请求获得);我这里是通过官网介绍的方式之一bash来...

2019-01-11 14:26:10 8828

原创 统计-均匀分布生成其他分布的两种方法

 一.求逆法: 二.舍弃法: 三.python实现,通过从均匀分布中抽样,模拟其他分布的样本# 求逆法,需要原函数的逆函数比较容易求得import numpy as npimport matplotlib.pyplot as pltuniform_data=np.linspace(0,1000,10000)# 针对连续型密度函数 3*x^2 ...

2018-09-25 14:46:39 8343 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除