DataAlgo-优快云博客

1. crossed_column作用：对hash映射后的特征进行交叉2. 特征交叉的优势：在有些情况下，相比特征one-hot编码，会有更好的效果3. 参数说明：def crossed_column(keys, hash_bucket_size, hash_key=None):参数参数说明key可迭代的交叉特征hash_bucket_size一个int> 1.桶的数量。ont-hot的长度。hash_key指定将被使用的HASH_KEY Finge

2021-11-26 17:28:08 822

原创【feature_column处理】- indicator_column(指示列)和embedding_column(嵌入列)

1. 开胃菜我们先来了解一下tf.feature_column.input_layerdef input_layer(features, feature_columns, weight_collections=None, trainable=True, cols_to_vars=None, cols_to_output_tensors=None)

2021-11-25 19:19:05 1320

原创【feature_column处理】- bucketized_column分桶列

1. 在做特征处理的时候，我们不希望把一个数值直接传给模型，而是根据数值的范围对值分到不同的categories这个时候就用到了tf.feature_column.bucketized_column2.原理很简单，如图比如你对一个日期的特征要做处理，可以利用分桶的方式把它分到任意一个bucket里面给日期出分桶结果日期分桶表示1993[1, 0, 0, 0]2008[0, 1, 0, 0]2015[0, 0, 1, 0]2021[0, 0, 0, 1

2021-11-25 17:09:05 1614

原创【feature_column处理】- numeric_column数值列

1· 对于连续特征来说，feature_column里面用的最多的就是Numeric column这个函数了Numeric column函数是比较简单的，我们直接看函数defdef numeric_column(key, shape=(1,), default_value=None, dtype=dtypes.float32, normalizer_fn

2021-11-25 15:41:17 1736

原创【feature_column处理】- categorical_column_with_hash_bucket哈希列

categorical_column_with_hash_bucket哈希列，对于处理包含大量文字或数字类别的特征时可使用hash的方式，这能快速地建立对应的对照表分桶的方式，但这次分桶是根据hash的方式在有限的长度进行划分1. 比如：我们有120个单词，我们只希望分成100个类别，这个时候多出的20个怎么来划分？101: 101 % 100 = 1 标记1 —> 和1一个桶102： 102 % 100 = 2 标记2 —> 和2一个桶…120： 120 % 10

2021-11-24 16:57:08 1689

原创【feature_column处理】- categorical_column_with_vocabulary分类词汇列

1. 上个专栏我们聊过，categorical_column_with_identity可以将词汇转化为one-hot的embedding形式，但是需要先将词汇转化成数字，然后再做onehot处理上篇博客，了解一下https://blog.youkuaiyun.com/qq_31878083/article/details/121512300?spm=1001.2014.3001.55022. 分类词汇列categorical_column_with_vocabulary_listcategorical

2021-11-24 15:11:22 1555

原创【feature_column处理】- categorical_column_with_identity分类标识列

categorical_column_with_identity：把numerical data转乘one hot encoding但是该函数不直接对文本的list进行处理参数介绍：def categorical_column_with_identity(key, num_buckets, default_value=None):key：要求输入features是一个字典，key是特征名称，value表示特征值。num_buckets: 分桶的个数

2021-11-24 12:11:11 1166

原创 BatchNorm和LayerNorm的区别

BatchNorm：对一个batch-size样本内的每个特征做归一化LayerNorm：针对每条样本，对每条样本的所有特征做归一化简单举例：假设现在有个二维矩阵：行代表batch-size，列表示样本特征BatchNorm就是对这个二维矩阵中每一列的特征做归一化，也就是竖着做归一化LayerNorm就是对这个二维矩阵中每一行数据做归一化相同点：都是在深度学习中让当前层的参数稳定下来，避免梯度消失或者梯度爆炸，方便后面的继续学习**不同点：如果你的特征依赖不同样本的统计参数，那

2021-11-22 10:36:33 11317

原创 tornado实现mysql接口服务

利用python现成的tornado包封装http，调用http接口服务tornado就不过多做介绍了，一个轻量级别低HTTP服务如需安装直接pip install tornado我这里是简单的获取mysql数据，做简单处理，封装成get请求的服务#!/usr/bin/env pythonfrom __future__ import print_functionimport jsonimport pymysqlimport subprocessimport tornado.escap

2021-11-10 21:35:27 1285

原创 python的round函数遇到问题TypeError: Invalid argument, not a string or column:

python的round函数碰到这种问题TypeError: Invalid argument, not a string or column: 1.992 of type <type 'float'>. For column literals, use 'lit', 'array', 'struct' or 'create_map' function.很简单，加这个就可以了！import builtinsround = getattr(builtins, "round")...

2021-11-03 19:18:28 1892

原创 Spark-shell上运行sql命令报错 WARN metastore.ObjectStore

在spark-shell上运行sql语句，报错WARN metastore.ObjectStore: Failed to get database default, returning NoSuchObjectException刚开始在自己的IDEA上都可以编译成功sql部分的代码，没想到在client上翻了车。google了好一会才发现是因为spark上conf里面缺少hive配置文件。很简单，找到hive里conf的下hive-site.xml文件拷贝到spark的conf目录下cp h

2021-08-28 16:58:28 3397 2

原创 hive启动报错遇到的各种问题总结

首先你想自己搭建hadoop平台,可以按照我的上篇博客一步一步来,搭建好之后就可以安装Hive环境.手把手教你搭建你自己电脑的Hadoop平台安装Hive相对来说比安装hadoop轻松多了,但是有可能也会遇到以下这几种问题:1. java.sql.SQLException: Access denied for user ‘root’@‘localhost’ (using password: YES)这种情况的出现可能是因为你的mater上没有访问mysql的权限,这种比较好解决.进入你的mysql

2021-06-10 19:15:44 5705 1

DataAlgo

原创 pickle文件加载multiprocessing.manager.dictionary报错No such file or directory

原创 Spark连接redis问题 Caused by: java.io.NotSerializableException

原创 ImportError: cannot import name ‘backend_config‘ from ‘tensorflow.python.keras‘

原创大厂搜索相关文章汇总

原创京东搜索商品隐式建模的理解

原创 Transformer中Multi-Head的理解

转载训练集、验证集、测试集以及交叉验证的理解

原创 python实现JAVA的compare字符串对比

原创 conda问题CondaHTTPError: HTTP 000 CONNECTION FAILED for url ＜https://mirrors.tuna.tsinghua.edu.cn/anac

原创 Distribution object has no attribute convert_2to3_doctests问题

原创 tf.data.Dataset读取数据详细文档

原创【feature_column处理】- crossed_column交叉列

原创【feature_column处理】- indicator_column(指示列)和embedding_column(嵌入列)

原创【feature_column处理】- bucketized_column分桶列

原创【feature_column处理】- numeric_column数值列

原创【feature_column处理】- categorical_column_with_hash_bucket哈希列

原创【feature_column处理】- categorical_column_with_vocabulary分类词汇列

原创【feature_column处理】- categorical_column_with_identity分类标识列

原创 BatchNorm和LayerNorm的区别

原创 tornado实现mysql接口服务

原创 python的round函数遇到问题TypeError: Invalid argument, not a string or column:

原创 Spark-shell上运行sql命令报错 WARN metastore.ObjectStore

原创 hive启动报错遇到的各种问题总结

原创手把手教你搭建你自己电脑的Hadoop平台

原创 git超详细命令解析-创建自己的分支

原创谷歌双塔模型原理及Estimator实现

原创 yum问题YumRepo Error: All mirror URLs are not using ftp, http[s] or file.

转载面试的过程，太过真实。。。。。

原创 HIVE表不同分区数据处理

原创数据预处理笔记

原创标签传播(LPA)算法及python基于igraph包的实现

标签传播LPA

利用python进行数据分析

空空如也