- 博客(31)
- 资源 (2)
- 收藏
- 关注
原创 pickle文件加载multiprocessing.manager.dictionary报错No such file or directory
pickle文件加载multiprocessing.manager.dictionary报错No such file or directory
2022-09-29 15:56:35
683
原创 Spark连接redis问题 Caused by: java.io.NotSerializableException
Spark连接redis问题 Caused by: java.io.NotSerializableException
2022-09-13 19:10:00
1260
1
原创 ImportError: cannot import name ‘backend_config‘ from ‘tensorflow.python.keras‘
ImportError: cannot import name 'backend_config' from 'tensorflow.python.keras'
2022-08-19 14:47:32
2427
原创 conda问题CondaHTTPError: HTTP 000 CONNECTION FAILED for url <https://mirrors.tuna.tsinghua.edu.cn/anac
anaconda常见问题
2021-12-21 17:53:09
15588
3
原创 Distribution object has no attribute convert_2to3_doctests问题
Distribution object has no attribute convert_2to3_doctests
2021-12-21 10:57:26
3543
5
原创 【feature_column处理】- crossed_column交叉列
1. crossed_column作用: 对hash映射后的特征进行交叉2. 特征交叉的优势: 在有些情况下,相比特征one-hot编码,会有更好的效果3. 参数说明:def crossed_column(keys, hash_bucket_size, hash_key=None):参数参数说明key可迭代的交叉特征hash_bucket_size一个int> 1.桶的数量。ont-hot的长度。hash_key指定将被使用的HASH_KEY Finge
2021-11-26 17:28:08
822
原创 【feature_column处理】- indicator_column(指示列)和embedding_column(嵌入列)
1. 开胃菜我们先来了解一下tf.feature_column.input_layerdef input_layer(features, feature_columns, weight_collections=None, trainable=True, cols_to_vars=None, cols_to_output_tensors=None)
2021-11-25 19:19:05
1320
原创 【feature_column处理】- bucketized_column分桶列
1. 在做特征处理的时候,我们不希望把一个数值直接传给模型,而是根据数值的范围对值分到不同的categories这个时候就用到了tf.feature_column.bucketized_column2.原理很简单,如图比如你对一个日期的特征要做处理,可以利用分桶的方式把它分到任意一个bucket里面给日期出分桶结果日期分桶表示1993[1, 0, 0, 0]2008[0, 1, 0, 0]2015[0, 0, 1, 0]2021[0, 0, 0, 1
2021-11-25 17:09:05
1614
原创 【feature_column处理】- numeric_column数值列
1· 对于连续特征来说,feature_column里面用的最多的就是Numeric column这个函数了Numeric column函数是比较简单的,我们直接看函数defdef numeric_column(key, shape=(1,), default_value=None, dtype=dtypes.float32, normalizer_fn
2021-11-25 15:41:17
1736
原创 【feature_column处理】- categorical_column_with_hash_bucket哈希列
categorical_column_with_hash_bucket哈希列,对于处理包含大量文字或数字类别的特征时可使用hash的方式,这能快速地建立对应的对照表分桶的方式,但这次分桶是根据hash的方式在有限的长度进行划分1. 比如:我们有120个单词,我们只希望分成100个类别,这个时候多出的20个怎么来划分?101: 101 % 100 = 1 标记1 —> 和1一个桶102: 102 % 100 = 2 标记2 —> 和2一个桶…120: 120 % 10
2021-11-24 16:57:08
1689
原创 【feature_column处理】- categorical_column_with_vocabulary分类词汇列
1. 上个专栏我们聊过,categorical_column_with_identity可以将词汇转化为one-hot的embedding形式,但是需要先将词汇转化成数字,然后再做onehot处理上篇博客,了解一下https://blog.youkuaiyun.com/qq_31878083/article/details/121512300?spm=1001.2014.3001.55022. 分类词汇列categorical_column_with_vocabulary_listcategorical
2021-11-24 15:11:22
1555
原创 【feature_column处理】- categorical_column_with_identity分类标识列
categorical_column_with_identity:把numerical data转乘one hot encoding但是该函数不直接对文本的list进行处理参数介绍:def categorical_column_with_identity(key, num_buckets, default_value=None):key: 要求输入features是一个字典,key是特征名称,value表示特征值。num_buckets: 分桶的个数
2021-11-24 12:11:11
1166
原创 BatchNorm和LayerNorm的区别
BatchNorm: 对一个batch-size样本内的每个特征做归一化LayerNorm: 针对每条样本,对每条样本的所有特征做归一化简单举例:假设现在有个二维矩阵:行代表batch-size, 列表示样本特征BatchNorm就是对这个二维矩阵中每一列的特征做归一化,也就是竖着做归一化LayerNorm就是对这个二维矩阵中每一行数据做归一化相同点: 都是在深度学习中让当前层的参数稳定下来,避免梯度消失或者梯度爆炸,方便后面的继续学习**不同点:如果你的特征依赖不同样本的统计参数,那
2021-11-22 10:36:33
11317
原创 tornado实现mysql接口服务
利用python现成的tornado包封装http,调用http接口服务tornado就不过多做介绍了,一个轻量级别低HTTP服务如需安装直接pip install tornado我这里是简单的获取mysql数据,做简单处理,封装成get请求的服务#!/usr/bin/env pythonfrom __future__ import print_functionimport jsonimport pymysqlimport subprocessimport tornado.escap
2021-11-10 21:35:27
1285
原创 python的round函数遇到问题TypeError: Invalid argument, not a string or column:
python的round函数碰到这种问题TypeError: Invalid argument, not a string or column: 1.992 of type <type 'float'>. For column literals, use 'lit', 'array', 'struct' or 'create_map' function.很简单,加这个就可以了!import builtinsround = getattr(builtins, "round")...
2021-11-03 19:18:28
1892
原创 Spark-shell上运行sql命令报错 WARN metastore.ObjectStore
在spark-shell上运行sql语句,报错WARN metastore.ObjectStore: Failed to get database default, returning NoSuchObjectException刚开始在自己的IDEA上都可以编译成功sql部分的代码, 没想到在client上翻了车。google了好一会才发现是因为spark上conf里面缺少hive配置文件。很简单,找到hive里conf的下hive-site.xml文件 拷贝到spark的conf目录下cp h
2021-08-28 16:58:28
3397
2
原创 hive启动报错遇到的各种问题总结
首先你想自己搭建hadoop平台,可以按照我的上篇博客一步一步来,搭建好之后就可以安装Hive环境.手把手教你搭建你自己电脑的Hadoop平台安装Hive相对来说比安装hadoop轻松多了,但是有可能也会遇到以下这几种问题:1. java.sql.SQLException: Access denied for user ‘root’@‘localhost’ (using password: YES)这种情况的出现可能是因为你的mater上没有访问mysql的权限,这种比较好解决.进入你的mysql
2021-06-10 19:15:44
5705
1
原创 手把手教你搭建你自己电脑的Hadoop平台
划重点: 如果你想在自己的电脑上搭建hadoop平台, 前提你得先部署好虚拟机.比如你用VMmare工具在自己电脑上部署三台虚拟机,操作系统是CentOS三台机器分别是分别是:master 192.168.100.1slave1 192.168.100.2slave2 192.168.100.3⭐️ 现在就开始我们的搭建hadoop平台过程1. 下载hadoop源码包hadoop源码包下载2. 分别关闭三台机器的防火墙,为了让三台机器之间保持通信```bashroot账户下
2021-06-08 20:55:01
2194
3
原创 git超详细命令解析-创建自己的分支
背景不管是使用公司的gitlab还是开源的github都涉及到一些git命令,接下来就跟大家详细解析一下最最最最最常用的git命令和环境.gitlab为例首先公司gitlab的一项工程代码,需要很多人一起维护,所以线上master代码是线上正式环境代码,大家都不应该去轻易直接去更改master代码.首先应该创建自己的分支 1 clone工程代码到本地 git clone 项目地址 2 在本地新建分支 git branch 分支name 3 切换到自己刚建好的分支 git checkou
2021-06-07 18:59:02
4294
原创 yum问题YumRepo Error: All mirror URLs are not using ftp, http[s] or file.
yum问题YumRepo Error: All mirror URLs are not using ftp, http[s] or file.
2021-04-01 17:32:51
503
转载 面试的过程,太过真实。。。。。
来源:https://www.zhihu.com/question/31225105/answer/582508111人们都说,这个世界上有两种人注定单身,一种是太优秀的,另一种是太平凡的。我一听 呀?那我这岂不是就不优秀了吗,于是毅然决然和女朋友分了手。人们都说,互联网寒冬来了,这个时候还在大面积招人的公司,必然是牛逼的公司。而这个时候勇敢跳槽的人,必然是牛逼的人。于是2019年1月25...
2019-03-12 17:50:54
911
原创 HIVE表不同分区数据处理
HIVE表处理数据的时候可能会遇到这种问题:找出一张表中的两个分区的数据,做相应的处理(加减乘除等逻辑运算),其实有很多种方法,比如先将一张表的两个不同的分区找出来做处理,或者用条件判断做处理等等。比如一张表:table_name中字段id,time和分区type=liist_1/list_2如果先将两张表中的分区找出来做join:select table_a.id,table_a.tim...
2018-10-17 11:22:59
2175
原创 数据预处理笔记
1.数据质量的定义:准确性、完整性、一致性、时效性、可信性和可解释性。 2.数据清理:填补缺失的值,光滑噪声同时识别离群点,纠正数据的不一致性。 填补缺失值的方法: 1)忽略元祖(缺少类标号的时候通常可以这样做); 2)人工填写缺失值(费时费力); 3)使用一个全局常量填充缺失值(方法简单但可靠性差); 4)使用属性的中心度量填充缺失值(使用均值或者中位数填充); 5)使用与给定元祖属
2016-08-31 10:56:09
604
原创 标签传播(LPA)算法及python基于igraph包的实现
LPA标签传播算法是由Usha Nandini Raghavan等人在2007年提出的。是一种半监督聚类算法;它在聚类算法中的特点是聚类速度快,但聚类结果随机。 其算法的过程如下:(http://img.blog.youkuaiyun.com/20160708150803354)其过程比较简单:1.为所有节点指定一个唯一的标签;2.逐轮刷新所有节点的标签,直到达到收敛要求为止。对于每一轮刷新,节
2016-07-08 15:06:19
11779
7
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人