明子哥哥-优快云博客

原创图网络学习理论和实践(deepwalk,node2vec,metapath2vec,EGES)

本文主要记录一些经典的基于随机游走Graph Embedding方法，以及自己的一些实践经验。引言在NLP领域，关于如何对词进行更好的表示，有许多研究者进行了深入的研究。a. 独热表示（one-hot representation）将每一个表示成一个N维（N是词表大小）的向量，其中只有当前词对应的维度为1，其他为零。一般来说词表会比较大（至少是十万量级），因此高维稀疏的表示会导致维数灾难。还有一个重要的问题是，独热表示无法描述词与词之间的相似性，也就是我们常说的语义鸿沟。b. 分布式表示（dist

2020-07-23 14:33:51 1954

原创 tensorflow设置部分参数可训练，冻结部分参数

需求：在利用bert进行训练时，需要指定模型中的部分参数不训练方法：设置一个可训练的变量list代码：update_var_list = [] #该list中的变量参与参数更新tvars = tf.trainable_variables()for tvar in tvars: if "bert" not in tvar.name: update_var_list.append...

2019-12-16 20:04:40 5693 2

原创 Bert实战之文本分类（附代码）

1、概要Bert 是 Google 在 2018 年 10 月提出的一种利用大规模语料进行训练的语言模型，其通过Mask LM和sentence-level这两个子任务进行预训练。2、Bert怎么用2.1 fine-tune（微调）通过加载预训练好的 Bert 模型，将我们自己任务的数据集输入给该模型，在源网络上继续训练、不断更新模型的权重，最后得到一个适用于自己任务的模型。2.2 f...

2019-12-16 17:44:34 4674

原创 tensorboard可视化训练之train_loss和eval_loss放在同一曲线图中

在进行模型训练时，需要同时将训练loss曲线和测试loss曲线显示在一个曲线图中，便于观察网络训练情况（是否过拟合、欠拟合）。方法：train_writer = tf.summary.FileWriter(FLAGS.log_dir+'train', sess.graph)eval_writer = tf.summary.FileWriter(FLAGS.log_dir+'eval') #注...

2019-11-26 11:26:32 7016 6

原创计算三个经纬度坐标的夹角

import mathdef geo2xyz(lat, lng, r=6400): ''' 将地理经纬度转换成笛卡尔坐标系 :param lat: 纬度 :param lng: 经度 :param r: 地球半径 :return: 返回笛卡尔坐标系 ''' thera = (math.pi * lat) / 180 fie = (math.pi * lng) / 180 x = r * math.cos(thera) * m

2021-06-07 19:29:01 4449 2

原创 IKBC-DC87无线连接方法

http://www.ikbc.com.cn/Private/Files/5e5d21653dcd42e49de245ede7dc548e.pdf

2021-05-27 21:37:49 12492

原创 pyspark获取HIVE表中最新dt

获取通用最新dtdf = sqlContext.table("mart_xdata.pickup_published")df_dates = df.select('dt').distinct().orderBy(df['dt'].desc())lat_date_dict=df_dates.first().asDict()lat_dt=lat_date_dict['dt']

2021-03-03 16:51:52 634 1

原创相关性分析-皮尔森、斯皮尔曼肯德尔相关性系数

def person_func(x,y): """ 1. person correlation coefficient（皮尔森相关性系数）皮尔逊相关系数通常用r或ρ表示，度量两变量X和Y之间相互关系（线性相关） (1)公式皮尔森相关性系数的值等于它们之间的协方差cov(X,Y)除以它们各自标准差的乘积(σX, σY)。 (2)数据要求 a.正态分布它是协方差与标准差的比值，并且在求皮尔森相关性系数以后，通常还会用t检

2021-01-28 15:31:19 4161

原创深度学习中常用乘法矩阵乘、点乘、内积

1. 矩阵乘：tensorflow: y=tf.matmul(w,x)numpy: y=np.dot(w,x)2. 外积（out product）:对应元素相乘别称：点乘，哈达码积hadamard producttensorflow: y=tf.multiply(w, x); y=w * xnumpy: y = w * x3. 内积（inner product）：对应元素相乘相加别称：数量积（scalar product）y=tf.reduce_sum(tf.multipl

2020-09-09 15:21:37 7310 1

原创 word2vec学习资料理论和代码注释

记录几个比较还不错的学习资料关于word2vec，我有话要说原版word2vec代码详解python版word2vec原版word2vec注释

2020-06-24 15:34:18 205

原创 PySpark计算TF-IDF

tf-idf是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。1. TF在一份给定的文件ddd里，词频（term frequency，tf）指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数（term count）的归一化，以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词数，而不管该词语重要与

2020-05-25 20:40:15 2701

原创 pyspark批量生成tfrecord文件

人狠话不多，直接上代码！from pyspark import SparkConffrom pyspark.sql import SparkSessionfrom pyspark.sql import HiveContextfrom pyspark.sql import Rowfrom pyspark import SparkFilesfrom pyspark.sql.types im...

2020-04-30 16:46:47 2491

原创 Python多进程进行文件预处理

目录1.利用map函数2.数据分片3.文件分片1.利用map函数from multiprocessing import Pooldef process_func(line): # TODO # 处理逻辑 return resultwith open(all_file,'r') as f: lines = f.readlines()...

2020-04-07 19:56:12 964

原创 query纠错实战之seq2seq

TODO

2020-01-17 11:13:06 1793

原创 pyspark将RDD转成dict

在日常的数据处理过程，需要生成一个dict。词典数据来源主要有有：HIVE表、HDFS上的文件。1. 从HIVE表读数据并转成dictfrom pyspark import SparkContextfrom pyspark.sql import HiveContext,SparkSessionsc = SparkContext()sql_context = HiveContext(sc...

2020-01-17 11:03:49 3882

原创 TensorFlow LSTM 优化, 不同LSTM实现的效率对比

TensorFlow LSTM benchmark深度学习库中不同LSTM实现的效率对比Tensorflow API

2019-12-18 11:08:29 1661

原创 PySpark自定义udf

from pyspark import SparkContextfrom pyspark.sql import HiveContextfrom pyspark.sql.functions import udfsc = SparkContext()sql_context = HiveContext(sc)def udf_1(input): ''' Do something '''...

2019-11-27 10:48:57 541

原创 [tensorflow Debug]ValueError: Cannot create a tensor proto whose content is larger than 2GB

问题1:ValueError: Cannot create a tensor proto whose content is larger than 2GB.解决方法：利用placeholder以及assign方法。参考import tensorflow as tfimport numpy as npw_init = np.random.randn(2**22, 256).astype...

2019-11-25 18:03:41 865

原创 Docker安装及使用记录

安装方法：MacOS Docker 安装1.拉取镜像：# 安装最新版本tf_servingdocker pull tensorflow/serving:latest-devel# 安装指定版本tf_servingdocker pull tensorflow/serving:1.10.0其他常用命令：https://blog.youkuaiyun.com/feilzhang/article/d...

2019-11-25 11:58:24 552

原创 Docker部署TF_serving模型记录

docker部署TF_serving模型记录一、训练保存模型方法1.1定义模型输入输出1.2保存模型二、利用docker部署模型启动tf_serving服务三、 python调用本文主要介绍了以tf_serving方式部署模型的方法，Java部署tensorflow的方法详见：【java加载tensorflow训练的PB模型记录】一、训练保存模型方法1.1定义模型输入输出# 输入qu...

2019-11-25 11:42:04 1036

原创 java加载tensorflow训练的PB模型记录

java加载tensorflow训练的PB模型记录python训练1. 模型的输入输出定义2. 训练时保存模型的方法java加载模型1.maven依赖tensor注意事项：python训练1. 模型的输入输出定义# 输入：query_holder = tf.placeholder(tf.int32,[None,None],name='input_query')dropout = tf.p...

2019-11-20 21:11:10 2361

原创【读论文】Hash Embeddings for Efficient Word Representations

abstractHash Embedding可以看作是普通word embedding 和通过随机hash 函数得到的词嵌入的interposition (插补)。在Hash Embedding中，每个token由k个d维embedding vectors和一个k维weight vector表示，token的最终d维表示是两者的乘积。实验表明，Hash Embedding可以轻松处理包...

2019-11-20 20:21:18 1257

mingo220的博客