瑾明达2号-优快云博客

转载推荐系统常用名词

1. 播放类指标VV(Video View，播放数)，是指在一个统计周期内，视频被打开的次数之和。 CV(Content Views，内容播放数)，是指在一个统计周期内，视频被打开，且视频正片内容（除广告）被成功播放的次数之和。由于用户在广告播放的时候流失，所以CV＜VV。2. 浏览类指标PV(Page View，浏览量)，是指在一个统计周期内，浏览页面的数之和。 UV(Unique Visitor，访客数)，是指在一个统计周期内，访问网站的人数之和。其中，PV的统计方式很容易理解，通常

2021-08-09 11:08:42 559 1

原创 shell中循环日期的程序

#!/bin/bashbegin_date="20210701"end_date="20210715"while [ "$begin_date" -le "$end_date" ];do echo ${begin_date} begin_date=$(date -d "${begin_date}+1days" +%Y%m%d)done在服务器中是可以的，在macos中不可以

2021-07-19 18:06:17 368

原创批量将python文件的缩进由2空格转4空格？

安装autopep8pip install autopep8mac下：brewinstall autopep8autopep8 --in-place --aggressive --aggressive <filename>

2021-07-09 16:44:48 522

转载 tensorflow中tf.Graph()使用说明

转自：http://blog.sina.com.cn/s/blog_628cc2b70102yonj.htmltf.Graph()表示实例化一个用于tensorflow计算和表示用的数据流图，不负责运行计算。在代码中添加的操作和数据都是画在纸上的画，而图就是呈现这些画的纸。我们可以利用很多线程生成很多张图，但是默认图就只有一张。tf中可以定义多个计算图，不同计算图上的张量和运算是相互独立的，不会共享。计算图可以用来隔离张量和计算，同时提供了管理张量和计算的机制。1、使用g = t...

2021-07-09 11:22:30 1155

原创 Spark dataframe某一列转化为Array

首先，必须保证列没有空值，如果有，则需要dropcolName 为列名data = data.na.drop(s"$colName")输出格式为Array[Any] ()data0.select(s"$colname").collect().map(_(0))输出为Array[String]data0.select(s"$colname").collect().map(_(0).toString)输出为Array[Double]data0.select(s"$coln

2021-07-09 10:59:49 2343

转载 tf.squeeze()函数

tf.squeeze()函数用于从张量形状中移除大小为1的维度squeeze( input, axis=None, name=None, squeeze_dims=None)给定张量输入，此操作返回相同类型的张量，并删除所有维度为1的维度。如果不想删除所有维度1维度，可以通过指定squeeze_dims来删除特定维度1维度。如果不想删除所有大小是1的维度，可以通过squeeze_dims指定。参数： input：A Tensor。输入要挤...

2021-07-09 10:53:48 777

转载 Word Hashing

英文的输入层通过Word Hashing方式处理，该方法基于字母的n-gram，主要作用是减少输入向量的维度。举例说明，假如现在有个词boy，开始和结束字符分别用#表示，那么输入就是(#boy#)。将词转化为字母n-gram的形式，如果设置n为3，那么就能得到(#bo,boy,oy#)三组数据，将这三组数据用n-gram的向量来表示。使用Word Hashing方法存在的问题是可能造成冲突。因为两个不同的词可能有相同的n-gram向量表示。下图是在不同的英语词典中分别使用2-gram和3-gram进行W

2021-07-08 16:05:28 1397

转载 Spark 创建Dataframe和创建空的DataFrame

创建空的DataFramevar ret = spark.emptyDataFrame1. 隐式转换toDF1）使用case-class引入隐式转换的包import sqlContext.implicits._创建case-class的Rdd val rdd: RDD[Person] = sc.parallelize(Array( Person("fanghailiang", 29), Person("sunyu", 28), .

2021-07-08 11:24:25 1048

转载召回及粗排模型的负例选择问题

转自：https://blog.youkuaiyun.com/weixin_31866177/article/details/117781645我们训练精排模型的时候（假设是优化点击目标），一般会用“用户点击”实例作为正例，“曝光未点击”实例作为负例，来训练模型，基本大家都是这么干的。现在，模型召回以及粗排，也需要训练模型，意思是说，也需要定义正例和负例。一般正例，也都是用“用户点击”实例作为正例，但是怎么选择负例，这里面有不少学问。Sample Selection Bias问题我们先来看下不同阶段模型面对

2021-07-06 19:39:06 387

转载 python中的*args和**kw

转自：https://blog.youkuaiyun.com/callinglove/article/details/45483097,这里有更详尽的使用和理解，遇到问题可以再查看在python中定义函数，可以使用一般参数、默认参数、非关键字参数和关键字参数。一般参数和默认参数在前面的学习中我们都遇到过了，而*args和**kw分别属于非关键字参数和关键字参数，后两者也都是可变参数。非关键字参数的特征是一个星号*加上参数名，比如*number，定义后，number可以接收任意数量的参数，并将它们储存

2021-07-06 19:19:52 322

转载 python中的偏函数partial

转自：https://www.cnblogs.com/zhaopanpan/p/9397485.htmlPython的functools模块提供了很多有用的功能，其中一个就是偏函数（Partial function）。在介绍函数参数的时候，我们讲到，通过设定参数的默认值，可以降低函数调用的难度。而偏函数也可以做到这一点。举例如下：int()函数可以把字符串转换为整数，当仅传入字符串时，int()函数默认按十进制转换：int('12345')int('12345', base=8)int

2021-07-06 19:07:25 205

转载 tf.zeros_like函数

转自：https://www.cnblogs.com/tsdblogs/p/10404756.htmltf.zeros_like( tensor, dtype=None, name=None, optimize=True)创建一个所有元素都设置为零的张量.给定一个张量(tensor),该操作返回与所有元素设置为零的tensor具有相同类型和形状的张量.或者,您可以使用dtype指定返回张量的新类型.例如：tensor = tf.constant(..

2021-07-06 18:57:38 1819

转载 tensorflow中用来拼接张量的函数tf.concat()，用法:

转自：https://blog.youkuaiyun.com/leviopku/article/details/82380118tf.concat([tensor1, tensor2, tensor3,...], axis)先给出tf源代码中的解释: t1 = [[1, 2, 3], [4, 5, 6]] t2 = [[7, 8, 9], [10, 11, 12]] tf.concat([t1, t2], 0) # [[1, 2, 3], [4, 5, 6], [7, 8, 9], [10.

2021-07-06 18:38:34 763

转载 tf.gather(params,indices,axis=0 )从params的axis维根据indices的参数值获取切片

如上图所示，params一共6个维度，indices为[2,1,3,4]被取了出来。

2021-07-06 15:43:44 163

转载 ROC曲线理解

博主写的非常好：转自：https://www.jianshu.com/p/2ca96fce7e81

2021-07-02 17:38:39 167

转载 auc与gauc

博主写的非常好转自：https://blog.youkuaiyun.com/hnu2012/article/details/87892368在机器学习算法中，很多情况我们都是把auc当成最常用的一个评价指标，而auc反映整体样本间的排序能力，但是有时候auc这个指标可能并不能完全说明问题，有可能auc并不能真正反映模型的好坏，以CTR预估算法(推荐算法一般把这个作为一个很重要的指标)为例，把用户点击的样本当作正样本，没有点击的样本当作负样本，把这个任务当成一个二分类进行处理，最后模型输出的是样本是否被点击的概率

2021-07-02 17:32:11 496

转载 spark计算两个DataFrame的差集、交集、合集

转自：https://www.cnblogs.com/TTyb/p/7991952.htmlspark计算两个dataframe的差集、交集、合集，只选择某一列来对比比较好。新建两个dataframeimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.SQLContextdef main(args: Array[String]): Unit = { val conf = ne...

2021-07-02 14:53:58 1550

转载 Linux Shell eval

https://blog.youkuaiyun.com/her__0_0/article/details/65938894

2021-07-02 14:49:01 160

转载 linux shell中“2＞&1“含义

https://www.cnblogs.com/zhenghongxin/p/7029173.html

2021-07-02 11:14:54 136

转载 TensorFlow Serving入门

https://www.jianshu.com/p/afe80b2ed7f0

2021-06-23 15:23:52 122

转载 Tensorflow Serving介绍及部署安装

转自：https://www.cnblogs.com/xyniu/p/9934548.html

2021-06-22 14:54:25 131

转载 tf.squeeze()详解

squeeze( input, axis=None, name=None, squeeze_dims=None)该函数返回一个张量，这个张量是将原始input中所有维度为1的那些维都删掉的结果axis可以用来指定要删掉的为1的维度，此处要注意指定的维度必须确保其是1，否则会报错...

2021-06-21 15:30:03 1751

转载 Mac下Anaconda python3.64 -TensorFlow1.13环境搭建与基本命令

转载自：https://blog.youkuaiyun.com/wangwangstone/article/details/103588071Anaconda python3.64 -TensorFlow1.131Mac下环境搭建：Anaconda下载安装版本对应关系：https://blog.youkuaiyun.com/yuejisuo1948/article/details/81043823选择里面的清华镜像源：https://mirrors.tuna.tsinghua.edu.cn/anaconda..

2021-06-18 11:15:52 234

转载 Python中eval的强大与危害

转载自：https://blog.youkuaiyun.com/liuchunming033/article/details/87643041eval是Python的一个内置函数，这个函数的作用是，返回传入字符串的表达式的结果。想象一下变量赋值时，将等号右边的表达式写成字符串的格式，将这个字符串作为eval的参数，eval的返回值就是这个表达式的结果。python中eval函数的用法十分的灵活，但也十分危险，安全性是其最大的缺点。本文从灵活性和危险性两方面介绍eval。1、强大之处举几个例子感受一下，字符

2021-06-17 14:40:02 312

《机器学习实战》4.7.12 用Softmax回归进行批量梯度下降训练，实现提前停止法（不使用Scikit-Learn）Jupyter文件

flink1.13.6如何集成parquet avro