- 博客(188)
- 资源 (1)
- 收藏
- 关注
转载 推荐系统常用名词
1. 播放类指标VV(Video View,播放数),是指在一个统计周期内,视频被打开的次数之和。 CV(Content Views,内容播放数),是指在一个统计周期内,视频被打开,且视频正片内容(除广告)被成功播放的次数之和。由于用户在广告播放的时候流失,所以CV<VV。2. 浏览类指标PV(Page View,浏览量),是指在一个统计周期内,浏览页面的数之和。 UV(Unique Visitor,访客数),是指在一个统计周期内,访问网站的人数之和。其中,PV的统计方式很容易理解,通常
2021-08-09 11:08:42
559
1
原创 shell中循环日期的程序
#!/bin/bashbegin_date="20210701"end_date="20210715"while [ "$begin_date" -le "$end_date" ];do echo ${begin_date} begin_date=$(date -d "${begin_date}+1days" +%Y%m%d)done在服务器中是可以的,在macos中不可以
2021-07-19 18:06:17
368
原创 批量将python文件的缩进由2空格转4空格?
安装autopep8pip install autopep8mac下:brewinstall autopep8autopep8 --in-place --aggressive --aggressive <filename>
2021-07-09 16:44:48
522
转载 tensorflow中tf.Graph()使用说明
转自:http://blog.sina.com.cn/s/blog_628cc2b70102yonj.htmltf.Graph()表示实例化一个用于tensorflow计算和表示用的数据流图,不负责运行计算。在代码中添加的操作和数据都是画在纸上的画,而图就是呈现这些画的纸。我们可以利用很多线程生成很多张图,但是默认图就只有一张。tf中可以定义多个计算图,不同计算图上的张量和运算是相互独立的,不会共享。计算图可以用来隔离张量和计算,同时提供了管理张量和计算的机制。1、使用g = t...
2021-07-09 11:22:30
1155
原创 Spark dataframe某一列转化为Array
首先,必须保证列没有空值,如果有,则需要dropcolName 为 列名data = data.na.drop(s"$colName")输出格式为Array[Any] ()data0.select(s"$colname").collect().map(_(0))输出为Array[String]data0.select(s"$colname").collect().map(_(0).toString)输出为Array[Double]data0.select(s"$coln
2021-07-09 10:59:49
2343
转载 tf.squeeze()函数
tf.squeeze()函数用于从张量形状中移除大小为1的维度squeeze( input, axis=None, name=None, squeeze_dims=None)给定张量输入,此操作返回相同类型的张量,并删除所有维度为1的维度。 如果不想删除所有维度1维度,可以通过指定squeeze_dims来删除特定维度1维度。如果不想删除所有大小是1的维度,可以通过squeeze_dims指定。参数: input:A Tensor。输入要挤...
2021-07-09 10:53:48
777
转载 Word Hashing
英文的输入层通过Word Hashing方式处理,该方法基于字母的n-gram,主要作用是减少输入向量的维度。举例说明,假如现在有个词boy,开始和结束字符分别用#表示,那么输入就是(#boy#)。将词转化为字母n-gram的形式,如果设置n为3,那么就能得到(#bo,boy,oy#)三组数据,将这三组数据用n-gram的向量来表示。使用Word Hashing方法存在的问题是可能造成冲突。因为两个不同的词可能有相同的n-gram向量表示。下图是在不同的英语词典中分别使用2-gram和3-gram进行W
2021-07-08 16:05:28
1397
转载 Spark 创建Dataframe和创建空的DataFrame
创建空的DataFramevar ret = spark.emptyDataFrame1. 隐式转换toDF1)使用case-class引入隐式转换的包import sqlContext.implicits._创建case-class的Rdd val rdd: RDD[Person] = sc.parallelize(Array( Person("fanghailiang", 29), Person("sunyu", 28), .
2021-07-08 11:24:25
1048
转载 召回及粗排模型的负例选择问题
转自:https://blog.youkuaiyun.com/weixin_31866177/article/details/117781645我们训练精排模型的时候(假设是优化点击目标),一般会用“用户点击”实例作为正例,“曝光未点击”实例作为负例,来训练模型,基本大家都是这么干的。现在,模型召回以及粗排,也需要训练模型,意思是说,也需要定义正例和负例。一般正例,也都是用“用户点击”实例作为正例,但是怎么选择负例,这里面有不少学问。Sample Selection Bias问题我们先来看下不同阶段模型面对
2021-07-06 19:39:06
387
转载 python中的*args和**kw
转自:https://blog.youkuaiyun.com/callinglove/article/details/45483097,这里有更详尽的使用和理解,遇到问题可以再查看在python中定义函数,可以使用一般参数、默认参数、非关键字参数和关键字参数。一般参数和默认参数在前面的学习中我们都遇到过了,而*args和**kw分别属于非关键字参数和关键字参数,后两者也都是可变参数。非关键字参数的特征是一个星号*加上参数名,比如*number,定义后,number可以接收任意数量的参数,并将它们储存
2021-07-06 19:19:52
322
转载 python中的偏函数partial
转自:https://www.cnblogs.com/zhaopanpan/p/9397485.htmlPython的functools模块提供了很多有用的功能,其中一个就是偏函数(Partial function)。在介绍函数参数的时候,我们讲到,通过设定参数的默认值,可以降低函数调用的难度。而偏函数也可以做到这一点。举例如下:int()函数可以把字符串转换为整数,当仅传入字符串时,int()函数默认按十进制转换:int('12345')int('12345', base=8)int
2021-07-06 19:07:25
205
转载 tf.zeros_like函数
转自:https://www.cnblogs.com/tsdblogs/p/10404756.htmltf.zeros_like( tensor, dtype=None, name=None, optimize=True)创建一个所有元素都设置为零的张量.给定一个张量(tensor),该操作返回与所有元素设置为零的tensor具有相同类型和形状的张量.或者,您可以使用dtype指定返回张量的新类型.例如:tensor = tf.constant(..
2021-07-06 18:57:38
1819
转载 tensorflow中用来拼接张量的函数tf.concat(),用法:
转自:https://blog.youkuaiyun.com/leviopku/article/details/82380118tf.concat([tensor1, tensor2, tensor3,...], axis)先给出tf源代码中的解释: t1 = [[1, 2, 3], [4, 5, 6]] t2 = [[7, 8, 9], [10, 11, 12]] tf.concat([t1, t2], 0) # [[1, 2, 3], [4, 5, 6], [7, 8, 9], [10.
2021-07-06 18:38:34
763
转载 tf.gather(params,indices,axis=0 )从params的axis维根据indices的参数值获取切片
如上图所示,params一共6个维度,indices为[2,1,3,4]被取了出来。
2021-07-06 15:43:44
163
转载 auc与gauc
博主写的非常好转自:https://blog.youkuaiyun.com/hnu2012/article/details/87892368在机器学习算法中,很多情况我们都是把auc当成最常用的一个评价指标,而auc反映整体样本间的排序能力,但是有时候auc这个指标可能并不能完全说明问题,有可能auc并不能真正反映模型的好坏,以CTR预估算法(推荐算法一般把这个作为一个很重要的指标)为例,把用户点击的样本当作正样本,没有点击的样本当作负样本,把这个任务当成一个二分类进行处理,最后模型输出的是样本是否被点击的概率
2021-07-02 17:32:11
496
转载 spark计算两个DataFrame的差集、交集、合集
转自:https://www.cnblogs.com/TTyb/p/7991952.htmlspark计算两个dataframe的差集、交集、合集,只选择某一列来对比比较好。新建两个dataframeimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.SQLContextdef main(args: Array[String]): Unit = { val conf = ne...
2021-07-02 14:53:58
1550
转载 Linux Shell eval
https://blog.youkuaiyun.com/her__0_0/article/details/65938894
2021-07-02 14:49:01
160
转载 Tensorflow Serving介绍及部署安装
转自:https://www.cnblogs.com/xyniu/p/9934548.html
2021-06-22 14:54:25
131
转载 tf.squeeze()详解
squeeze( input, axis=None, name=None, squeeze_dims=None)该函数返回一个张量,这个张量是将原始input中所有维度为1的那些维都删掉的结果axis可以用来指定要删掉的为1的维度,此处要注意指定的维度必须确保其是1,否则会报错...
2021-06-21 15:30:03
1751
转载 Mac下Anaconda python3.64 -TensorFlow1.13环境搭建与基本命令
转载自:https://blog.youkuaiyun.com/wangwangstone/article/details/103588071Anaconda python3.64 -TensorFlow1.131Mac下环境搭建 :Anaconda下载安装版本对应关系:https://blog.youkuaiyun.com/yuejisuo1948/article/details/81043823选择里面的清华镜像源:https://mirrors.tuna.tsinghua.edu.cn/anaconda..
2021-06-18 11:15:52
234
转载 Python中eval的强大与危害
转载自:https://blog.youkuaiyun.com/liuchunming033/article/details/87643041eval是Python的一个内置函数,这个函数的作用是,返回传入字符串的表达式的结果。想象一下变量赋值时,将等号右边的表达式写成字符串的格式,将这个字符串作为eval的参数,eval的返回值就是这个表达式的结果。python中eval函数的用法十分的灵活,但也十分危险,安全性是其最大的缺点。本文从灵活性和危险性两方面介绍eval。1、强大之处举几个例子感受一下,字符
2021-06-17 14:40:02
312
转载 python中的del用法
python中的del用法比较特殊,新手学习往往产生误解,弄清del的用法,可以帮助深入理解python的内存方面的问题。python的del不同于C的free和C++的delete。由于python都是引用,而python有GC机制,所以,del语句作用在变量上,而不是数据对象上。if __name__=='__main__': a=1 # 对象 1 被 变量a引用,对象1的引用计数器为1 b=a # 对象1 被变量b引用,对象1的引用计数器加
2021-06-16 18:48:02
807
转载 mac外接键盘HOME,END键问题
转载自:https://www.icode9.com/content-4-838111.htmlmac老用户应该都知道, MAC自带的键盘的cmd+左/右箭头快捷键实际上就对应的是HOME和END; 但是如果外接了自带HOME和END键的键盘, 就会发生不幸的事情, 你会发现HOME和END根本无法使用, 因为mac系统本身没有给这两个键绑定任何命令, 某些编辑器中可能可以使用这两个键, 那是因为编辑器给这两个键添加了相关功能绑定, 跟mac系统没有关系;让mac系统原生支持HOM...
2021-06-11 16:15:44
1347
1
转载 问题解决:spark.debug.maxToStringFields
问题场景使用spark 2.4.0进行统计数据,报错误,错误提示为:WARN Utils:66 - Truncated the string representation of a plan since it was too large. This behavior can be adjusted by setting 'spark.debug.maxToStringFields' in SparkEnv.conf.原因是因为该表字段个数比较多,超过了默认值25,所以提示报错。解决方
2021-06-11 15:19:00
4432
1
转载 Spark SQL 优化方法
转载自:https://dongkelun.com/2018/12/26/sparkSqlOptimize/1、避免用in 和 not in,用exists、not exists和join代替not inselect stepId,province_code,polyline from route_step where stepId not in (select stepId from stepIds)not exists:select stepId,province_code,.
2021-06-11 15:12:10
639
1
原创 Scala的null,nil,Null,Nothing,None,Any
nil :作为 List[T]的初始化,表示一个空数组官方文档解释null :表示一个空对象,是Null唯一的实例Null :不用怎么管这个,基本不会用到。Nothing and NullNothingis a subtype of all types, also called the bottom type. There is no value that has typeNothing. A common use is to signal non-termination such a...
2021-06-11 14:56:55
964
转载 HDFS查看文件的前几行-后几行-行数
随机返回指定行数的样本数据hadoop fs -cat /test/gonganbu/scene_analysis_suggestion/* | shuf -n 5返回前几行的样本数据hadoop fs -cat /test/gonganbu/scene_analysis_suggestion/* | head -100返回最后几行的样本数据hadoop fs -cat /test/gonganbu/scene_analysis_suggestion/* | tail
2021-06-11 14:26:33
2165
2
转载 value toDF is not a member of org.apache.spark.rdd.RDD[People]
import sqlContext.implicits._ 语句需要放在获取sqlContext对象的语句之后 case class People(name : String, age : Int) 的定义需要放在方法的作用域之外(即Java的成员变量位置)
2021-06-10 21:11:22
211
转载 Spark算子-面试问题一:groupByKey、reduceByKey的区别?
1、原理层面的区别groupByKey 不会在map端进行combine,而reduceByKey 会在map端的默认开启combine进行本地聚合。在map端先进行一次聚合,很极大的减小reduce端的压力,一般来说,map的机器数量是远大于reduce的机器数量的。通过map聚合的方式可以把计算压力平均到各台机器,最终在reduce端只需要汇总map端聚合完成的数据即可,极大的提高效率。看图如下:...
2021-06-08 10:51:57
269
转载 sparkGraphX 图操作:GranphX的map操作(mapVertices、mapEdges、mapTriplets)
def mapVertices[VD2](map:(VertexId, VD)=> VD2): Graph[VD2, ED]def mapEdges[ED2](map: Edge[ED] => ED2): Graph[VD, ED2]def mapTriplets[ED2](map: EdgeTriplet[VD, ED] => ED2): Graph[VD, ED2]
2021-06-07 20:05:55
339
转载 Spark —— cache和unpersist的正确用法
cache和unpersist没有使用好,跟根本没用没啥区别,例如下面的例子,有可能很多人这样用:val rdd1 = ... // 读取hdfs数据,加载成RDDrdd1.cacheval rdd2 = rdd1.map(...)val rdd3 = rdd1.filter(...)rdd1.unpersistrdd2.take(10).foreach(println)rdd3.take(10).foreach(println)...
2021-06-07 14:10:10
1476
原创 mac 安装arcanist及其使用
创建arc的安装目录mkdir arccd arc下载文件git clone https://github.com/phacility/arcanist.gitgit clone https://github.com/phacility/libphutil.git添加可执行文件路径到pathvim ~/.zshrcexport PATH=$PATH:"你的安装路径"/arc/arcanist/bin激活 ~/.zshrcsource ~/.zshrc到要存放项.
2021-05-27 11:27:31
1617
原创 图像数据不足时的处理方法?
在机器学习中,绝大部分模型都需要大量的数据进行训练和学习( 包括有监督学习和无监督学习),然而在实际应用中经常会遇到训练数据不足的问题。比如图像分类,作为计算机视觉最基本的任务之一,其目标是将每幅图像划分到指定类别集合中的一个或多个类别中。当训练一个图像分类模型时,如果训练样本比较少,该如何处理呢?在图像分类任务中,训练数据不足会带来什么问题?如何缓解数据量不足带来的问题?—个模型所能提供的信息一般来源于两个方面,一是训练数据中蕴含的信息;二是在模型的形成过程中( 包括构造、学习、推理等),人们提供
2021-04-13 12:39:34
844
原创 有哪些文本表示模型?它们各有什么优缺点?
机器学习各种资料涉及到的知识,在我不理解和认为不对的地方做了补充和修改,若有错误欢迎指教!文本是一类非常重要的非结构化数据,如何表示文本数据一直是机器学习领域的一个重要研究方向。词袋模型和N-gram模型主题模型:主题模型用于从文本库中发现有代表性的主题( 得到每个主题上面词的分布特性),并且能够计算出每篇文章的主题分布。词嵌入(word embedding)与深度学习模型词嵌入是一类将词向量化的模型的统称,核心思想是将每个词都映射成低维空间( 通常K=50 ~ 300 维)上的
2021-04-13 12:25:12
871
《机器学习实战》4.7.12 用Softmax回归进行批量梯度下降训练,实现提前停止法(不使用Scikit-Learn)Jupyter文件
2020-11-06
flink1.13.6如何集成parquet avro
2023-06-26
TA创建的收藏夹 TA关注的收藏夹
TA关注的人