自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(188)
  • 资源 (1)
  • 收藏
  • 关注

转载 推荐系统常用名词

1. 播放类指标VV(Video View,播放数),是指在一个统计周期内,视频被打开的次数之和。 CV(Content Views,内容播放数),是指在一个统计周期内,视频被打开,且视频正片内容(除广告)被成功播放的次数之和。由于用户在广告播放的时候流失,所以CV<VV。2. 浏览类指标PV(Page View,浏览量),是指在一个统计周期内,浏览页面的数之和。 UV(Unique Visitor,访客数),是指在一个统计周期内,访问网站的人数之和。其中,PV的统计方式很容易理解,通常

2021-08-09 11:08:42 559 1

原创 shell中循环日期的程序

#!/bin/bashbegin_date="20210701"end_date="20210715"while [ "$begin_date" -le "$end_date" ];do echo ${begin_date} begin_date=$(date -d "${begin_date}+1days" +%Y%m%d)done在服务器中是可以的,在macos中不可以

2021-07-19 18:06:17 368

原创 批量将python文件的缩进由2空格转4空格?

安装autopep8pip install autopep8mac下:brewinstall autopep8autopep8 --in-place --aggressive --aggressive <filename>

2021-07-09 16:44:48 522

转载 tensorflow中tf.Graph()使用说明

转自:http://blog.sina.com.cn/s/blog_628cc2b70102yonj.htmltf.Graph()表示实例化一个用于tensorflow计算和表示用的数据流图,不负责运行计算。在代码中添加的操作和数据都是画在纸上的画,而图就是呈现这些画的纸。我们可以利用很多线程生成很多张图,但是默认图就只有一张。tf中可以定义多个计算图,不同计算图上的张量和运算是相互独立的,不会共享。计算图可以用来隔离张量和计算,同时提供了管理张量和计算的机制。1、使用g = t...

2021-07-09 11:22:30 1155

原创 Spark dataframe某一列转化为Array

首先,必须保证列没有空值,如果有,则需要dropcolName 为 列名data = data.na.drop(s"$colName")输出格式为Array[Any] ()data0.select(s"$colname").collect().map(_(0))输出为Array[String]data0.select(s"$colname").collect().map(_(0).toString)输出为Array[Double]data0.select(s"$coln

2021-07-09 10:59:49 2343

转载 tf.squeeze()函数

tf.squeeze()函数用于从张量形状中移除大小为1的维度squeeze( input, axis=None, name=None, squeeze_dims=None)给定张量输入,此操作返回相同类型的张量,并删除所有维度为1的维度。 如果不想删除所有维度1维度,可以通过指定squeeze_dims来删除特定维度1维度。如果不想删除所有大小是1的维度,可以通过squeeze_dims指定。参数: input:A Tensor。输入要挤...

2021-07-09 10:53:48 777

转载 Word Hashing

英文的输入层通过Word Hashing方式处理,该方法基于字母的n-gram,主要作用是减少输入向量的维度。举例说明,假如现在有个词boy,开始和结束字符分别用#表示,那么输入就是(#boy#)。将词转化为字母n-gram的形式,如果设置n为3,那么就能得到(#bo,boy,oy#)三组数据,将这三组数据用n-gram的向量来表示。使用Word Hashing方法存在的问题是可能造成冲突。因为两个不同的词可能有相同的n-gram向量表示。下图是在不同的英语词典中分别使用2-gram和3-gram进行W

2021-07-08 16:05:28 1397

转载 Spark 创建Dataframe和创建空的DataFrame

创建空的DataFramevar ret = spark.emptyDataFrame1. 隐式转换toDF1)使用case-class引入隐式转换的包import sqlContext.implicits._创建case-class的Rdd val rdd: RDD[Person] = sc.parallelize(Array( Person("fanghailiang", 29), Person("sunyu", 28), .

2021-07-08 11:24:25 1048

转载 召回及粗排模型的负例选择问题

转自:https://blog.youkuaiyun.com/weixin_31866177/article/details/117781645我们训练精排模型的时候(假设是优化点击目标),一般会用“用户点击”实例作为正例,“曝光未点击”实例作为负例,来训练模型,基本大家都是这么干的。现在,模型召回以及粗排,也需要训练模型,意思是说,也需要定义正例和负例。一般正例,也都是用“用户点击”实例作为正例,但是怎么选择负例,这里面有不少学问。Sample Selection Bias问题我们先来看下不同阶段模型面对

2021-07-06 19:39:06 387

转载 python中的*args和**kw

转自:https://blog.youkuaiyun.com/callinglove/article/details/45483097,这里有更详尽的使用和理解,遇到问题可以再查看在python中定义函数,可以使用一般参数、默认参数、非关键字参数和关键字参数。一般参数和默认参数在前面的学习中我们都遇到过了,而*args和**kw分别属于非关键字参数和关键字参数,后两者也都是可变参数。非关键字参数的特征是一个星号*加上参数名,比如*number,定义后,number可以接收任意数量的参数,并将它们储存

2021-07-06 19:19:52 322

转载 python中的偏函数partial

转自:https://www.cnblogs.com/zhaopanpan/p/9397485.htmlPython的functools模块提供了很多有用的功能,其中一个就是偏函数(Partial function)。在介绍函数参数的时候,我们讲到,通过设定参数的默认值,可以降低函数调用的难度。而偏函数也可以做到这一点。举例如下:int()函数可以把字符串转换为整数,当仅传入字符串时,int()函数默认按十进制转换:int('12345')int('12345', base=8)int

2021-07-06 19:07:25 205

转载 tf.zeros_like函数

转自:https://www.cnblogs.com/tsdblogs/p/10404756.htmltf.zeros_like( tensor, dtype=None, name=None, optimize=True)创建一个所有元素都设置为零的张量.给定一个张量(tensor),该操作返回与所有元素设置为零的tensor具有相同类型和形状的张量.或者,您可以使用dtype指定返回张量的新类型.例如:tensor = tf.constant(..

2021-07-06 18:57:38 1819

转载 tensorflow中用来拼接张量的函数tf.concat(),用法:

转自:https://blog.youkuaiyun.com/leviopku/article/details/82380118tf.concat([tensor1, tensor2, tensor3,...], axis)先给出tf源代码中的解释: t1 = [[1, 2, 3], [4, 5, 6]] t2 = [[7, 8, 9], [10, 11, 12]] tf.concat([t1, t2], 0) # [[1, 2, 3], [4, 5, 6], [7, 8, 9], [10.

2021-07-06 18:38:34 763

转载 tf.gather(params,indices,axis=0 )从params的axis维根据indices的参数值获取切片

如上图所示,params一共6个维度,indices为[2,1,3,4]被取了出来。

2021-07-06 15:43:44 163

转载 ROC曲线理解

博主写的非常好:转自:https://www.jianshu.com/p/2ca96fce7e81

2021-07-02 17:38:39 167

转载 auc与gauc

博主写的非常好转自:https://blog.youkuaiyun.com/hnu2012/article/details/87892368在机器学习算法中,很多情况我们都是把auc当成最常用的一个评价指标,而auc反映整体样本间的排序能力,但是有时候auc这个指标可能并不能完全说明问题,有可能auc并不能真正反映模型的好坏,以CTR预估算法(推荐算法一般把这个作为一个很重要的指标)为例,把用户点击的样本当作正样本,没有点击的样本当作负样本,把这个任务当成一个二分类进行处理,最后模型输出的是样本是否被点击的概率

2021-07-02 17:32:11 496

转载 spark计算两个DataFrame的差集、交集、合集

转自:https://www.cnblogs.com/TTyb/p/7991952.htmlspark计算两个dataframe的差集、交集、合集,只选择某一列来对比比较好。新建两个dataframeimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.SQLContextdef main(args: Array[String]): Unit = { val conf = ne...

2021-07-02 14:53:58 1550

转载 Linux Shell eval

https://blog.youkuaiyun.com/her__0_0/article/details/65938894

2021-07-02 14:49:01 160

转载 linux shell中“2>&1“含义

https://www.cnblogs.com/zhenghongxin/p/7029173.html

2021-07-02 11:14:54 136

转载 TensorFlow Serving入门

https://www.jianshu.com/p/afe80b2ed7f0

2021-06-23 15:23:52 122

转载 Tensorflow Serving介绍及部署安装

转自:https://www.cnblogs.com/xyniu/p/9934548.html

2021-06-22 14:54:25 131

转载 tf.squeeze()详解

squeeze( input, axis=None, name=None, squeeze_dims=None)该函数返回一个张量,这个张量是将原始input中所有维度为1的那些维都删掉的结果axis可以用来指定要删掉的为1的维度,此处要注意指定的维度必须确保其是1,否则会报错...

2021-06-21 15:30:03 1751

转载 Mac下Anaconda python3.64 -TensorFlow1.13环境搭建与基本命令

转载自:https://blog.youkuaiyun.com/wangwangstone/article/details/103588071Anaconda python3.64 -TensorFlow1.131Mac下环境搭建 :Anaconda下载安装版本对应关系:https://blog.youkuaiyun.com/yuejisuo1948/article/details/81043823选择里面的清华镜像源:https://mirrors.tuna.tsinghua.edu.cn/anaconda..

2021-06-18 11:15:52 234

转载 Python中eval的强大与危害

转载自:https://blog.youkuaiyun.com/liuchunming033/article/details/87643041eval是Python的一个内置函数,这个函数的作用是,返回传入字符串的表达式的结果。想象一下变量赋值时,将等号右边的表达式写成字符串的格式,将这个字符串作为eval的参数,eval的返回值就是这个表达式的结果。python中eval函数的用法十分的灵活,但也十分危险,安全性是其最大的缺点。本文从灵活性和危险性两方面介绍eval。1、强大之处举几个例子感受一下,字符

2021-06-17 14:40:02 312

转载 python中的del用法

python中的del用法比较特殊,新手学习往往产生误解,弄清del的用法,可以帮助深入理解python的内存方面的问题。python的del不同于C的free和C++的delete。由于python都是引用,而python有GC机制,所以,del语句作用在变量上,而不是数据对象上。if __name__=='__main__': a=1 # 对象 1 被 变量a引用,对象1的引用计数器为1 b=a # 对象1 被变量b引用,对象1的引用计数器加

2021-06-16 18:48:02 807

转载 mac外接键盘HOME,END键问题

转载自:https://www.icode9.com/content-4-838111.htmlmac老用户应该都知道, MAC自带的键盘的cmd+左/右箭头快捷键实际上就对应的是HOME和END; 但是如果外接了自带HOME和END键的键盘, 就会发生不幸的事情, 你会发现HOME和END根本无法使用, 因为mac系统本身没有给这两个键绑定任何命令, 某些编辑器中可能可以使用这两个键, 那是因为编辑器给这两个键添加了相关功能绑定, 跟mac系统没有关系;让mac系统原生支持HOM...

2021-06-11 16:15:44 1347 1

转载 问题解决:spark.debug.maxToStringFields

问题场景使用spark 2.4.0进行统计数据,报错误,错误提示为:WARN Utils:66 - Truncated the string representation of a plan since it was too large. This behavior can be adjusted by setting 'spark.debug.maxToStringFields' in SparkEnv.conf.原因是因为该表字段个数比较多,超过了默认值25,所以提示报错。解决方

2021-06-11 15:19:00 4432 1

转载 Spark SQL 优化方法

转载自:https://dongkelun.com/2018/12/26/sparkSqlOptimize/1、避免用in 和 not in,用exists、not exists和join代替not inselect stepId,province_code,polyline from route_step where stepId not in (select stepId from stepIds)not exists:select stepId,province_code,.

2021-06-11 15:12:10 639 1

原创 Scala的null,nil,Null,Nothing,None,Any

nil :作为 List[T]的初始化,表示一个空数组官方文档解释null :表示一个空对象,是Null唯一的实例Null :不用怎么管这个,基本不会用到。Nothing and NullNothingis a subtype of all types, also called the bottom type. There is no value that has typeNothing. A common use is to signal non-termination such a...

2021-06-11 14:56:55 964

转载 HDFS查看文件的前几行-后几行-行数

随机返回指定行数的样本数据hadoop fs -cat /test/gonganbu/scene_analysis_suggestion/* | shuf -n 5返回前几行的样本数据hadoop fs -cat /test/gonganbu/scene_analysis_suggestion/* | head -100返回最后几行的样本数据hadoop fs -cat /test/gonganbu/scene_analysis_suggestion/* | tail

2021-06-11 14:26:33 2165 2

转载 value toDF is not a member of org.apache.spark.rdd.RDD[People]

import sqlContext.implicits._ 语句需要放在获取sqlContext对象的语句之后 case class People(name : String, age : Int) 的定义需要放在方法的作用域之外(即Java的成员变量位置)

2021-06-10 21:11:22 211

转载 Spark算子-面试问题一:groupByKey、reduceByKey的区别?

1、原理层面的区别groupByKey 不会在map端进行combine,而reduceByKey 会在map端的默认开启combine进行本地聚合。在map端先进行一次聚合,很极大的减小reduce端的压力,一般来说,map的机器数量是远大于reduce的机器数量的。通过map聚合的方式可以把计算压力平均到各台机器,最终在reduce端只需要汇总map端聚合完成的数据即可,极大的提高效率。看图如下:...

2021-06-08 10:51:57 269

转载 sparkGraphX 图操作:GranphX的map操作(mapVertices、mapEdges、mapTriplets)

def mapVertices[VD2](map:(VertexId, VD)=> VD2): Graph[VD2, ED]def mapEdges[ED2](map: Edge[ED] => ED2): Graph[VD, ED2]def mapTriplets[ED2](map: EdgeTriplet[VD, ED] => ED2): Graph[VD, ED2]

2021-06-07 20:05:55 339

转载 Spark —— cache和unpersist的正确用法

cache和unpersist没有使用好,跟根本没用没啥区别,例如下面的例子,有可能很多人这样用:val rdd1 = ... // 读取hdfs数据,加载成RDDrdd1.cacheval rdd2 = rdd1.map(...)val rdd3 = rdd1.filter(...)rdd1.unpersistrdd2.take(10).foreach(println)rdd3.take(10).foreach(println)...

2021-06-07 14:10:10 1476

原创 mac 安装arcanist及其使用

创建arc的安装目录mkdir arccd arc下载文件git clone https://github.com/phacility/arcanist.gitgit clone https://github.com/phacility/libphutil.git添加可执行文件路径到pathvim ~/.zshrcexport PATH=$PATH:"你的安装路径"/arc/arcanist/bin激活 ~/.zshrcsource ~/.zshrc到要存放项.

2021-05-27 11:27:31 1617

原创 图像数据不足时的处理方法?

在机器学习中,绝大部分模型都需要大量的数据进行训练和学习( 包括有监督学习和无监督学习),然而在实际应用中经常会遇到训练数据不足的问题。比如图像分类,作为计算机视觉最基本的任务之一,其目标是将每幅图像划分到指定类别集合中的一个或多个类别中。当训练一个图像分类模型时,如果训练样本比较少,该如何处理呢?在图像分类任务中,训练数据不足会带来什么问题?如何缓解数据量不足带来的问题?—个模型所能提供的信息一般来源于两个方面,一是训练数据中蕴含的信息;二是在模型的形成过程中( 包括构造、学习、推理等),人们提供

2021-04-13 12:39:34 844

原创 迁移学习

待完成

2021-04-13 12:39:01 89

原创 生成式对抗网络

待完成

2021-04-13 12:38:01 94

原创 SMOTE ( Synthetic Minority Over-sampling Technique )

待完成

2021-04-13 12:37:25 617

原创 有哪些文本表示模型?它们各有什么优缺点?

机器学习各种资料涉及到的知识,在我不理解和认为不对的地方做了补充和修改,若有错误欢迎指教!文本是一类非常重要的非结构化数据,如何表示文本数据一直是机器学习领域的一个重要研究方向。词袋模型和N-gram模型主题模型:主题模型用于从文本库中发现有代表性的主题( 得到每个主题上面词的分布特性),并且能够计算出每篇文章的主题分布。词嵌入(word embedding)与深度学习模型词嵌入是一类将词向量化的模型的统称,核心思想是将每个词都映射成低维空间( 通常K=50 ~ 300 维)上的

2021-04-13 12:25:12 871

《机器学习实战》4.7.12 用Softmax回归进行批量梯度下降训练,实现提前停止法(不使用Scikit-Learn)Jupyter文件

《机器学习实战》4.7.12 用Softmax回归进行批量梯度下降训练,实现提前停止法(不使用Scikit-Learn)Jupyter文件

2020-11-06

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除