- 博客(201)
- 资源 (2)
- 收藏
- 关注

原创 Leetcode - 目录
leetcode数组中的问题(一)https://blog.youkuaiyun.com/qq_xuanshuang/article/details/104189858283. 移动零27. 移除元素26. 删除排序数组中的重复项80. 删除排序数组中的重复项 II75. 颜色分类88. 合并两个有序数组215. 数组中的第K个最大元素414. 第三大的数167. 两数之和 II - 输入有序数组1. 两数之和leetcode数组中的问题(二)https://blo.
2020-08-10 14:59:18
1170
原创 Python3入门与进阶笔记(六):类 & 异常
目录一些解释属性类名建议首字母大写,通常用驼峰规则命名。变量名建议小写,下划线隔开。类最基本的作用是封装。写在类内非方法中的语句在类加载的时候会执行,且只会执行一次,例如下面的print语句,类加载时就会打印Person类 2。类属性在类加载的时候定义。class Person(object): sex = 'male' # 类属性 money = 2 # 类属性 def __init__(self, name, age=None): # 实例方
2023-03-25 10:00:49
774
原创 paper阅读 Real-time Personalization using Embeddingsfor Search Ranking at Airbnb
论文阅读
2022-12-10 01:16:35
335
原创 李宏毅机器学习笔记(2016年的课程):Support Vector Machine (SVM)
李宏毅机器学习笔记(2016年的课程)Support Vector Machine (SVM)
2022-11-05 21:21:56
802
原创 DSSM 阅读 - Learning Deep Structured Semantic Models for Web Search using Clickthrough Data
paper 阅读 DSSM
2022-10-17 17:12:12
441
原创 paper 阅读 - BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding
paper阅读,BERT,论文发布于2019
2022-10-16 14:04:42
443
原创 Distillation based Multi-task Learning: A Candidate GenerationModel for Improving Reading Duration
paper 阅读,基于知识蒸馏的多任务学习-提高阅读时长的召回模型2021
2022-10-06 00:57:48
511
原创 Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics 阅读
学习笔记
2022-06-23 14:56:02
1422
原创 DiSAN: Directional Self-Attention Network forRNN/CNN-Free Language Understanding 笔记
DiSAN阅读笔记
2022-06-19 23:08:10
773
原创 MMOE 【Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts】阅读
阅读笔记
2022-06-19 00:42:20
752
原创 Entire Space Multi-Task Model(ESMM)阅读
论文地址:https://arxiv.org/pdf/1804.07931.pdf论文还公开了数据集:数据集-阿里云天池阿里开源的git地址:x-deeplearning/xdl-algorithm-solution/ESMM/script at master · alibaba/x-deeplearning · GitHubABSTRACT介绍了传统的CVR模型的两个缺点:样本选择偏差,训练集的样本是产生点击的样本,但是我们线上用的却是在整个空间的推断,这会影响模型的泛化能力。t.
2022-04-26 14:12:16
454
原创 Redis常用数据结构 笔记
目录字符串类型运算redis是基于key-value来保存数据的,key的类型是字符串类型,value的数据类型比较丰富,可以是:字符串、哈希、列表、集合、有序集合。字符串类型String类型既可以保存普通文字,也可以保存序列化的二进制数据【例如保存图片数据等等】。String类型最多可以保存512M的数据。存储、获取、删除的时候,key、value可以用""或''引起来也可以不用。存储:set key value获取:get key删除:del key...
2022-02-28 00:38:54
441
原创 Efficient Estimation of Word Representations in Vector Space 笔记
先上这篇paper链接:https://arxiv.org/pdf/1301.3781.pdf摘要这篇paper介绍了两种可从大规模数据集计算continuous vector representations of words的模型。(这边的continuous或可理解为上下文中心词是连在一起的;亦或相对于one-hot编码的非0即1,各维度上都是实数)。在单词相似性任务中衡量这些representations 的性能,并将结果与以前基于不同类型神经网络的优秀的模型进行比较。在更低的计算成本下,准确
2022-02-17 01:26:45
1010
原创 Distributed Representations of Words and Phrasesand their Compositionality
摘要首先表明continuous Skip-gram 模型学习到的distributed vector representations 可以捕获到语法和语义关系。对高频词的下采样有助于提升训练速度,且可以learn more regular word representations。用negative sampling来代替hierarchical softmax 。word representations无法区别词序,也无法表示短语。文中举例,“Air Canada”(加拿大航空公司)的含义是..
2022-01-13 01:58:58
570
原创 循环神经网络 - 《动手学深度学习》笔记
1. 语言模型给定一个长度为T的词的序列,语言模型计算该序列的概率为,依据乘法定理,我们可以展开为。1.1 n元语法n元语法,是基于n-1阶马尔可夫链的概率语言模型,即一个词的出现仅与前面的n-1个词有关。例如一元语法(n=1),每一个词的出现仅与前面0个词相关,其概率语言模型可以直接频率相乘,二元语法(n=2),每一个词的出现仅与前面的1个词相关,这种方法一旦n确定了,即强制的限定了一个词的出现与前面的多少个词相关,可以理解为硬性的记忆了固定长度的序列,且一旦n过大,会导致高维稀
2022-01-03 22:42:36
734
3
原创 Google老师亲授 TensorFlow2.0入门到进阶笔记- (dataset)
1. 引入DataSet基础使用 tf.data.Dataset.from_tensor_slices # 构建dataset repeat, batch, interleave, map, shuffle, list_files,... csv tf.data.TextLineDataset, # 读取文本文件 tf.io.decode_csv # 解析csv tfrecord tf.train.FloatList, tf.train.Int64List, tf.train.
2021-10-08 00:26:31
620
原创 docker入门一
docker是什么docker是一个用来装程序及其环境的容器,属于Linux容器的一种封装,提供简单易用的容器使用接口,它是目前最流行的Linux解决方案。为什么需要docker环境配置的难题 为了解决环境配置的问题,有了虚拟机的概念,所谓虚拟机就是带环境一起安装,可以在一个操作系统里面运行另一个操作系统。例如我们Windows系统中,安装一个Linux的虚拟机,虚拟机里面可以运行程序,有其硬盘、CPU、内存,看上去和真实的机器是一样的,对于外层的Windows系统来说,虚拟机只是一个普通的程序
2021-08-31 01:27:27
133
原创 Pandas杂记(三)
显示相关pd.set_option('max_columns', 10)等价于pd.set_option('display.max_columns', 10)效果:不设置该参数,当columns过多或名字过长时,Dataframe会记录所有的column,只是print不会显示所有column;当该参数小于columns的个数时,通常会显示首位的columns,且显示列数不会超过设定值,若该参数大于等于columns的个数时,会显示所有column,一行显示不下,会分行。df = pd.Da
2021-07-05 11:32:23
258
原创 Spark Core
Application User program built on Spark. Consists of adriver programandexecutorson the cluster.
2021-06-17 01:57:25
128
原创 DeepFM: A Factorization-Machine based Neural Network for CTR Prediction 阅读笔记
摘要Despite great progress, existing methods seem to have a strong bias towards low- or high-order interactions, or require expertise feature engineering.
2021-06-07 23:37:29
222
2
原创 Hadoop之小文件
# Join概述MapReduceHIve:SQL on Hadoop SQL ==> MapReduce/Spark,通过explain查看SQL的执行计划 join select a.*, b.* from a join b on a.id=b.id1. 面试 + 描述如何使用MapReduce来实现join的功能2. 考察点: + MapR...
2021-05-30 03:12:05
451
1
原创 数据仓库Hive
Hive概述产生背景MapReduce编程的不便性 传统RDBMS人员的需求 HDFS上的文件并没有schema的概念 Hive是什么由Facebook开源,用于解决海量结构化日志的数据统计问题 构建在Hadoop之上的数据仓库(可以理解为数据存在在HDFS,可以通过MapReduce进行计算,提交在YARN上运行的) Hive提供的SQL查询语言:HQL 底层支持多种不同的执行引擎(MR/Tez/Spark,Hive构建在Hadoop之上,底层应该是MapReduce的执行...
2021-05-28 18:39:49
2690
10
原创 资源调度框架YARN
目录YARN产生背景YARN概述YARN架构详解YARN执行流程YARN环境部署报错YARN产生背景MapReduce1.x存在的问题 资源利用率 & 运维成本 解决方案:所有的计算框架运行在一个集群中,共享一个集群的资源,按需分配 ========================附========================MapReduce1.xmaster / slave架构:JobTracker / TaskTracker J..
2021-05-27 18:57:40
335
1
原创 分布式计算框架MapReduce
MapReduce概述源自于Google的MapReduce论文,论文发表于2004年2月 HadoopMapReduce 是 GoogleMapReduce 的克隆版 MapReduce优点:海量数据离线处理 & 易开发(相对于自己开发分布式框架来说的,现在的Spark和Flink要比MapReduce更简单) & 易运行(可以本地开发本地测试) MapReduce缺点:实时流式计算MapReduce编程模型MapReduce编程模型之Map和Reduce阶段...
2021-05-26 21:40:27
218
原创 分布式文件系统HDFS
HDFS概述HDFS概述分布式 commodity hardware,运行在廉价机器上 highly fault-tolerant,高容错 high throughput,高吞吐 large data sets,适用于大数据文件系统:Linux、Windows、Mac... 目录结构: C / 存放的是文件或者文件夹 对外提供服务:创建、修改、删除、查看、移动等HDFS是一个分布式的文件系统普通文件系统 VS 分布式文件系统...
2021-05-20 13:19:39
356
南京邮电大学C++课件上课课件课件
2018-03-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人