- 博客(88)
- 资源 (23)
- 收藏
- 关注
原创 Pandas多条件筛选
pandas可以用str.contains来模糊筛选,有点像SQL中的like。filter不筛选具体的数据,而是筛选特定的行和列。regex:正则表达式。items:固定列名。
2023-06-12 23:47:08
1394
原创 生成与解析tensoflow2 tf_serving_warmup_requests
tensoflow2 tf_serving_warmup_requests
2022-07-09 16:54:12
846
2
原创 tf2读tfrecord文件
import tensorflow as tftfrecord_file="a.tfrecord"dataset=tf.data.TFRecordDataset(tfrecord_file)for raw in dataset.take(1): example=tf.train.Example() example.ParseFromString(raw_record.numpy()) print(example)
2022-04-17 19:54:21
348
原创 xgboost实例
# _*_coding:utf-8 _*_# @project:py_project# @name:7372# @date:2022/2/13 11:07# @Author:Lyimport pandas as pdimport osimport numpy as npimport xgboost as xgbfrom sklearn.metrics import recall_score,accuracy_score,roc_auc_score,f1_scorefrom sklearn
2022-02-13 22:30:15
99
原创 pyspark udf in get_return_value py4j.protocol.Py4JJavaError:
1、在用pyspark的时候,像这种udf函数一定要加上类型,,不然会报错~~2、pyspark 如图,如果不加float,会报下面这个错误File "/mnt/yarn/usercache/hadoop/appcache/application_1614052931500_111643/container_1614052931500_111643_01_000001/pyspark.zip/pyspark/sql/dataframe.py", line 378, in show File "/
2021-03-23 22:09:16
617
原创 离线与在线auc不一致问题
阅读论文:Predictive Model Performance: Offline and Online Evaluations1、离线AUC、RIG有迷惑性(线上线下不一致)、auc忽略了预测得分,只关注顺序(正样本排在负样本之前)auc 越高并不意味着有更好的排序AUC不能区分ROC空间的各个区域,所以仅通过优化数据两端的模型性能就可以训练模型以最大化AUC分数。实际上,高估pClick得分范围内的点击概率比低估pClick得分范围时对在线性能的影响要小低pClick范围内pClick得分
2021-03-21 16:27:39
1444
原创 shell 脚本测试是否服务器环境包含python包
#!/bin/bashecho “start”python3 <<EOF #开始符合和结束符合相同import arrowimport lightgbm as lgbimport xgboost as xgbfrom sklearn.ensemble import GradientBoostingClassifier, GradientBoostingRegressorfrom sklearn.linear_model import LogisticRegressionfrom
2021-02-04 15:30:35
226
原创 python .proto 转py
1、安装grpcio 与 grpcio-tools2、将要转化的安装grpcio 与 grpcio-tools将要转化的proto协议放入单独文件夹下3、在文件夹下运行cmd,执行python -m grpc_tools.protoc -I./ --python_out=./ --grpc_python_out=./ ..proto,即可将完成文件夹下所有的proto的转化proto协议放入单独文件夹下在文件夹下运行cmd,执行python -m grpc_tools.protoc -I./ --p
2020-12-24 14:01:41
934
原创 pyspark学习
1、修改列名有两种方式1.1 for循环一个个修改for name in field_mapping: all_data = all_data.withColumnRenamed(name, field_mapping[name])1.2 functions函数import pyspark.sql.functions as Fall_data = (all_data.select(*[F.col(s).alias(field_mapping[s]) if s in field_mapp
2020-12-09 15:47:40
146
原创 hadoop 基础命令一览
1 从HDFS将文件传到本地下面两个命令是把文件从HDFS上下载到本地的命令。1.1 get使用方法:hadoop fs -get [-ignorecrc] [-crc] 复制文件到本地文件系统。可用-ignorecrc选项复制CRC校验失败的文件。使用-crc选项复制文件以及CRC信息。示例:hadoop fs -get /user/hadoop/file localfilehadoop fs -get hdfs://host:port/user/hadoop/file localfile
2020-12-08 10:37:50
440
原创 tensorflow2.3+ kears tf.keras.models.load_model载人模型,模型ValueError: Unknown loss function: define_loss
自定义损失函数load_model
2020-12-03 16:28:21
875
原创 优快云-markdown编辑器---基本语法一览
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl
2020-12-02 20:59:27
128
原创 tensorflow2.3以上keras model.fit()出现维度错误问题
def gen_model(site_id): input1 = tf.keras.layers.Input(shape=(2,), dtype=tf.float32, name='ty') ctr_label = tf.keras.layers.Input(shape=(1,), dtype=tf.float32, name='a_label') ctcvr_label = tf.keras.layers.Input(shape=(1,), dtype=tf.float32, .
2020-12-02 20:58:48
5769
1
原创 日常s3命令记录
查看文件大小aws s3 ls s3://${path}/ --recursive --human-readable --summarize查看子目录浏览path子文件aws s3 ls s3://${path}/ s3不支持ll删除操作删除单个文件用rm,删除文件夹用–recursiveaws s3 rm s3://${path}/ --recursive同步本地文件至s3将data文件夹下的所有文件(包含文件夹及其子文件)传至s3的path目录下aws s3 sync dat
2020-12-02 20:54:23
398
原创 多目标学习(Multi-task Learning)-网络设计和损失函数优化
目前多目标学习主要从两个方向展开,一个是网络结构设计,一个是损失函数优化;一、MTL网络设计MTL网络通常可分为两种两种,一种是hard-parameter sharing不同任务间共用底部的隐层,另一种是soft-parameter sharing,形式较为多样,如两个任务参数不共享,但对不同任务的参数增加L2范数的限制;也有一些对每个任务分别生成各自的隐层,学习所有隐层的组合;这两种方式各有优劣,hard类的网络较soft不容易陷入过拟合,但如果任务差异较大,模型结果较差,但soft类网络通常参数较
2020-12-01 17:12:02
9188
2
原创 tensorflow2.3+多任务学习MTL保存多个模型方案
以下代码是一个简单的esmm的模型,当我们想保存多个模型的时候,而且线上预测的时候,不想传两个label(label1,label2)进去的时候,处理方式如下def base_model(inputs,output, variable_scope): with tf.compat.v1.variable_scope(variable_scope): base_model = tf.keras.Model( inputs=inputs,
2020-12-01 16:12:43
728
原创 推荐系统深度学习篇-AFM模型介绍(3)
一、AFM模型简介AFM模型是17年发表在IJCAI-17上的一篇论文,它是NFM模型的一个改进, 在传统FM模型中,使用二阶交叉特征得到非线性表达能力,但是不是所有的特征交叉都会有预测能力,很多无用的特征交叉加入后反而会相当于加入了噪声。为了区别对待不同的特征,引入了Attention机制。论文地址为:https://www.ijcai.org/proceedings/2017/0435.pdf其结构图为其中attention network可形式化为:AFM模型的公式为:需要注意的是:
2020-11-19 11:55:24
2214
原创 推荐系统深度学习篇-NFM 模型介绍(1)
一、NFM 模型介绍NFM是2017年由新加披国立大学提出的一种模型,其主要优化点在于提出了Bi-Interaction,Bi-Interaction考虑到了二阶特征组合,减轻了后面MLP部分学习特征信息的压力论文地址:https://arxiv.org/pdf/1708.05027.pdf其结构如下BI-Interaction的结构为该式可化简为详细推导过程如下编程简单记忆方式: 和的平方-平方的和需要注意的是:1.该图显示的是在Bi-Interaction后由三层MLP构成,但
2020-11-19 11:49:13
2387
1
原创 推荐系统深度学习篇-DCN网络介绍(2)
一、dcn简介dcn是17年由斯坦福大学提出,其主要目的是论文地址为:https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/1708.05123.pdf其结构图为这篇论文重点是提出了cross layer的概念,其结构图如下二、代码展示1、cross layer#@tf.functiondef cross_layer(x0, xl): embed_dim = xl.shape[-1] w = tf.Variable(
2020-11-19 11:27:32
7267
原创 推荐系统深度学习篇-阿里DIN算法介绍(4)
din算法一、din简介该论文是18年由阿里巴巴的盖坤团队提出,论文地址为:https://arxiv.org/pdf/1706.06978.pdf原论文的网络结构为在深度学习推荐系统这本书中,王喆绘制了这么一幅图,更好理解注意架构图中的红线,发现每个ad会有 good_id, shop_id 两层属性,shop_id只跟用户历史中的shop_id序列发生作用,good_id只跟用户的good_id序列发生作用1 论文优化点**1.1注意力机制注意力机制顾名思义,就是模型在预测的时候,
2020-11-19 11:22:53
1045
原创 tensorflow2.0 api学习
1.数据扩展1.1 tf.tile 和tf.keras.backend.repeat_elements的区别repeat_elements 是元素级别的,tile是维度级别的repeat_elements(x, rep, axis):x 是输入,rep为重复次数,axis是沿着某个轴b = tf.constant([[1, 2, 3],[4,5,6]])c=tf.keras.backend.repeat_elements(b, rep=3, axis=1)output:<tf.Te
2020-11-13 11:45:37
1150
原创 推荐召回阶段-正负样本选取准则
粗排-正负样本选取准则精排目的是在优中(用户感兴趣的商品中)择优(挑选用户最感兴趣的商品)、粗排从商品池子中挑选出用户感兴趣的商品,了解这一区分性后,对精排和粗排正负样本的选取便会采取不同方式【结论】文中指出:i 采用曝光未点击的样本直接作为负样本,比随机采样效果差;ii 仅仅采用hard negative策略(不加入easy negative),也比随机采样效果差(easy negative很有必要,easy :hard negative=100:1),且采用上一轮模型结果101-500的样本进
2020-09-23 10:03:45
2553
原创 glove安装失败
直接pip install glove会报各种错误,当输入pip install glove-python-binary就不会了
2020-08-18 09:56:19
977
1
原创 特征重要性评估
1、gbdt、xgb 特征重要性源码解释:https://zhuanlan.zhihu.com/p/647591722、shap对xgboost特征重要性评估https://zhuanlan.zhihu.com/p/64799119
2020-07-07 09:37:11
1472
原创 jupyter误删文件
jupyter误删文件,如ipynb的,不可恢复,点击删除键时会提醒删除不可恢复的提醒,这时候点击确认键一定要注意。另外,如点击删除ipynb或者其他后坠的文件,在删除前曾打开过该文件,且该文件在标签页中没有关闭,将所需内容复制出来即可恢复。如不小心误删某个cell,可采取如下两种方式复原# 撰写for循环,此时把文件复制出来即可。即便点击了删除键,for line in locals()['In']: print(line) #利用history history...
2020-06-30 19:52:10
3792
原创 ALS推荐算法简介
目录ALS(交替最小二乘法)1.1 原理推导2.1.1 ALS2.1.2 ALS-L2正则化2.1.3 Stochastic Gradient ALS2.1.4 隐式反馈(Implicit Feedback )2. 优缺点ALS(交替最小二乘法)ALS (Alternating Least Squares) 交替最小二乘法。ALS 的核心是:打分矩阵R是近似低秩的。换句话说,一个打分矩阵 R ...
2020-04-12 22:25:37
2308
原创 tensorflow2.0基础简介
tensorflow2.0简介1、tensorflow 2.0基础知识简介tensorflow2.0是谷歌在2019年3月份发布更新的一款到端开源机器学习平台,其目的在于优化tensorflow1.x版本,使其更灵活和易用性;2.0版本较1.x有较大的更新,具有简易性、更清晰、扩展性三大特征,大大简化1.x 的API,其官方中文文档链接如:https://github.com/geektutu...
2020-04-12 20:56:06
1026
原创 数据倾斜原因及其解决方案
1、数据倾斜的概念数据倾斜是在map/reduce执行程序时,reduce大部分节点执行完毕,但有一个或者少数几个节点执行很慢,导致其他程序一直处于等待的状态,使得整个程序执行时间较长。2、为什么出现数据倾斜?主要是在shuffle过程中,由于不同的key对应的数据量不同导致不同task处理的数据量不一样的问题。表现如下:1、大部分的task执行完毕,少数几个甚至一个task可以执行但...
2020-04-12 20:55:14
1567
原创 分类算法评价准则
1 分类算法评价准则分类评价准则有Recall, Precision, ROC,AUC, Lift 曲线,KS曲线等。1.1 基础指标为了描绘的简单,在此给出一个实例:Table 3.1 样例图indexScoretrue labelPredict labelindexScoretrue labelPredict label10.9TT110....
2020-04-12 20:53:46
2429
2
原创 hive sql基本语法及注意事项
sql left join和 not in 比较建议在写sql语句的时候,尽量避免用not in 而 优先选择left join,这样效率会提高很多尽量用count(1) 而不是count(*)
2020-04-01 14:30:38
411
原创 spark DataFrame正则表达式
spark DataFrame正则表达式注意 在spark中使用正则的时候,需要时时刻刻加上转义自符'\'需要使用'\\',例如'\w'需要使用'\\w'正则表达式,使用的库在sql.funtions 下,如导入split和regexp_extractimport org.apache.spark.sql.functions.{regexp_extract,split}1.1 spl...
2020-04-01 14:22:51
3671
原创 python积铢累寸
一、python package1.numbanumba有两种编译模式:nopython模式和object模式。前者能够生成更快的代码,但是有一些限制可能迫使numba退为后者。想要避免退为后者,而且抛出异常,可以传递nopython=True.import numba@jit(nopython=True)def f(x, y): return x + ynumba目标是加快...
2020-04-01 12:12:08
494
原创 在训练的时候loss增大怎么办
引起这种问题的根本原因是Hessian矩阵的病态条件数1、对学习率乘上一个参数(0.99或者0.999)使得学习率随着学习步骤的进行而下降2、另一种办法就是采用现成的优化算法。参考链接:https://www.zhihu.com/question/60510992...
2020-03-26 10:58:50
4200
原创 spark xgboost & lightgbm 参数解释
一、spark xgboost 模型1 xgboost 的默认参数:xgb 参数参考链接 https://blog.youkuaiyun.com/yyy430/article/details/85179638 这个链接整理的比较全,但是这个参数是关于python版本的xgb,spark版本的xgboost默认参数和这个有出入1.1 默认参数如下: /*默认参数 eta -> 0.3 ...
2019-12-24 17:56:04
2369
sklearn_contrib_lightning-0.4.0-cp35-cp35m-win_amd64.whl
2018-03-09
PyQt4-4.11.4-cp35-cp35m-win_amd64.whl
2018-03-09
java各种算法,类似于冒泡,汉诺塔,三阶幻方,判断回文
2017-11-03
A Communication-Efficient Parallel Algorithm for Decision Tree
2017-11-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人