Daisy和她的单程车票-优快云博客

原创 Pandas多条件筛选

pandas可以用str.contains来模糊筛选，有点像SQL中的like。filter不筛选具体的数据，而是筛选特定的行和列。regex：正则表达式。items：固定列名。

2023-06-12 23:47:08 1394

原创 tensorflow2.0 模型训练耗时优化

tensoflow 模型训练阶段耗时优化

2023-04-02 21:35:27 274

原创 TensorFlow模型耗时优化

tensorflow模型训练耗时优化

2023-04-02 21:23:33 414

原创生成与解析tensoflow2 tf_serving_warmup_requests

tensoflow2 tf_serving_warmup_requests

2022-07-09 16:54:12 846 2

import tensorflow as tftfrecord_file="a.tfrecord"dataset=tf.data.TFRecordDataset(tfrecord_file)for raw in dataset.take(1): example=tf.train.Example() example.ParseFromString(raw_record.numpy()) print(example)

2022-04-17 19:54:21 348

原创 xgboost实例

# _*_coding:utf-8 _*_# @project:py_project# @name:7372# @date:2022/2/13 11:07# @Author:Lyimport pandas as pdimport osimport numpy as npimport xgboost as xgbfrom sklearn.metrics import recall_score,accuracy_score,roc_auc_score,f1_scorefrom sklearn

2022-02-13 22:30:15 99

原创 tf2.0初始化集中方式

TF2.0参数初始化的几种方式

2021-08-11 11:50:19 171

原创 pyspark udf in get_return_value py4j.protocol.Py4JJavaError:

1、在用pyspark的时候，像这种udf函数一定要加上类型，，不然会报错~~2、pyspark 如图，如果不加float，会报下面这个错误File "/mnt/yarn/usercache/hadoop/appcache/application_1614052931500_111643/container_1614052931500_111643_01_000001/pyspark.zip/pyspark/sql/dataframe.py", line 378, in show File "/

2021-03-23 22:09:16 617

原创离线与在线auc不一致问题

阅读论文：Predictive Model Performance: Offline and Online Evaluations1、离线AUC、RIG有迷惑性（线上线下不一致）、auc忽略了预测得分，只关注顺序(正样本排在负样本之前)auc 越高并不意味着有更好的排序AUC不能区分ROC空间的各个区域，所以仅通过优化数据两端的模型性能就可以训练模型以最大化AUC分数。实际上，高估pClick得分范围内的点击概率比低估pClick得分范围时对在线性能的影响要小低pClick范围内pClick得分

2021-03-21 16:27:39 1444

原创 shell 脚本测试是否服务器环境包含python包

#!/bin/bashecho “start”python3 <<EOF #开始符合和结束符合相同import arrowimport lightgbm as lgbimport xgboost as xgbfrom sklearn.ensemble import GradientBoostingClassifier, GradientBoostingRegressorfrom sklearn.linear_model import LogisticRegressionfrom

2021-02-04 15:30:35 226

原创 python .proto 转py

1、安装grpcio 与 grpcio-tools2、将要转化的安装grpcio 与 grpcio-tools将要转化的proto协议放入单独文件夹下3、在文件夹下运行cmd，执行python -m grpc_tools.protoc -I./ --python_out=./ --grpc_python_out=./ ..proto，即可将完成文件夹下所有的proto的转化proto协议放入单独文件夹下在文件夹下运行cmd，执行python -m grpc_tools.protoc -I./ --p

2020-12-24 14:01:41 934

原创 pyspark学习

1、修改列名有两种方式1.1 for循环一个个修改for name in field_mapping: all_data = all_data.withColumnRenamed(name, field_mapping[name])1.2 functions函数import pyspark.sql.functions as Fall_data = (all_data.select(*[F.col(s).alias(field_mapping[s]) if s in field_mapp

2020-12-09 15:47:40 146

原创 hadoop 基础命令一览

1 从HDFS将文件传到本地下面两个命令是把文件从HDFS上下载到本地的命令。1.1 get使用方法：hadoop fs -get [-ignorecrc] [-crc] 复制文件到本地文件系统。可用-ignorecrc选项复制CRC校验失败的文件。使用-crc选项复制文件以及CRC信息。示例：hadoop fs -get /user/hadoop/file localfilehadoop fs -get hdfs://host:port/user/hadoop/file localfile

2020-12-08 10:37:50 440

原创 tensorflow2.3+ kears tf.keras.models.load_model载人模型，模型ValueError: Unknown loss function: define_loss

自定义损失函数load_model

2020-12-03 16:28:21 875

原创优快云-markdown编辑器---基本语法一览

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2020-12-02 20:59:27 128

原创 tensorflow2.3以上keras model.fit()出现维度错误问题

def gen_model(site_id): input1 = tf.keras.layers.Input(shape=(2,), dtype=tf.float32, name='ty') ctr_label = tf.keras.layers.Input(shape=(1,), dtype=tf.float32, name='a_label') ctcvr_label = tf.keras.layers.Input(shape=(1,), dtype=tf.float32, .

2020-12-02 20:58:48 5769 1

原创日常s3命令记录

查看文件大小aws s3 ls s3://${path}/ --recursive --human-readable --summarize查看子目录浏览path子文件aws s3 ls s3://${path}/ s3不支持ll删除操作删除单个文件用rm，删除文件夹用–recursiveaws s3 rm s3://${path}/ --recursive同步本地文件至s3将data文件夹下的所有文件(包含文件夹及其子文件)传至s3的path目录下aws s3 sync dat

2020-12-02 20:54:23 398

原创多目标学习(Multi-task Learning)-网络设计和损失函数优化

目前多目标学习主要从两个方向展开，一个是网络结构设计，一个是损失函数优化；一、MTL网络设计MTL网络通常可分为两种两种，一种是hard-parameter sharing不同任务间共用底部的隐层，另一种是soft-parameter sharing，形式较为多样，如两个任务参数不共享，但对不同任务的参数增加L2范数的限制；也有一些对每个任务分别生成各自的隐层，学习所有隐层的组合；这两种方式各有优劣，hard类的网络较soft不容易陷入过拟合，但如果任务差异较大，模型结果较差，但soft类网络通常参数较

2020-12-01 17:12:02 9188 2

原创 tensorflow2.3+多任务学习MTL保存多个模型方案

以下代码是一个简单的esmm的模型，当我们想保存多个模型的时候，而且线上预测的时候，不想传两个label(label1,label2)进去的时候,处理方式如下def base_model(inputs,output, variable_scope): with tf.compat.v1.variable_scope(variable_scope): base_model = tf.keras.Model( inputs=inputs,

2020-12-01 16:12:43 728

原创推荐系统深度学习篇-AFM模型介绍(3)

一、AFM模型简介AFM模型是17年发表在IJCAI-17上的一篇论文，它是NFM模型的一个改进，在传统FM模型中，使用二阶交叉特征得到非线性表达能力，但是不是所有的特征交叉都会有预测能力，很多无用的特征交叉加入后反而会相当于加入了噪声。为了区别对待不同的特征，引入了Attention机制。论文地址为：https://www.ijcai.org/proceedings/2017/0435.pdf其结构图为其中attention network可形式化为：AFM模型的公式为：需要注意的是：

2020-11-19 11:55:24 2214

原创推荐系统深度学习篇-NFM 模型介绍(1)

一、NFM 模型介绍NFM是2017年由新加披国立大学提出的一种模型，其主要优化点在于提出了Bi-Interaction，Bi-Interaction考虑到了二阶特征组合，减轻了后面MLP部分学习特征信息的压力论文地址：https://arxiv.org/pdf/1708.05027.pdf其结构如下BI-Interaction的结构为该式可化简为详细推导过程如下编程简单记忆方式：和的平方-平方的和需要注意的是：1.该图显示的是在Bi-Interaction后由三层MLP构成，但

2020-11-19 11:49:13 2387 1

原创推荐系统深度学习篇-DCN网络介绍(2)

一、dcn简介dcn是17年由斯坦福大学提出，其主要目的是论文地址为：https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/1708.05123.pdf其结构图为这篇论文重点是提出了cross layer的概念，其结构图如下二、代码展示1、cross layer#@tf.functiondef cross_layer(x0, xl): embed_dim = xl.shape[-1] w = tf.Variable(

2020-11-19 11:27:32 7267

原创推荐系统深度学习篇-阿里DIN算法介绍(4)

din算法一、din简介该论文是18年由阿里巴巴的盖坤团队提出，论文地址为：https://arxiv.org/pdf/1706.06978.pdf原论文的网络结构为在深度学习推荐系统这本书中，王喆绘制了这么一幅图，更好理解注意架构图中的红线，发现每个ad会有 good_id, shop_id 两层属性，shop_id只跟用户历史中的shop_id序列发生作用，good_id只跟用户的good_id序列发生作用1 论文优化点**1.1注意力机制注意力机制顾名思义，就是模型在预测的时候，

2020-11-19 11:22:53 1045

原创 tensorflow2.0 api学习

1.数据扩展1.1 tf.tile 和tf.keras.backend.repeat_elements的区别repeat_elements 是元素级别的，tile是维度级别的repeat_elements(x, rep, axis):x 是输入，rep为重复次数，axis是沿着某个轴b = tf.constant([[1, 2, 3],[4,5,6]])c=tf.keras.backend.repeat_elements(b, rep=3, axis=1)output:<tf.Te

2020-11-13 11:45:37 1150

原创推荐召回阶段-正负样本选取准则

粗排-正负样本选取准则精排目的是在优中（用户感兴趣的商品中）择优（挑选用户最感兴趣的商品）、粗排从商品池子中挑选出用户感兴趣的商品，了解这一区分性后，对精排和粗排正负样本的选取便会采取不同方式【结论】文中指出：i 采用曝光未点击的样本直接作为负样本，比随机采样效果差；ii 仅仅采用hard negative策略（不加入easy negative），也比随机采样效果差（easy negative很有必要，easy ：hard negative=100：1），且采用上一轮模型结果101-500的样本进

2020-09-23 10:03:45 2553

原创 glove安装失败

直接pip install glove会报各种错误，当输入pip install glove-python-binary就不会了

2020-08-18 09:56:19 977 1

原创 linux日常使用命令

一、删除乱码文件ll -l ；find -inum 132212 -exec rm -rf {} \;

2020-07-15 14:16:08 140

原创特征重要性评估

1、gbdt、xgb 特征重要性源码解释：https://zhuanlan.zhihu.com/p/647591722、shap对xgboost特征重要性评估https://zhuanlan.zhihu.com/p/64799119

2020-07-07 09:37:11 1472

原创 jupyter误删文件

jupyter误删文件，如ipynb的，不可恢复，点击删除键时会提醒删除不可恢复的提醒，这时候点击确认键一定要注意。另外，如点击删除ipynb或者其他后坠的文件，在删除前曾打开过该文件，且该文件在标签页中没有关闭，将所需内容复制出来即可恢复。如不小心误删某个cell，可采取如下两种方式复原# 撰写for循环，此时把文件复制出来即可。即便点击了删除键，for line in locals()['In']: print(line) #利用history history...

2020-06-30 19:52:10 3792

原创 ALS推荐算法简介

目录ALS(交替最小二乘法)1.1 原理推导2.1.1 ALS2.1.2 ALS-L2正则化2.1.3 Stochastic Gradient ALS2.1.4 隐式反馈(Implicit Feedback )2. 优缺点ALS(交替最小二乘法)ALS (Alternating Least Squares) 交替最小二乘法。ALS 的核心是：打分矩阵R是近似低秩的。换句话说，一个打分矩阵 R ...

2020-04-12 22:25:37 2308

原创 tensorflow2.0基础简介

tensorflow2.0简介1、tensorflow 2.0基础知识简介tensorflow2.0是谷歌在2019年3月份发布更新的一款到端开源机器学习平台，其目的在于优化tensorflow1.x版本，使其更灵活和易用性；2.0版本较1.x有较大的更新，具有简易性、更清晰、扩展性三大特征，大大简化1.x 的API，其官方中文文档链接如：https://github.com/geektutu...

2020-04-12 20:56:06 1026

原创数据倾斜原因及其解决方案

1、数据倾斜的概念数据倾斜是在map/reduce执行程序时，reduce大部分节点执行完毕，但有一个或者少数几个节点执行很慢，导致其他程序一直处于等待的状态，使得整个程序执行时间较长。2、为什么出现数据倾斜？主要是在shuffle过程中，由于不同的key对应的数据量不同导致不同task处理的数据量不一样的问题。表现如下：1、大部分的task执行完毕，少数几个甚至一个task可以执行但...

2020-04-12 20:55:14 1567

原创分类算法评价准则

1 分类算法评价准则分类评价准则有Recall, Precision, ROC，AUC, Lift 曲线，KS曲线等。1.1 基础指标为了描绘的简单，在此给出一个实例：Table 3.1 样例图indexScoretrue labelPredict labelindexScoretrue labelPredict label10.9TT110....

2020-04-12 20:53:46 2429 2

原创 hive sql基本语法及注意事项

sql left join和 not in 比较建议在写sql语句的时候，尽量避免用not in 而优先选择left join，这样效率会提高很多尽量用count(1) 而不是count(*)

2020-04-01 14:30:38 411

原创 spark DataFrame正则表达式

spark DataFrame正则表达式注意在spark中使用正则的时候，需要时时刻刻加上转义自符'\'需要使用'\\',例如'\w'需要使用'\\w'正则表达式，使用的库在sql.funtions 下，如导入split和regexp_extractimport org.apache.spark.sql.functions.{regexp_extract,split}1.1 spl...

2020-04-01 14:22:51 3671

原创 python积铢累寸

一、python package1.numbanumba有两种编译模式：nopython模式和object模式。前者能够生成更快的代码，但是有一些限制可能迫使numba退为后者。想要避免退为后者，而且抛出异常，可以传递nopython=True.import numba@jit(nopython=True)def f(x, y): return x + ynumba目标是加快...

2020-04-01 12:12:08 494

原创在训练的时候loss增大怎么办

引起这种问题的根本原因是Hessian矩阵的病态条件数1、对学习率乘上一个参数（0.99或者0.999）使得学习率随着学习步骤的进行而下降2、另一种办法就是采用现成的优化算法。参考链接：https://www.zhihu.com/question/60510992...

2020-03-26 10:58:50 4200

原创 spark xgboost & lightgbm 参数解释

一、spark xgboost 模型1 xgboost 的默认参数：xgb 参数参考链接 https://blog.youkuaiyun.com/yyy430/article/details/85179638 这个链接整理的比较全，但是这个参数是关于python版本的xgb，spark版本的xgboost默认参数和这个有出入1.1 默认参数如下： /*默认参数 eta -> 0.3 ...

2019-12-24 17:56:04 2369

sklearn_contrib_lightning-0.4.0-cp35-cp35m-win_amd64.whl

python sklearn_contrib_lightning-0.4.0-cp35-cp35m-win_amd64.whl

2018-03-09

PyQt4-4.11.4-cp35-cp35m-win_amd64.whl

PyQt4-4.11.4-cp35-cp35m-win_amd64.whl，万能的http://www.lfd.uci.edu/~gohlke/pythonlibs/好像不能访问了，贼烦，所以共享一下资源

2018-03-09

2014信息系统项目管理师历年真题（含上午题、案例分析、论文）试题和答案

最新最全2005-2014信息系统项目管理师历年真题（含上午题、案例分析、论文）试题和答案

2017-11-04

2005信息系统项目管理师历年真题（含上午题、案例分析、论文）试题和答案

2017-11-04

网络安全技术试题

网络安全技术试题，史上最全，，花300元买来的试题，，提供给大家了

2017-11-04

网络信息安全试题

网络信息安全试题，带答案，，信息和知识面非常全，，

2017-11-04

武汉理工大学2010年研究生入学考试试题-软件工程

武汉理工大学2010年研究生入学考试试题---软件工程，走过路过不要错过

2017-11-04

武汉理工大学2006年研究生入学考试试题-软件工程

武汉理工大学2006年研究生入学考试试题-软件工程专业，不要错过哦

2017-11-04

武汉理工大学2002年研究生入学考试试题

武汉理工大学2002年研究生入学考试试题－数据结构

2017-11-04

on discriminative vs generative classifiers

从理论和实践区分判别模型和生成模型区分，andrew NG所写

2017-11-04

武汉理工大学计算机科学与技术学院考研资料

详细介绍武汉理工大学计算机类专业的考研各种题型，代码源码，机试题等

2017-11-03

java各种算法，类似于冒泡，汉诺塔，三阶幻方，判断回文

1. 平年，闰年，求今天是星期几 2. 九九乘法表梯形输出 3. 排序冒泡法 4. 求数组中最大的数和最小的数，并输出 5. 当前月的下一个月是上一月是 6. 三阶幻方 7. 判断回文 8. 判断两个字符串中相同位置上相等的字符两个字符串中相同的字符，不重复 9. 判断数组是否相等 10. 求三角形的面积 11. Smith数 12. 数组左移右移 13. 验证哥德巴赫猜想 14. ABC--- 15. 1+[]+2+[]+3+[]+4+[]+5+[]+6+[]+7+[]+8+[]+9+[]=110 []用+ - 或者为空，如果为空，1空2 变为12 16. 信用卡号码满足，倒数第1、3、5……位的和加上倒数第2、4、6位数字乘以2（如果乘以2后变成两位数，则减9）的和。能被10整除。任意输入一个数字串，检验是不是满足条件。 17. 汉诺塔问题

2017-11-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

sklearn_contrib_lightning-0.4.0-cp35-cp35m-win_amd64.whl

PyQt4-4.11.4-cp35-cp35m-win_amd64.whl

最新最全2013信息系统项目管理师历年真题（含上午题、案例分析、论文）试题和答案

2014信息系统项目管理师历年真题（含上午题、案例分析、论文）试题和答案

2005信息系统项目管理师历年真题（含上午题、案例分析、论文）试题和答案

网络安全技术试题

网络信息安全试题

武汉理工大学2010年研究生入学考试试题-软件工程

武汉理工大学2006年研究生入学考试试题-软件工程

武汉理工大学2002年研究生入学考试试题

on discriminative vs generative classifiers

武汉理工大学计算机科学与技术学院考研资料

java各种算法，类似于冒泡，汉诺塔，三阶幻方，判断回文

A Communication-Efficient Parallel Algorithm for Decision Tree

lightgbm算法

DoKuKIWI安装说明

train-images-idx3-ubyte.gz

lucene-core-2.4.1.jar je-analysis-1.5.3.jar

贝叶斯概率

1 CSS基本语法

空空如也