Mr_哲-优快云博客

原创多分类预估和auc评估

经典CTR预估场景，主要对是否曝光/点击（0/1）进行二分类。最近遇到多分类（类别之间互斥）问题，踩了一些坑，总结和整理下，希望能够加深对多分类理解和思考。区别二分类多分类标签 0/1 c类，如c=10:[0,1,0,0,0,0,0,0,0,0] 损失函数交叉熵多分类交叉熵预估输出 (0,1)值 c维向量，如c=10:[0.1,0.1,0.2,0.2,0.1,0.1,0.1,0.2,0.2,0.1] auc评估随机.

2020-11-11 21:29:23 8378

原创谈谈做算法中踩过的一些坑

目录产品形态需求和挑战规范性优化约束业务策略工程架构数据流流量分发降级服务告警数据特征数据归一化数据缺失数据稀疏数据不置信第三方数据校验和统一模型调参数据量级tensorboard参数随机初始化初始学习率激活函数选择学习率设定防止过拟合优化器选择残差块与BN层自动调参方法Grid Sea...

2019-10-20 13:07:49 1510

原创强化学习进阶——DQN

目录预备知识基本概念目标和约束条件MDP马尔可夫决策过程假设基本概念计算价值函数Action-Value Function动作价值函数Optimal value function最优价值函数策略迭代和值迭代Q-LearningQ-Learning算法EE问题DQNQ-Learning神经网络化DQN算法及其改进NIPS DQN...

2019-10-04 17:14:53 3057

原创强化学习基础——bandit

目录为选择而生为错误买单代价经典方法朴素Bandit算法ε-Greedy算法Thompson sampling算法Thompson sampling算法流程UCBUCB算法流程LinUCBContext Bandit-附加信息刻画决策过程Context Bandit如何学习LinUCB算法流程LinUCB代码LinUCB with Hyb...

2019-09-21 11:10:22 3643

原创深度兴趣网络模型探索——DIN+DIEN+DSIN

目录DIN背景din模型结构提出自适应正则提出相关延伸系统概述推荐流程介绍特征工程基本模型结构DIN模型自适应正则DIEN背景DIEN模型提出DIEN关键点DIEN模型兴趣提取层兴趣演化层DIEN模型结构DSIN背景DSIN模型提出DSIN改进点DSIN模型会话划分层会话兴趣提取层会话兴趣...

2019-06-10 23:33:20 12901 1

原创 feed流个性化推荐架构和算法分享

目录一、场景1.应用场景2.feed流资讯应用场景二.架构1. 物理架构2.逻辑架构三、召回算法1.用户画像2. tag热度（tagCtr）3. LBS/时间轴4.关键词标签5.主题标签6.语义标签7.协同过滤8.SimRank9. BERT10. FFM11. Deep & Wide四、排序算...

2019-05-05 21:47:38 11586 3

原创计算广告——读书笔记（二）

在计算广告——读书笔记（一）中，主要从产品角度介绍，而本篇从技术角度，继续介绍广告业务。一、计算广告技术概述1. 个性化系统框架一般个性化系统由四部分组成：用于实时响应请求，完成决策的在线投放（online serving）引擎，离线的分布式计算（distributed computing）数据处理平台，用于在线实时反馈的流计算（stream computing）平台，链接和运转以上三...

2019-04-05 18:56:29 8076 1

原创计算广告——读书笔记（一）

目录一、在线广告综述1. 大数据和广告关系2. 广告定义和目的3. 在线广告创意类型4. 在线广告简史5. 泛广告商业产品二、计算广告基础1. 广告有效性原理2. 互联网广告的技术特点3. 计算广告的核心问题3.1 广告收入的分解3.2 结算方式与ECMP估计关系4. 在线广告相关行业协会5. 问题三、在线广告产品概览1. 商业产...

2019-04-02 20:38:38 12001

原创基于K-均值的app列表聚类分析优化

目录一、过滤词表筛选二、模型更新三、app类型处理1. 统计app类型占比2. 新增app类型特征在基于K-均值的app列表聚类分析中，初步完成用户app列表特征聚类。我们在评估中发现以下几个问题：某些同类用户app列表出现大量相同的国民app（如支付宝、微信、QQ、腾讯视频等）和系统app（如日志和备份、相机等）；部分app属性对应有app类别，这部分信息没有利用...

2019-03-06 11:59:26 1760 1

原创基于K-均值的app列表聚类分析

目录一、工程实现1. 提取稀疏向量2. K-均值聚类3. 踩过的坑二、评估在个性化推荐中，新用户冷启动问题一直是难题。一般做法是tagCtr、地域、时间轴等（用户画像单一维度）推荐，效果也挺不错的。其实，除了以上比较明显维度考量，用户app列表也隐藏着用户丰富个性化特征。不同用户群体对app偏爱也不尽相同，例如游戏宅可能更多选择各种类型游戏app，漫画控喜欢二次元和动漫ap...

2019-02-27 20:55:14 4793

原创大规模分布式图学习框架Euler——安装和使用

目录一、Euler介绍1. 框架2. 应用2.1 大规模图的分布式学习2.2 支持复杂异构图的表征2.3 图学习与深度学习的结合2.4 分层抽象与灵活扩展3. 内置算法二、Euler安装1. 编译2. Euler安装 2.1 PyPI安装2.2 源码编译安装三、GraphSage模型训练1. PPI数据2. 模型训练3. 模型评估...

2019-01-21 20:51:45 7817 7

原创基于deepwalk图嵌入的match解读

目录一、deepwalk解读1. deepwalk介绍2. deepwalk优势2.1 online学习2.2 并行2.3 信息缺失2.4 graph embedding3. deepwalk算法和流程实现二、deepwalk在推荐应用1. 目标2. 代码说明2.1 数据格式2.2 代码说明3. 实验输出目前推荐系统常用的召回方法有ite...

2019-01-08 21:07:49 4529 2

原创 DBeaver 5.3.1安装和使用

目录一、下载和安装二、连接1. mysql连接2. hive连接3. clickhouse连接4. elasticsearch连接5. neo4j连接6. phoenix连接6.1 hbase与phoenix整合6.2 启动6.3 测试6.4 连接DBeaver是基于jdbc驱动的数据管理工具，支持丰富的数据库，如mysql、hive、click...

2019-01-02 22:14:39 7356

原创 tensorflow 常用API总结

最近一边接手一些深度学习的项目，一边学习和消化。在review code时，查询了不少api，其中一些api由于tensorflow版本已经弃用，为此专门做了些修正，并总结下来。

2018-12-25 16:23:59 9150 3

原创 spark优化指南

目录一、代码优化1. 基本原则2. 算子优化2.1 reduceByKey/aggregateByKey替代groupByKey2.2 mapPartitions(foreachPartitions)替代map(foreach)2.3 使用filter之后进行coalesce操作2.4 repartitionAndSortWithinPartitions替代repart...

2018-11-21 18:57:54 978

原创推荐系统FM & FFM算法解读与实践

在推荐系统和计算广告业务中，点击率CTR（click-through rate）和转化率CVR（conversion rate）是衡量流量转化的两个关键指标。准确的估计CTR、CVR对于提高流量的价值，增加广告及电商收入有重要的指导作用。业界常用的方法有人工特征工程 + LR（Logistic Regression）、GBDT（Gradient Boosting Decision Tree） + ...

2018-11-13 19:07:43 38275 15

原创 HBase优化指南

在Hbase2x 增删改查 scala版中，有介绍HBase1.2.x增删改查的api文档，但仅仅了解还是不够，在不同的读写业务场景中，必须做出适当优化，才能满足业务需求。本文首先讲解HBase缓存机制，并针对服务端(server)和客户端(client)进行调优说明。一、HBase缓存机制HBase由master和regionserver组成，master用来管理regionserver...

2018-11-06 20:13:27 905

原创 tensorflow模型构建流程

在tensorflow中，构建模型流程比较程式化，有构建图表（Build Graph）和评估（evaluate）两部分，其中构建图表又分为：推理（Inference）、损失（Loss）、训练（train）。掌握了这些，对于快速上手工程开发很有帮助。一、构建图表1. 推理（Inference）inference()函数会尽可能地构建图表，做到返回包含了预测结果(output predic...

2018-11-03 16:40:27 4080

原创 elasticsearch6.x ik中文分词集成

Elasticsearch是一个基于Apache Lucene(TM)的开源、实时分布式搜索和分析引擎。它用于全文搜索、结构化搜索、分析以及将这三者混合使用。IK Analysis插件将Lucene IK分析器集成到elasticsearch中，支持自定义词典。1. 选择ik版本IK版本安装是由Elasticsearch版本决定的，如下图所示。IK版本 ES版本主 6...

2018-10-24 18:12:06 1485

原创 tensorflow之卷积神经网络

卷积神经网络CNN(convolutional neural networks，CNN)是一种类似于人工神经网络的深度学习模型或多层感知机，常用在图像分类、目标检测、图像语义分割等领域，随着大规模图像数据的产生以及计算机硬件(特别是GPU)的飞速发展，其强大的特征学习与分类能力引起了广泛的关注，具有重要的分析与研究价值。一、what is CNN？工欲善其事必先利其器，为了更好理解卷积神经...

2018-10-23 21:27:07 1699

转载 Graphviz神经网络的绘图

一、Graphviz安装sudo apt-get install graphviz二、神经网络绘图创建并编辑nn.dot，新增如下digraph G { rankdir = LR splines = line nodesep = .05 subgraph cluster_0 { color = white; node [style = solid, colo...

2018-10-18 20:14:23 2334 5

原创初始tensorflow

很早之前就听闻tensorflow大名，作为深度学习框架的明星产品tensorflow从诞生之初，就备受关注。作为入门小白，以后也会逐步学起，更新tensorflow认识和技能。TensorFlow是Google开源的一款人工智能学习系统。为什么叫这个名字呢？Tensor的意思是张量，代表N维数组；Flow的意思是流，代表基于数据流图的计算。把N维数字从流图的一端流动到另一端的过程，就是人工智...

2018-10-17 11:23:29 3066

原创 neo4j 3.4.7安装和使用

neo4j是目前最流行的图形数据库，支持完整的事务。在树形图中，图是有顶点、边和属性组成的，顶点和边都可以设置属性，顶点又称节点，边也叫做关系。每个节点和关系都可以由一个或多个属性，neo4j创建的图是用顶点和边构建一个有向图，其查询语言为cypher。一、机器环境ubuntu 18.04LTS+java 1.8.0_172二、安装1.资源下载在https://neo4j.co...

2018-09-30 10:08:44 2623

原创基于ItemBased和ALS的协同过滤推荐算法

基于邻域的算法是个性化推荐系统中最基本的算法，该算法不仅在学术界得到了深入研究，而且在业界得到了广泛应用。基于邻域的算法分为两大类，一类是基于用户的协同过滤算法，另一类是基于物品的协同过滤算法。本文主要研究基于物品的协同过滤算法和基于ALS协同过滤算法。一、基于物品的协同过滤算法1.基本思想ItemCF算法通过计算用户的历史行为记录，来分析物品之间的相似度：如果喜欢物品A的用户大多数也...

2018-09-29 14:31:43 2200

原创 Cross-validation优化资讯多分类模型参数

在上一篇（https://blog.youkuaiyun.com/baymax_007/article/details/82775180）中，只是简单选用逻辑回归、决策树、随机森林、多层感知分类器、xgboost、朴素贝叶斯分类对资讯进行分类。然而，实际分类模型效果受模型初始化的参数影响，选取合适参数可以提高分类效果。交叉验证（Cross-validation）是常用的模型参数优化方法。CrossVali...

2018-09-28 10:08:14 2112 2

原创基于逻辑回归/决策树/随机森林/多层感知分类器/xgboost/朴素贝叶斯分类的资讯多分类性能对比

在上一篇（https://blog.youkuaiyun.com/baymax_007/article/details/82748544）中，利用逻辑回归实现资讯多分类。本文在之前基础上，又引入决策树、随机森林、多层感知分类器、xgboost和朴素贝叶斯分类算法，并对验证集和测试集分类正确率和耗时进行性能对比。ml支持决策树、随机森林、梯度提升决策树（GBDT）、线性支持向量机（LSVC）、多层感知分类器...

2018-09-27 17:18:09 5697 2

原创基于MLR资讯多分类

针对海量资讯，通过机器学习实现多分类，从而减轻人工打标工作量，具有重要意义。资讯分类可以拆解为两个问题：文本分词，提取特征多分类模型针对文本分词，常见中文分词工具有：HanLP、ansj、jieba和fudannlp。这里选取HanLP。而多分类模型有逻辑回归（Logistic regression）、决策树（Decision tree classifier）、随机森林（Random...

2018-09-17 21:21:31 1985

原创 spark ml实现逻辑回归案例分析

一、spark ml介绍spark ml对机器学习算法的api进行了标准化，使将多个算法合并到一个管道或工作流变得更容易。为了更清楚了解，从以下及几个方面展开说明。DataFrame:这个ML API使用Spark SQL的DataFrame作为ML数据集，它可以容纳各种数据类型。例如，DataFrame可能有不同的列存储文本、特征向量、真实标签和预测。Transformer: Tra...

2018-09-05 19:22:56 13032 6

原创 spark读写hbase性能对比

一、spark写入hbase hbase client以put方式封装数据，并支持逐条或批量插入。spark中内置saveAsHadoopDataset和saveAsNewAPIHadoopDataset两种方式写入hbase。为此，将同样的数据插入其中对比性能。依赖如下：<!-- https://mvnrepository.com/artifact/org.apache...

2018-08-29 19:29:01 8695 2

原创 spark ml 实现tf-idf和word2vec

一、tf-idf介绍 tf-idf(term frequency-inverse document frequency) 一种广泛用于文本挖掘的特征向量方法，用户反映术语对语料库中文档重要性，tf(Term Frequency):表示一个term与某个document的相关性，idf(Inverse Document Frequency):表示一个term表示document的主题的权重...

2018-08-22 19:59:28 3763 1

原创 spark ml 特征工程实现

package com.sparkMLlibStudy.modelimport java.utilimport org.apache.spark.ml.attribute.{Attribute, AttributeGroup, NumericAttribute}import org.apache.spark.ml.feature._import org.apache.spark.ml...

2018-08-22 11:56:21 1988

原创 pycharm开发spark项目配置和测试

机器环境是Ubuntu18.04LTS、python3.6.5和spark2.3.1，开发IDE是PyCharm 2018.2.1 (Community Edition)，都已经安装完毕。主要介绍如何安装python开发spark程序。一、安装相关包1. 安装pysparksudo pip3 install pyspark2. 安装py4jspark的python版开发API...

2018-08-16 16:06:50 1916

原创 ELK 6.3.1安装与部署

机器环境：logstash-6.3.1+kibana-6.3.1+elasticsearch-6.3.1一、redis1. 安装redis服务端sudo apt-get install redis-server2. 检查redis服务进程ps -aux| grep redisredis 6783 0.1 0.0 58548 2432 ? Ssl 18:14 0:00 /u...

2018-08-14 17:02:34 1280

原创 SparkStreaming 2.3.1 API使用介绍

一、介绍Spark Streaming是核心SparkAPI的扩展，可实现实时数据流的可扩展，高吞吐量，容错流处理;可以从许多来源（如Kafka，Flume，Kinesis或TCP端口）中获取数据，并且可以使用以高级函数（如map，reduce，join和window）表示的复杂算法进行处理;最后，处理后的数据可以推送到文件系统，数据库和实时仪表板。。二、数据源sparkstreami...

2018-08-14 16:43:10 1682

原创 Hbase2x 增删改查 scala版

package com.sparkStudy.utilsimport java.utilimport org.apache.hadoop.conf.Configurationimport org.apache.hadoop.hbase.client.BufferedMutator.ExceptionListenerimport org.apache.hadoop.hbase.clie...

2018-08-12 15:12:43 879

原创 ClickHouse安装和使用技巧

一、简介ClickHouse是“战斗民族”俄罗斯搜索巨头Yandex公司开源的一个极具"战斗力"的实时数据分析数据库，是面向 OLAP 的分布式列式DBMS。ClickHouse有一个简称"CK"，与Hadoop、Spark这些巨无霸组件相比，ClickHouse很轻量级，其特点：列式存储数据库，数据压缩关系型、支持SQL 分布式并行计算，把单机性能压榨到极限高可用数据量级在...

2018-08-09 14:56:34 16061 2

原创 sparkSQL API使用总结

一、SparkSessionSpark SQL所有功能入口点是SparkSession，创建SparkSession，仅使用SparkSession.builder()就可以：import org.apache.spark.sql.SparkSession val spark = SparkSession .builder() .appName("Spark SQL basic ex...

2018-08-01 09:24:05 3707

原创 spark RDD算子总结

在spark数据处理中，一些算子使用频道很高。为此，总结在工作中常用的一些算子，并结合数据进行说明。一、二次排序二次排序属于日志处理中，经常遇到，而使用scala可以极大简化代码。数据secondarysortExample.txt数据如下；2,21,314,41,112,21,314,41,13,8class SecondarySort(val...

2018-07-30 13:39:36 1344

原创 spark 2.3.1安装

机器环境：scala 2.11.12、hadoop 3.0.0、spark 2.3.1一、安装scala 2.11.12tar -zxf scala-2.11.12.tgz -C /opt/modules/sudo vi /etc/profile# SCALA_HOMEexport SCALA_HOME=/opt/modules/scala-2.11.12export P...

2018-07-30 13:18:36 1520

原创 kafka 1.1.0安装

机器环境：scala 2.11.12、kafka-2.11-1.1.0一、安装1. kafka_2.11-1.1.0解压tar -zxf kafka_2.11-1.1.0.tgz -C /opt/modules/2. 修改配置server.propertiesbroker.id=0port=9092host.name=leelog.dirs=/opt/...

2018-07-26 09:12:43 1330

空空如也

空空如也