- 博客(25)
- 资源 (4)
- 收藏
- 关注

原创 读书笔记 - 从零开始构建企业级推荐系统
目录 第 1 章 推荐系统的时代背景 2021年2月19日 第 2 章 推荐系统的核心技术概述 2021年2月20日 第 3 章 基础推荐算法 2021年2月22日 第 4 章 算法融合与数据血统 第 5 章 机器学习技术的应用 第 6 章 用户画像系统 第 7 章 系统效果评测与监控 第 8 章 推荐效果优化 第 9 章 自然语言处理技术的应用 第 10 章 探索与利用问题 第 11 章 推荐系统架构设计 第 12 章 推荐系统工程.
2021-02-22 09:28:08
528
2
原创 第 5 章 机器学习技术的应用(下)
yfx11e−zz∑iwi×xiyfx1e−z1zi∑wi×xi线性部分(z)+logistic部分;y 表示一个物品被用户点击的概率, 1-y 即用户不点击该物品的概率;oddsy1−yoddsy1−y, 一件事情发生与不发生的的比例;
2023-06-18 16:46:51
1056
原创 BERT 服务化 bert-as-service
原文bert-as-service 用 BERT 作为句子编码器, 并通过 ZeroMQ 服务托管, 只需两行代码就可以将句子映射成固定长度的向量表示;准备windows10 + python3.5 + tensorflow1.2.1安装流程安装 tensorflow, 参考安装 bert-as-servicebert-as-service, 依赖于 python≥3.5 AND tensorflow≥1.10;pip install bert-serving-serverpip in
2021-03-03 18:42:47
2766
2
原创 第 5 章 机器学习技术的应用(中)
原文机器学习技术的实施方法特征处理特征工程的重要性需要同时掌握理论方法和业务逻辑才能提取有效的特征;在特征方面拥有最大的自主性和探索性;指征能力, 该特征的大小变化对最终结果的大小变化会在什么方向起到多大的作用;用户ID类特征ID特征, 指为每个用户分配一个唯一ID, 将这组唯一ID作为一组 One-Hot 特征, 每个用户在这组特征中只有一个特征; 具有个性化程度最强;学习到一个用户整体的点击偏好, 承担学习全局偏置的功能;将用户ID与物品侧的非ID类特征交叉组合, user_id+u
2021-03-03 09:02:53
517
原创 第 5 章 机器学习技术的应用(上)
原文机器学习技术概述让计算机在没有被显示编程的情况下具有自主学习的能力;学习出特征和目标之间具体的相关性;学习结果的用法: 预测, 推断(inference);推荐系统中的应用场景推荐系统的本质是匹配;推荐结果排序传统的方式是利用公式来定义排序规则, 机器学习是选择具有良好描述能力的规则系统来服务于系统;用户兴趣建模用户兴趣的捕捉和预测, 捕捉即对用户行为的客观记录; 预测则基于行为记录对用户将来可能感兴趣的内容进行预测;候选集召回类似排序问题;优点:机器学习系
2021-03-02 09:15:32
321
原创 Clickhouse 安装教程 - 单机版
原文简单的 Clickhouse 单机版安装教程, 适合新手上手体验;安装准备curl 工具, yum install -y curl; yum-utils 工具, yum install -y yum-utils;CentOS Linux 8 系统检查系统是否支持安装 clickhousegrep -q sse4_2 /proc/cpuinfo && echo "SSE 4.2 supported" || echo "SSE 4.2 not supported."取消
2021-02-27 16:32:57
800
原创 Ubuntu 系统安装 - VirtualBox 版
原文VM VirtualBox 上的操作新建虚拟电脑, 填写名称以及虚拟机文件夹存放路径;选择虚拟机内存大小;创建虚拟硬盘;选择虚拟硬盘文件类型:VDI是 virtual box 的原生格式VMDK 是为 VMware 开发的,在Sun xVM, QEMU, VirtualBox, SUSE Studio, .NET DiscUtils 也支持VHD是 Microsoft Virtual PC 的原生格式,在微软产品比较流行;三者均支持动态大小调整,
2021-02-26 07:44:44
230
原创 Ubuntu 系统安装 - VMware Workstation版
原文VMware Workstation 上的操作选择’创建新的虚拟机’默认’典型’, 下一步;可以直接选择’安装程序光盘映像文件(iso)’, 指定 Ubuntu 镜像文件, 稍后就直接自动开始安装即可;也可以先选择’稍后安装操作系统’, 配置完 VM 后再安装;选择’Linux’操作系统, 版本选择 Ubuntu 64 位;命名虚拟机以及指定虚拟机文件存放位置;磁盘容量大小, 建议选择单个文件, 性能会比多个文件的好, 不考虑移动磁盘文件的话;确认
2021-02-25 21:46:35
812
1
原创 第 4 章 算法融合与数据血统
原文关联规则算法, 由于限制较大, 所以相关性较强, 但覆盖率较低;协同过滤算法, 覆盖率更高, 相关性较差;以上两者基于行为, 有冷启动问题, 所以需要内容相关性算法来托底;三种算法的融合得出最终的结果;数据血统: 对数据的来源进行记录与分析的相关数据和过程;线性加权融合scorei=∑j(wj×scorej,i)score_i = \sum_j(w_j \times score_{j,i})scorei=j∑(wj×scorej,i)w, 对该推荐物品使用的推荐算法的权重;
2021-02-23 09:01:42
575
1
原创 第 3 章 基础推荐算法
原文相关性召回+点击率排序推荐逻辑流程架构根本任务: 匹配匹配过程步骤:相关性召回, 对用户做360度全方位扫描, 尽量多的描述和覆盖用户可能感兴趣的高质量的物品;候选集融合, 重点关注多样性和相关性的均衡, 召回算法的优先级等问题;结果排序, 按照某一确定目标进行排序;业务干预分层明确的逻辑架构, 有利于项目整体的并行化和效果调优的并行化;召回算法的基本逻辑匹配的常用计算路径:直接计算用户与物品的相关性;用户到物品的行为权重+物品与物品的相关性 => 用户与物品的相
2021-02-22 09:23:42
276
原创 第 2 章 推荐系统的核心技术概述
原文多组件, 多模块, 多数据源构成; 涉及用户, 物品, 行为, 上下文等数据;计算形式包括大数据平台上的批量计算/挖掘/训练, 流式数据的实时处理, 线上的实时服务;核心逻辑拆解核心目的: 为用户找当前场景下最具相关性的物品或物品集合;以用户兴趣为轴:P(item∣user)=∑interest(P(item∣interest)×P(interest∣user))P(item|user)=\sum_{interest} (P(item|interest) × P(interest|user
2021-02-20 08:28:59
771
1
原创 第 1 章 推荐系统的时代背景
原文推荐系统存在必要性流量利用流量的四个特点: 稀缺性, 在流量红利退去之后, 部分市场近似零和游戏, 获取流量成本不断增加; 不确定性, 引入用户后如何判断用户来到该网站的意图, 以便进一步针对性的营销活动, 满足用户需求并提高用户体验; 差异性, 基于用户个性, 所处情境不同; 连通性, 影响流量的流转效率;流量成本:外部成本, 将用户从站外拉到站内所需成本, 即获客成本, 包括广告, SEO, SEM, 促销等;内部成本, 流量引入站内后, 会占用其他页面的收益;推荐解决搜索无法解决
2021-02-19 09:10:19
973
原创 Kibana 插件开发
原文环境背景, Kibana 7.4.0, Elasticsearch 7.4.0创建插件(hello_kibana)通过一下命令生成插件目录node scripts/generate_plugin.js plugin_name注意: Kibana 源码所在目录名必须为 kibana, 否则可能造成创建插件失败;(见QA 2)$ node scripts/generate_plugin.js hello_kibana # 此处以 hello_kibana 为例? Provide a shor
2021-02-18 20:07:48
1073
原创 Kibana QA
4. ChromeDriver binary 不可用Current existing ChromeDriver binary is unavailable, proceding with download and extraction.先安装 chromedrivernpm install --global chromedriver --chromedriver_cdnurl=http://cdn.npm.taobao.org/dist/chromedriver3. i18nrc.json 文件解
2021-02-18 18:52:50
361
原创 Kibana 插件环境搭建教程
环境背景, Kibana 7.4.0, Elasticsearch 7.4.0注意, 执行以下命令时, 尽量在管理员权限的命令行窗口里执行, 避免一些没有权限的报错;1. 准备 Kibana 源码git clone https://github.com/elastic/kibana.git如果 github 访问过慢, 可以切换加速通道: https://github.com.cnpmjs.org/elastic/kibana.git切换对应 ES 版本的分支/标签:cd kibanagit
2021-02-08 17:41:53
583
2
原创 Elasticsearch 分片调整流程
文章目录1. 禁用自动分配分片2. 手动移动分片2.0. 移动单个分片2.1. 根据 IP 禁用分片2.2. 根据 IP 分配分片背景Elasticsearch 版本 7.4.01. 禁用自动分配分片PUT _cluster/settings{ "persistent": { "cluster": { "routing": { "allocation.enable": "none" } } }}cluster.routing.
2021-01-29 17:35:32
1627
原创 分位数、箱线图
分位数:根据其将数列等分的形式不同可以分为中位数、四分位数、十分位数、百分位数等等。四分位数(Quartile)将数据划分为4个部分,每部分大约包含1/4即25%的数据项,其临界点即为四分位数。Q1=第1四分位数,下分位数,即第25%分位数;Q2=第2四分位数,中位数,即第50%分位数;Q3=第3四分位数,上分位数,即第50%分位数;四分位计算公式n1=count/4n_1=count/4n1=count/4m1=count%4m_1=count\%4m1=count%4Q1=l
2021-01-29 11:00:22
6830
原创 SpringBoot 线程池的创建和 Async 注解
文章目录线程池配置类Async 注解使用注意事项参考资料线程池配置类package com.memento.common.config;import org.springframework.context.annotation.Bean;import org.springframework.context.annotation.Configuration;import org.springframework.scheduling.annotation.EnableAsync;import or
2021-01-28 08:42:13
390
1
原创 第 1 章 Python 和数据化运营
数据化运营: 指通过数据化的工具, 技术和方法, 对运营过程中的各个环节进行科学分析, 引导和应用, 从而达到优化运营效果和效率, 降低成本, 提高效益的目的;辅助决策式数据化运营数据驱动式数据化运营数据驱动式数据化运营工作流程:Python and Jupyter查看 Jupyter 可用内核 jupyter kernelspec list;批量到处 Python 的第三方库列表:pip freeze > requirements.txt批量安装第三方库列表到新环境中:pip
2020-07-09 23:04:50
447
原创 Linux TOP 命令详解
本文首发于个人博客: Linux 命令 TOP 地址: https://memento.net.cn/post/817271be.html第一行, 任务队列信息同 uptime 命令执行结果# uptime 10:49am up 45 days 0:05, 6 users, load average: 7.57, 6.72, 6.10值说明10:49am当前时间up 45 days 0:05系统运行时间, 时:分6 users当前登录用户数.
2020-07-07 06:43:48
202
原创 Elasticsearch 模块-Shard Allocation 机制
本文基于 Elasticsearch 7.4.0 版本官方文档, 整理关于 Shard Allocation 分片分配机制这一部分的理论知识, 望不吝赐教~
2020-06-09 21:03:05
2173
1
原创 追溯 MySQL Statement Cancellation Timer
从源码处追溯 MySQL Statement Cancellation Timer 守护线程的生命周期
2020-06-06 13:55:02
3204
原创 python 自动化合并 ts 视频流
1. 背景通过在 chrome 或其他浏览器的 F12-Network 中发现, 当前网页播放的视频是通过一段一段的 ts 文件加载解析播放的;如果需要下载该视频, 就需要将所有的 ts 文件下载下来并合并起来;2. 方法一: cmd 的 copy /b 指令在 ts 文件夹下, 打开 cmd 命令行窗口, 执行 copy /b *.ts target.mp4 命令, 将所有 ts 后缀的文件拷贝合并到目标文件 target.mp4 中即可;需要注意两点:2.1. 问题1, 序号列位数不一致
2020-06-05 07:46:06
7772
转载 [阅读] 三个实例演示 Java Thread Dump 日志分析
原文线程状态死锁, DeadLock, 多个线程调用间, 进入相互资源占用, 导致一直等待无法释放的情况;执行中, Runnable, 指该线程正在执行状态中, 该线程占用了资源, 正在处理某个请求, 或者正在传递 SQL 到数据库执行, 或对某个文件操作, 或进行数据类型转换等;等待资源, Waiting on condition, 等待资源, 或等待某个条件的发生;(结合 stacktrace 分析)如果栈信息明确是应用代码, 则证明该线程正在等待资源, 一般是大量读取某资源, 且该资源采
2020-06-02 15:54:16
422
原创 mysql-canal-rabbitmq 安装部署教程
本文主要介绍 mysql canal rabbitmq 的数据订阅消费集成方案的安装部署过程, 讲解一下流程操作以及过程中的一些细节, 和出现的问题的解决方法.
2020-04-15 09:16:50
3099
1
Solr 权威指南上下卷
2018-11-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人