
数据挖掘
linxid
现阿里巴巴算法工程师,原华为诺亚方舟实验室高级算法工程师,专注人工智能算法研究
展开
-
推荐系统面试100问(一)-Wide&Deep
1. FM定义:考虑了两个互异的特征向量之间的相互关系;y^=w0+∑i=1nwixi+∑i=1n−1∑i=i+1nwi,jxixj\hat{y}= w_{0}+\sum_{i=1}^{n} w_{i} x_{i}+\sum_{i=1}^{n-1} \sum_{i=i+1}^{n} w_{i, j} x_{i} x_{j}y^=w0+i=1∑nwixi+i=1∑n−1i=i+1...原创 2020-03-24 11:38:35 · 3886 阅读 · 1 评论 -
《推荐系统实践-项亮》读书笔记
文章目录第一章 好的推荐系统1.1 什么是推荐系统:1.2 个性化推荐系统的应用:第二章 利用用户行为数据2.1 用户行为数据简介:2.2 用户行为分析:2.3 实验设计和算法评测2.4 基于邻域的算法:基于用户的协同过滤算法:基于物品的协同过滤算法-ItemCF:UserCF VS ItemCF:2.5 隐语义模型(LFM):2.6 基于图的模型:第三章 推荐系统冷启动问题3.1冷启动简介:3....原创 2020-03-02 14:39:28 · 1393 阅读 · 0 评论 -
Hashing(哈希)
数据挖掘中很重要的一个问题就是,发现数据中的相似项。使用的主要就是Hashing算法。整个流程如下图所示:发现相似项的用途: * 论文查重 * 协同过滤(collaborative filtering):相似兴趣用户推荐流程: 1、Shingling1.1 集合的相似度(jaccard相似度)定义:是指两个集合的交集与他们并集的比率。 公式: 示例: ...原创 2018-03-29 21:16:30 · 14877 阅读 · 3 评论 -
Big Data Analysis and Mining
Chapter1 Introduction1.1 What is Big Data:Anwser: used to describe a massive structured and unstructured data that is so large that it is difficult to process using traditional database and soft...原创 2018-05-29 13:05:33 · 4666 阅读 · 0 评论 -
音乐数据搜集
音乐数据集:1. GTZAN:非常古老(ˉ▽ ̄~),并且非常经典的音乐数据集。但是数据集中同样存在一些问题,标签上的错误[1]。数据描述:提供1000条音频数据,每条30s。一共包括10个音乐风格,每个风格包括100条数据。大小:1.2GPaper:[1] The GTZAN dataset: Its contents, its faults, their effects on ev...原创 2019-03-01 09:20:20 · 8861 阅读 · 0 评论 -
Ubuntu配置(三):命令行汇总
查看硬件信息:CPU:grep "model name" /proc/cpuinfo |awk -F ':' '{print $NF}'内存:dmidecode -t memory |grep -A16 "Memory Device$" |grep "Size:"硬盘:fdisk -lGPU: nvidia-smi文件管理:删除文件:rm [文件名]删除文件夹:rm -rf [文件...原创 2019-07-29 17:18:11 · 369 阅读 · 0 评论 -
KDD-cup 2019比赛总结
1.赛题介绍:比赛要求参与者使用从百度地图收集的历史用户行为数据和一组用户属性数据来推荐合适的交通方式。查询记录:查询记录代表百度地图上用户的一条路线搜索。每个查询记录都由会话ID、配置文件ID、时间戳、原始点的坐标、目的地的坐标组成。例如,[387056,234590,“2018-11-01 15:15:36”,(116.30,40.05),(116.35,39.99)]表示用户在2018...原创 2019-11-04 20:11:35 · 4345 阅读 · 5 评论