
【Lambda大数据开发】
汪雯琦
广告平台商业化策略·Python·数据分析·数据挖掘·机器学习·人工智能
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
推荐系统(六):实时产生推荐结果、推荐任务处理
文章目录六 实时产生推荐结果6.1 推荐任务处理六 实时产生推荐结果6.1 推荐任务处理CTR预测模型 + 特征 ==> 预测结果 ==> TOP-N列表特征获取import redisimport jsonimport pandas as pdfrom pyspark.ml.linalg import DenseVectordef create_da...原创 2020-03-15 17:12:52 · 3988 阅读 · 1 评论 -
推荐系统(五):离线推荐数据缓存、离线数据缓存之离线召回集、离线数据缓存之离线特征
文章目录五 离线推荐数据缓存5.1离线数据缓存之离线召回集5.2 离线数据缓存之离线特征五 离线推荐数据缓存5.1离线数据缓存之离线召回集这里主要是利用我们前面训练的ALS模型进行协同过滤召回,但是注意,我们ALS模型召回的是用户最感兴趣的类别,而我们需要的是用户可能感兴趣的广告的集合,因此我们还需要根据召回的类别匹配出对应的广告。所以这里我们除了需要我们训练的ALS模型以外,还需要有...原创 2020-03-15 17:12:04 · 928 阅读 · 0 评论 -
推荐系统(四):LR实现CTR预估、Spark逻辑回归(LR)训练点击率预测模型
文章目录四 LR实现CTR预估4.1 Spark逻辑回归(LR)训练点击率预测模型四 LR实现CTR预估4.1 Spark逻辑回归(LR)训练点击率预测模型本小节主要根据广告点击样本数据集(raw_sample)、广告基本特征数据集(ad_feature)、用户基本信息数据集(user_profile)构建出了一个完整的样本数据集,并按日期划分为了训练集(前七天)和测试集(最后一天),利...原创 2020-03-15 17:11:24 · 2848 阅读 · 0 评论 -
推荐系统(三):CTR预估数据准备、分析并预处理raw_sample数据集、ad_feature数据集、user_profile数据集
文章目录三 CTR预估数据准备3.1 分析并预处理raw_sample数据集3.2 分析并预处理ad_feature数据集3.3 分析并预处理user_profile数据集三 CTR预估数据准备3.1 分析并预处理raw_sample数据集# 从HDFS中加载样本数据信息df = spark.read.csv("hdfs://localhost:9000/data/raw_sample.c...原创 2020-03-15 17:10:44 · 2678 阅读 · 1 评论 -
推荐系统(二):根据用户行为数据创建ALS模型并召回商品、用户行为数据拆分、预处理behavior_log数据集、根据用户对类目偏好打分训练ALS模型、根据用户对品牌偏好打分训练ALS模型
文章目录二 根据用户行为数据创建ALS模型并召回商品2.0 用户行为数据拆分2.1 预处理behavior_log数据集2.2 根据用户对类目偏好打分训练ALS模型2.3 根据用户对品牌偏好打分训练ALS模型二 根据用户行为数据创建ALS模型并召回商品2.0 用户行为数据拆分方便练习可以对数据做拆分处理pandas的数据分批读取 chunk 厚厚的一块 相当大的数量或部分imp...原创 2020-03-15 17:09:43 · 2312 阅读 · 1 评论 -
推荐系统(一):个性化电商广告推荐系统介绍、数据集介绍、项目效果展示、项目实现分析、点击率预测(CTR--Click-Through-Rate)概念
文章目录一 个性化电商广告推荐系统介绍1.1 数据集介绍1.2 项目效果展示1.3 项目实现分析1.4 点击率预测(CTR--Click-Through-Rate)概念一 个性化电商广告推荐系统介绍1.1 数据集介绍Ali_Display_Ad_Click是阿里巴巴提供的一个淘宝展示广告点击率预估数据集数据集来源:天池竞赛原始样本骨架raw_sample淘宝网站中随机抽样了11...原创 2020-03-15 17:08:29 · 6481 阅读 · 2 评论 -
大数据之sparkStreaming(三):Spark Streaming的状态操作
文章目录3、Spark Streaming的状态操作3.1 updateStateByKey案例:updateStateByKey3.2 Windows3、Spark Streaming的状态操作在Spark Streaming中存在两种状态操作UpdateStateByKeyWindows操作使用有状态的transformation,需要开启Checkpointspark st...原创 2020-03-15 17:04:15 · 1594 阅读 · 0 评论 -
大数据之sparkStreaming(二):Spark Streaming编码实践
文章目录2、Spark Streaming编码实践2、Spark Streaming编码实践Spark Streaming编码步骤:1,创建一个StreamingContext2,从StreamingContext中创建一个数据对象3,对数据对象进行Transformations操作4,输出结果5,开始和停止利用Spark Streaming实现WordCount需求:监听某...原创 2020-03-15 17:03:02 · 881 阅读 · 1 评论 -
大数据之sparkStreaming(一):sparkStreaming概述、SparkStreaming的组件
文章目录课程目标1、sparkStreaming概述1.1 SparkStreaming是什么1.2 SparkStreaming的组件课程目标说出Spark Streaming的特点说出DStreaming的常见操作api能够应用Spark Streaming实现实时数据处理能够应用Spark Streaming的状态操作解决实际问题独立实现foreachRDD向mysql数据库的数...原创 2020-03-15 17:01:09 · 607 阅读 · 0 评论 -
大数据之Spark Sql(三):JSON数据的处理、静态json数据的读取和操作、动态json数据的读取和操作
文章目录3、JSON数据的处理3.1 介绍3.2 实践3.1 静态json数据的读取和操作3.2 动态json数据的读取和操作3、JSON数据的处理3.1 介绍JSON数据Spark SQL can automatically infer the schema of a JSON dataset and load it as a DataFrameSpark SQL能够自动将JSON...原创 2020-03-15 16:59:11 · 1424 阅读 · 0 评论 -
大数据之Spark Sql(二):DataFrame、创建DataFrame、DataFrame API实现
文章目录2、DataFrame2.1 介绍2.2 创建DataFrame2.3 DataFrame API实现2、DataFrame2.1 介绍在Spark语义中,DataFrame是一个分布式的行集合,可以想象为一个关系型数据库的表,或者一个带有列名的Excel表格。它和RDD一样,有这样一些特点:Immuatable:一旦RDD、DataFrame被创建,就不能更改,只能通过tran...原创 2020-03-15 16:55:18 · 651 阅读 · 0 评论 -
大数据之Spark Sql(一):Spark SQL 概述、历史、优势、
文章目录课程目标1、Spark SQL 概述课程目标说出Spark Sql的相关概念说出DataFrame与RDD的联系独立实现Spark Sql对JSON数据的处理独立实现Spark Sql进行数据清洗1、Spark SQL 概述Spark SQL概念Spark SQL is Apache Spark’s module for working with structured ...原创 2020-03-15 16:28:41 · 1013 阅读 · 0 评论 -
大数据之Hbase(六):HBase组件、HBase 基础架构、HBase模块协作
文章目录5.6 HBase组件1 HBase 基础架构2 HBase模块协作5.6 HBase组件1 HBase 基础架构Client①与zookeeper通信, 找到数据入口地址②使用HBase RPC机制与HMaster和HRegionServer进行通信;③Client与HMaster进行通信进行管理类操作;④Client与HRegionServer进行数据读写类操作。...原创 2020-03-14 23:47:30 · 430 阅读 · 0 评论 -
大数据之Hbase(五):HBase表设计、特点及需要考虑的问题、HBase表设计案例: 社交应用互粉信息表
文章目录5.5 HBase表设计1 HBase表设计特点及需要考虑的问题2 HBase表设计案例: 社交应用互粉信息表5.5 HBase表设计1 HBase表设计特点及需要考虑的问题设计HBase表时需要注意的特点HBase中表的索引是通过rowkey实现的在表中是通过Row key的字典顺序来对数据进行排序的, 表中Region的划分通过起始Rowkey和结束Rowkey来决定的...原创 2020-03-14 23:45:31 · 933 阅读 · 0 评论 -
大数据之Hbase(四):HappyBase操作Hbase
文章目录5.4 HappyBase操作Hbase5.4 HappyBase操作Hbase什么是HappyBaseHappyBase is a developer-friendly Python library to interact with Apache HBase. HappyBase is designed for use in standard HBase setups, an...原创 2020-03-14 23:42:53 · 1723 阅读 · 0 评论 -
大数据之Hbase(三):HBase 的安装与Shell操作
文章目录5.3 HBase 的安装与Shell操作1 HBase的安装2 HBase shell5.3 HBase 的安装与Shell操作1 HBase的安装下载安装包 http://archive.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.7.0.tar.gz配置伪分布式环境环境变量配置export HBASE_HOME=/root...原创 2020-03-14 23:41:26 · 344 阅读 · 0 评论 -
大数据之Hbase(二):HBase的数据模型、cap定理
文章目录5.2 HBase的数据模型cap定理5.2 HBase的数据模型NameSpace: 关系型数据库的"数据库"(database)表(table):用于存储管理数据,具有稀疏的、面向列的特点。HBase中的每一张表,就是所谓的大表(Bigtable),可以有上亿行,上百万列。对于为值为空的列,并不占用存储空间,因此表可以设计的非常稀疏。行(Row):在表里面,每一行代...原创 2020-03-14 23:40:00 · 1660 阅读 · 0 评论 -
大数据之Hbase(一):HBase简介、BigTable、面向列的数据库、非结构化数据存储、HBase在Hadoop生态中的地位、 HBase与HDFS、HBase使用场景
文章目录5.1 HBase简介1 什么是HBase2 BigTable3 面向列的数据库4 什么是非结构化数据存储5 HBase在Hadoop生态中的地位6 HBase与HDFS7 HBase使用场景5.1 HBase简介1 什么是HBaseHBase是一个分布式的、面向列的开源数据库HBase是Google BigTable的开源实现HBase不同于一般的关系数据库, 适合非结构化数...原创 2020-03-14 23:38:34 · 1342 阅读 · 2 评论 -
大数据之Hive(四):hive综合案例
文章目录4.4 hive综合案例4.4 hive综合案例内容推荐数据处理需求根据用户行为以及文章标签筛选出用户最感兴趣(阅读最多)的标签相关数据 user_id article_id event_time11,101,2018-12-01 06:01:1022,102,2018-12-01 07:28:1233,103,2018-12-01 07:50...原创 2020-03-14 23:37:10 · 1336 阅读 · 0 评论 -
大数据之Hive(三):Hive 函数、Hive 函数、内置函数、Hive 自定义函数和 Transform
文章目录4.3 Hive 函数1 内置运算符2 内置函数3 Hive 自定义函数和 Transform4.3 Hive 函数1 内置运算符在 Hive 有四种类型的运算符:关系运算符算术运算符逻辑运算符复杂运算(内容较多,见《Hive 官方文档》》)2 内置函数https://cwiki.apache.org/confluence/display/Hive/...原创 2020-03-14 23:36:19 · 641 阅读 · 0 评论 -
大数据之Hive(二):Hive 基本操作、Hive HQL操作初体验、Hive的内部表和外部表、分区表、动态分区
文章目录4.2 Hive 基本操作1 Hive HQL操作初体验2 Hive的内部表和外部表3 分区表4 动态分区4.2 Hive 基本操作1 Hive HQL操作初体验创建数据库CREATE DATABASE test;显示所有数据库SHOW DATABASES;创建表CREATE TABLE student(classNo string, stuNo strin...原创 2020-03-14 23:35:36 · 423 阅读 · 0 评论 -
大数据之Hive(一):Hive基本概念、架构、Hive 与 Hadoop 的关系、Hive 与传统数据库对比、Hive 数据模型、Hive 安装部署
4.1 Hive基本概念文章目录4.1 Hive基本概念1 Hive简介什么是 Hive为什么使用 Hive2 Hive 架构Hive 架构图Hive 组件Hive 与 Hadoop 的关系3 Hive 与传统数据库对比4 Hive 数据模型5 Hive 安装部署1 Hive简介学习目标- 了解什么是Hive- 了解为什么使用Hive什么是 HiveHive 由 Faceboo...原创 2020-03-14 23:34:36 · 533 阅读 · 0 评论 -
大数据之Hadoop(十):hadoop概念扩展——HDFS 读写流程以及高可用
文章目录4.2HDFS 读写流程& 高可用4.2HDFS 读写流程& 高可用HDFS读写流程客户端向NameNode发出写文件请求。检查是否已存在文件、检查权限。若通过检查,直接先将操作写入EditLog,并返回输出流对象。(注:WAL,write ahead log,先写Log,再写内存,因为EditLog记录的是最新的HDFS客户端执行所有的...原创 2020-03-13 22:13:37 · 441 阅读 · 1 评论 -
大数据之Hadoop(九):hadoop概念扩展——Hadoop发行版的选择、大数据产品与互联网产品结合、大数据应用--数据分析、数据分析案例
文章目录4.3 Hadoop发行版的选择4.4 大数据产品与互联网产品结合4.5 大数据应用--数据分析4.6 数据分析案例4.3 Hadoop发行版的选择Apache Hadoop开源社区版最新的Hadoop版本都是从Apache Hadoop发布的Hadoop Hive Flume 版本不兼容的问题 jar包 spark scala Java->.class->...原创 2020-03-13 22:03:47 · 474 阅读 · 0 评论 -
大数据之Hadoop(八):hadoop概念扩展——Hadoop生态系统、hdfs读写流程、Hadoop发行版本的选择
文章目录hadoop概念扩展4.1 Hadoop生态系统hadoop概念扩展课程目标:知道hadoop生态组成了解hdfs读写流程说出Hadoop发行版本的选择4.1 Hadoop生态系统狭义的Hadoop VS 广义的Hadoop广义的Hadoop:指的是Hadoop生态系统,Hadoop生态系统是一个很庞大的概念,hadoop是其中最重要最基础的一个部分,生态系统中每一子...原创 2020-03-13 22:01:59 · 386 阅读 · 0 评论 -
大数据之Hadoop(七): MapReduce原理详解
3.4 MapReduce原理详解单机程序计算流程输入数据—>读取数据—>处理数据—>写入数据—>输出数据Hadoop计算流程input data:输入数据InputFormat:对数据进行切分,格式化处理map:将前面切分的数据做map处理(将数据进行分类,输出(k,v)键值对数据)shuffle&sort:将相同的数据放在一起,并对数据进行排序处理...原创 2020-03-13 22:00:38 · 478 阅读 · 0 评论 -
大数据之Hadoop(六):MRJOB 文件合并
文章目录3.4 MRJOB 文件合并3.4 MRJOB 文件合并需求描述两个文件合并 类似于数据库中的两张表合并uid uname01 user1 02 user203 user3uid orderid order_price01 01 8001 02 9002 03 8202 04 95mrjob 实现实现对两个数据表...原创 2020-03-13 21:59:05 · 956 阅读 · 1 评论 -
大数据之Hadoop(五):MapReduce实战、利用MRJob编写和运行MapReduce代码、运行MRJOB的不同方式、mrjob 实现 topN统计(实验)
文章目录MapReduce实战3.3.1 利用MRJob编写和运行MapReduce代码3.3.2 运行MRJOB的不同方式3.3.3 mrjob 实现 topN统计(实验)MapReduce实战3.3.1 利用MRJob编写和运行MapReduce代码mrjob 简介使用python开发在Hadoop上运行的程序, mrjob是最简单的方式mrjob程序可以在本地测试运行也可以部署到...原创 2020-03-13 21:58:30 · 2522 阅读 · 0 评论 -
大数据之Hadoop(四):分布式处理框架 MapReduce、MapReduce编程模型
文章目录分布式处理框架 MapReduce3.2.1 什么是MapReduce3.2.2 MapReduce编程模型分布式处理框架 MapReduce3.2.1 什么是MapReduce源于Google的MapReduce论文(2004年12月)Hadoop的MapReduce是Google论文的开源实现MapReduce优点: 海量数据离线处理&易开发MapReduce缺点...原创 2020-03-13 21:57:39 · 705 阅读 · 0 评论 -
大数据之Hadoop(三):资源调度框架 YARN的背景、架构、执行流程、环境搭建
文章目录YARN&MapReduce资源调度框架 YARN3.1.1 什么是YARN资源调度框架 YARN3.1.1 什么是YARN3.1.2 YARN产生背景3.1.3 YARN的架构和执行流程3.1.5 YARN环境搭建YARN&MapReduce课程目标:了解YARN概念和产生背景了解MapReduce概念说出YARN执行流程说出MapReduce原理独立完成...原创 2020-03-13 21:56:57 · 551 阅读 · 0 评论 -
大数据之Hadoop(二):分布式文件系统 HDFS的使用、shell操作、设计思路、架构、环境搭建
文章目录分布式文件系统 HDFS2.1 HDFS的使用2.2 HDFS shell操作lstextmvputrm2.4.1 HDFS shell操作练习2.3 HDFS设计思路2.4 HDFS架构2.5 HDFS环境搭建分布式文件系统 HDFS课程目标:知道什么是hdfs说出hdfs的架构能够掌握hdfs的环境搭建能够掌握hdfs shell的基本使用知道hdfs shell的优缺...原创 2020-03-13 21:54:16 · 678 阅读 · 0 评论 -
大数据之Hadoop(一):Hadoop概述、什么是Hadoop、Hadoop核心组件、Hadoop优势
文章目录Hadoop概述1.1 什么是Hadoop1.2 Hadoop核心组件1.3 Hadoop优势Hadoop概述课程目标:知道Hadoop的概念及发展历史说出hadoop的核心组件知道hadoop的优势1.1 什么是HadoopHadoop名字的由来作者:Doug cuttingHadoop项目作者的孩子给一个棕黄色的大象样子的填充玩具的命名Hadoop...原创 2020-03-10 11:05:08 · 1070 阅读 · 0 评论 -
推荐系统Lambda架构算法(十一):基于内容的电影推荐——物品冷启动处理、word2vec、Doc2Vec
文章目录基于内容的电影推荐:物品冷启动处理word2vec原理简介Word2VecWord2Vec使用Doc2Vec使用基于内容的电影推荐:物品冷启动处理利用Word2Vec可以计算电影所有标签词之间的关系程度,可用于计算电影之间的相似度word2vec原理简介word2vec是google在2013年开源的一个NLP(Natural Language Processing自然语言处理...原创 2020-03-08 14:41:02 · 1088 阅读 · 0 评论 -
推荐系统Lambda架构算法(十):基于内容的电影推荐——为用户产生TOP-N推荐结果
文章目录基于内容的电影推荐:为用户产生TOP-N推荐结果基于内容的电影推荐:为用户产生TOP-N推荐结果# ......user_profile = create_user_profile()watch_record = pd.read_csv("datasets/ml-latest-small/ratings.csv", usecols=range(2),dtype={"userId...原创 2020-03-08 14:40:17 · 1245 阅读 · 0 评论 -
推荐系统Lambda架构算法(九):基于内容的电影推荐——用户画像
文章目录基于内容的电影推荐:用户画像用户画像建立基于内容的电影推荐:用户画像用户画像构建步骤:根据用户的评分历史,结合物品画像,将有观影记录的电影的画像标签作为初始标签反打到用户身上通过对用户观影标签的次数进行统计,计算用户的每个初始标签的权重值,排序后选取TOP-N作为用户最终的画像标签用户画像建立import pandas as pdimport numpy as npfr...原创 2020-03-08 14:39:45 · 1551 阅读 · 1 评论 -
推荐系统Lambda架构算法(八):基于内容的电影推荐——物品画像、基于TF-IDF的特征提取技术
文章目录基于内容的电影推荐:物品画像基于TF-IDF的特征提取技术算法原理算法举例加载数据集基于TF·IDF提取TOP-N关键词,构建电影画像完善画像关键词基于内容的电影推荐:物品画像物品画像构建步骤:利用tags.csv中每部电影的标签作为电影的候选关键词利用TF·IDF计算每部电影的标签的tfidf值,选取TOP-N个关键词作为电影画像标签将电影的分类词直接作为每部电影的画像标签...原创 2020-03-08 14:39:06 · 2493 阅读 · 2 评论 -
推荐系统Lambda架构算法(七):基于内容的推荐算法(Content-Based)
文章目录基于内容的推荐算法(Content-Based)简介基于内容的推荐实现步骤问题:物品的标签来自哪儿?基于内容推荐的算法流程:物品冷启动处理:基于内容的推荐算法(Content-Based)简介基于内容的推荐方法是非常直接的,它以物品的内容描述信息为依据来做出的推荐,本质上是基于对物品和用户自身的特征或属性的直接分析和计算。例如,假设已知电影A是一部喜剧,而恰巧我们得知某个用户喜欢看...原创 2020-03-08 14:37:49 · 421 阅读 · 0 评论 -
推荐系统Lambda架构算法(六):基于矩阵分解的CF算法实现(二)——BiasSvd
文章目录基于矩阵分解的CF算法实现(二):BiasSvdBiasSvd损失函数随机梯度下降法优化基于矩阵分解的CF算法实现(二):BiasSvdBiasSvd其实就是前面提到的Funk SVD矩阵分解基础上加上了偏置项。BiasSvd利用BiasSvd预测用户对物品的评分,k表示隐含特征数量:损失函数随机梯度下降法优化随机梯度下降: 由于P矩阵和Q矩阵是两个不同的矩阵,通常分...原创 2020-03-08 14:36:51 · 927 阅读 · 1 评论 -
推荐系统Lambda架构算法(五):基于矩阵分解的CF算法实现(一)——LFM
文章目录基于矩阵分解的CF算法实现(一):LFMLFM原理解析损失函数随机梯度下降法优化基于矩阵分解的CF算法实现(一):LFMLFM也就是前面提到的Funk SVD矩阵分解LFM原理解析LFM(latent factor model)隐语义模型核心思想是通过隐含特征联系用户和物品,如下图:P矩阵是User-LF矩阵,即用户和隐含特征矩阵。LF有三个,表示共总有三个隐含特征。Q矩阵...原创 2020-03-08 14:35:14 · 722 阅读 · 0 评论 -
推荐系统Lambda架构算法(四):基于矩阵分解的CF算法及其发展史
文章目录基于矩阵分解的CF算法矩阵分解发展史基于矩阵分解的CF算法矩阵分解发展史Traditional SVD:通常SVD矩阵分解指的是SVD(奇异值)分解技术,在这我们姑且将其命名为Traditional SVD(传统并经典着)其公式如下:Traditional SVD分解的形式为3个矩阵相乘,中间矩阵为奇异值矩阵。如果想运用SVD分解的话,有一个前提是要求矩阵是稠密的,即矩阵里的元...原创 2020-03-08 14:33:11 · 540 阅读 · 0 评论