- 博客(4)
- 收藏
- 关注
原创 推荐系统开发实战学习笔记(1)——第一个推荐系统:搭建电影推荐系统
数据集:用的是NetFlix数据集文件解压包含一下几个文件:1、README描述性内容2、movie_titles.txt该文件表示电影相关信息本实例依赖的是training_set.tar下的文件,因数据量比较大,因此随意选取1000个用户来进行实例开发。# -*- encoding: utf-8 -*-import osimport jsonimport randomimport mathclass FirstRec: """初始化函数 filep
2022-03-23 16:42:37
2637
原创 hive中explode和 lateral view的使用
explode的作用是将hive一行中复杂的array或者map结构拆分成多行:写一个简单的例子:这里想将1007对应的tag拆成两行输出:select explode(split(tag,'\\|')) from channel_info;结果:但是前面还有id需要一起输出,这里就要使用到lateral view了。lateral view用于和split, explode等UDTF一起使用,它能够在此基础上对拆分后的数据进行聚合。lateral view首先为原始表的每行调用UDTF,
2021-05-21 16:21:00
440
原创 hive中解析url的parse_url函数解析url
在工作中,有一个需要解析url的工作,需要截取url里的path(文件目录)和url的参数,这里在hive中有一个内置的函数,使用起来比较简单,所以做个记录,有需要的可以用到。Hive的parse_url函数功能:解析URL字符串,语法:parse_url(url, partToExtract[, key]) (这里要大写)partToExtract的选项包含 【host,path,query,ref,protocol,file,authority,userinfo】下面我们编一个网址来介绍URL
2021-03-31 11:21:42
934
原创 python的urllib模块学习笔记及网页爬取下载图片例子
urllib模块提供的上层接口,使我们可以像读取本地文件一样读取www和ftp上的数据,在python3中urllib模块导入不能直接import urllib 而要import urllib .request。##1、基本方法
2021-03-31 11:15:07
337
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人