
大数据
太阳下的兰花草
这个作者很懒,什么都没留下…
展开
-
【HDFS】Hadoop分布式文件系统
【HDFS】Hadoop分布式文件系统一、总体介绍二、架构1. 名称节点(NameNode)2. 镜像和日志(Image and Journal)3. 数据节点(DataNodes)4. HDFS客户端5. Checkpoint节点6. 备份节点(BackupNode)7. 升级和文件系统快照三、文件IO操作和副本管理1. 文件读写2. Block块放置3. 复制管理4. 均衡器5. Block...原创 2020-03-14 16:44:13 · 649 阅读 · 0 评论 -
Spark Scala编程常用技巧集锦
Spark Scala编程常用技巧集锦一、读写HDFS1. 根据时间戳查找最新有效目录并按行解析JSON(1) 获取FileSystem(2) 根据时间戳获取最新目录(3) 读取最新目录下全部有效数据文件(4) 解析文件中按行存取的JSON,解析后存储到新的DataFrame中(5) 根据dataList创建新的DataFrame一、读写HDFS1. 根据时间戳查找最新有效目录并按行解析JSO...原创 2020-03-11 23:29:58 · 303 阅读 · 0 评论 -
基于语义相似度的商品搜索推荐实践
基于语义相似度的商品搜索推荐实践一、背景二、推荐目标三、推荐架构三、实时算法层介绍1. Query分词2. 意图识别3. 粗排4. 精排5. 重排四、后续优化1. 用户反馈数据运用2. 线上效果提升的关键因素一、背景搜索是一个发现用户主动兴趣的场景,query是用户兴趣的浓缩表达,用户输入的query可认为是一种ugc,在电商类产品中,普遍存在ugc推荐场景,因而query的推荐也扮演着不可小...原创 2020-03-08 12:36:58 · 1610 阅读 · 2 评论 -
图数据库-复杂关系型数据的查询优化
图数据库-复杂关系型数据的查询优化一、背景二、图数据库1. 图数据库2. 图论3. 应用场景三、Neo4j图数据库实践1. 基本元素与概念2. 节点创建3. 节点查询4. 关系查询5. Cypher查询语言四、Neo4j程序开发五、Neo4j安装部署六、参考文献一、背景 关系型数据库在处理以下几个问题时往往会显得捉襟见肘:关联查询中涉及到的关系可能会经常性的变化、增加、修改、或者删除...原创 2020-02-08 22:03:36 · 2150 阅读 · 0 评论