
大数据
文章平均质量分 73
nethub2
这个作者很懒,什么都没留下…
展开
-
Hadoop的dfs -ls 报错:ipc.Client: Retrying connect to server
参考网站:http://blog.youkuaiyun.com/zhangheng1225/article/details/8246785 有项目需要用到HBase,配置Hadoop集群的情况如下:OS : Ubuntu 11.04Hadoop 2.02三台虚拟机IP分配如下:192.168.128.131 master 兼slave192.168.128.132 slav...原创 2017-11-02 21:31:23 · 402 阅读 · 0 评论 -
python 结巴分词(jieba)学习
目录(?)[-]jieba特点在线演示安装说明算法主要功能1 分词2 添加自定义词典载入词典调整词典3 关键词提取基于 TF-IDF 算法的关键词抽取基于 TextRank 算法的关键词抽取基本思想使用示例4 词性标注5 并行分词6 Tokenize返回词语在原文的起止位置7 ChineseAnal...原创 2017-11-11 18:08:06 · 208 阅读 · 0 评论 -
/etc/profile和/root/.bash_profile有什么区别
/etc/profile,优先级最高,是全局的,是私有的,用于整个系统所有用户,~/.bashrc和 ~/.bash_profile, ~/.profile 用于各个用户,这里的"~"符号就是各当前用户的$HOME~/.bash_profile 和 ~/.profile 只在登陆时读取一次。~/.bashrc 每次都读取 ~/.bash_profile 和 ~/.profi...原创 2017-11-19 21:37:40 · 956 阅读 · 0 评论 -
Hadoop分布式集群的搭建
https://bigdata.163yun.com/product/article/35 本篇将向大家介绍下Hadoop分布式集群的搭建。内容浅显,但能够为新手们提供一个参考,让像我一样的小白们对Hadoop的环境能够有一定的了解。环境: 系统环境:CentOS7.3.1611 64位 Java版本:OpenJDK 1.8.0 ...原创 2018-05-09 17:22:27 · 270 阅读 · 0 评论 -
推荐系统架构详解
背景介绍:对于推荐系统,大家应该不陌生。可以说现在已经随处可以看到它的身影。比如你浏览网页时,如在京东上购物,对应页面会根据你的浏览内容给你推荐诸多类似功能的商品。页面上的看了又看以及猜你喜欢,这2个功能背后都是大数据的推荐系统做支持。以及你看今日头条时,你会发现,系统不断动态展现你喜欢的内容,这也是根据大数据而做的推荐内容。尤其现在倡导千人千面的app应用中,每个人浏览的内容都是根据个人...原创 2018-05-10 14:33:05 · 705 阅读 · 0 评论 -
Spark 以及 spark streaming 核心原理及实践 - (1)
导语spark 已经成为广告、报表以及推荐系统等大数据计算场景中首选系统,因效率高,易用以及通用性越来越得到大家的青睐,我自己最近半年在接触spark以及spark streaming之后,对spark技术的使用有一些自己的经验积累以及心得体会,在此分享给大家。本文依次从:spark生态,原理,基本概念,spark streaming原理及实践,还有spark调优以及环...原创 2018-08-19 15:44:55 · 477 阅读 · 0 评论 -
Spark 以及 spark streaming 核心原理及实践 - (2)
Spark Streaming运行原理spark程序是使用一个spark应用实例一次性对一批历史数据进行处理,spark streaming是将持续不断输入的数据流转换成多个batch分片,使用一批spark应用实例进行处理。从原理上看,把传统的spark批处理程序变成streaming程序,spark需要构建什么?需要构建4个东西:一个静态的 RDD DAG...原创 2018-08-19 15:45:53 · 1182 阅读 · 0 评论