
Data
Dark-Rich
Let the code into my blood
展开
-
Hadoop
Hadoop是一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩展,每一个台机都可以提供本地计算和存储。HDFS为海量的数据提供了存储,而 MapReduce则为海量的数据提供了计算。1. HDFSHadoop文件系统使用分布式文件系统设计开发。它是运行在普通硬件。不像其他的分布式系统,HDFS是高度容错以及使用低成本的硬...原创 2018-11-18 17:01:55 · 128 阅读 · 0 评论 -
ElasticSearch
全文搜索属于最常见的需求,开源的 Elasticsearch (以下简称 Elastic)是目前全文搜索引擎的首选。Elasticsearch是一个实时分布式搜索和分析引擎。它可以快速地储存、搜索和分析海量数据。Elastic 是 Lucene 的封装,提供了 RESTful API 的操作接口。注:在RESTful背后的理念就是使用Web的现有特征和能力, 更好地使用现有Web标准中的一些准...转载 2018-11-18 16:43:16 · 137 阅读 · 0 评论 -
Hadoop集群中的自定义Python环境
虚拟环境创建新建纯净版的虚拟环境virtualenv --no-site-packages venv修改虚拟环境为可迁移状态virtualenv --relocatable venv激活虚拟环境source venv/bin/activate虚拟环境安装包pip install <package> -i <url>退出虚拟环境deactivate打包...原创 2019-04-21 22:21:28 · 1103 阅读 · 0 评论