apache150-优快云博客

原创 pandas 中dataframe 中的模糊匹配与pyspark dataframe 中的模糊匹配

1.pandas dataframe 匹配一个很简单,批量匹配如下 df_obj[df_obj['title'].str.contains(r'.*?n.*')] #使用正则表达式进行模糊匹配,*匹配0或无限次,?匹配0或1次 pyspark dataframe 中模糊匹配有两种方式 2.spark dataframe api, filter rlike 联合使用 df1=d...

2018-07-24 13:56:33 14106

原创 mongodb 安装，卸载，重装

准确安装步骤：1.去mongodb官网(http://www.mongodb.org/downloads)下载linux版本的安装包我下载了这个版本mongodb-linux-x86_64-ubuntu1404-v3.4-latest.tgz2.rz 在服务器上，放在/usr/local 目录下，mkdir mongodb3.tar -zxvf mongodb-linux-x86_64-ubunt...

2018-07-11 14:32:47 7163

原创 spark 学习笔记一

yarn 优化了mapreduce 的资源调度问题.但最初mapreduce 的设计模式要求将中间数据存储在磁盘上，并在网络中传输，这样会导致计算效率不高的问题，spark是一种类mapreduce 的通用并行框架，不同于mapreduce 算法的是，spark 任务的中间结果可以保存在内存中，从而不用再读写hdfs.而且spark 还提出了RDD 的概念，调度中采用了更为通用的有向任务执行计划图...

2018-07-10 11:33:24 263

原创大数据架构学习之——数据处理

根据处理的及时性不同，可以分为离线处理和在线处理在线处理对实时响应要求较高，离线处理对实时响应没有要求hadoop是生产饮料的公司随着市场的扩张，目前的仓库不能满足现在的存储要求，需要在郊外扩张几个仓库，类似于hdfs 的分布式存储，解决了原材料的存储问题flume 提供水源质量不稳定，hadoop 采用自定检测水的仪器mapper 和最先进的组装生产线reducer,mapper 可以对水质...

2018-07-10 11:00:56 267

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 pandas 中dataframe 中的模糊匹配 与pyspark dataframe 中的模糊匹配

原创 mongodb 安装，卸载，重装

原创 spark 学习笔记一

原创 大数据架构学习之——数据处理

空空如也

空空如也

原创 pandas 中dataframe 中的模糊匹配与pyspark dataframe 中的模糊匹配

原创大数据架构学习之——数据处理