- 博客(4)
- 收藏
- 关注
原创 pandas 中dataframe 中的模糊匹配 与pyspark dataframe 中的模糊匹配
1.pandas dataframe 匹配一个很简单,批量匹配如下df_obj[df_obj['title'].str.contains(r'.*?n.*')] #使用正则表达式进行模糊匹配,*匹配0或无限次,?匹配0或1次pyspark dataframe 中模糊匹配有两种方式2.spark dataframe api, filter rlike 联合使用df1=d...
2018-07-24 13:56:33
14012
原创 mongodb 安装,卸载,重装
准确安装步骤:1.去mongodb官网(http://www.mongodb.org/downloads)下载linux版本的安装包我下载了这个版本mongodb-linux-x86_64-ubuntu1404-v3.4-latest.tgz2.rz 在服务器上,放在/usr/local 目录下,mkdir mongodb3.tar -zxvf mongodb-linux-x86_64-ubunt...
2018-07-11 14:32:47
7098
原创 spark 学习笔记一
yarn 优化了mapreduce 的资源调度问题.但最初mapreduce 的设计模式要求将中间数据存储在磁盘上,并在网络中传输,这样会导致计算效率不高的问题,spark是一种类mapreduce 的通用并行框架,不同于mapreduce 算法的是,spark 任务的中间结果可以保存在内存中,从而不用再读写hdfs.而且spark 还提出了RDD 的概念,调度中采用了更为通用的有向任务执行计划图...
2018-07-10 11:33:24
235
原创 大数据架构学习之——数据处理
根据处理的及时性不同,可以分为离线处理和在线处理在线处理对实时响应要求较高,离线处理对实时响应没有要求hadoop是生产饮料的公司 随着市场的扩张,目前的仓库不能满足现在的存储要求,需要在郊外扩张几个仓库,类似于hdfs 的分布式存储,解决了原材料的存储问题flume 提供水源质量不稳定,hadoop 采用自定检测水的仪器mapper 和最先进的组装生产线reducer,mapper 可以对水质...
2018-07-10 11:00:56
235
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人