
Groovy
饶艳辉
十年以上程序员老兵,关注技术交流、提倡原创、拥抱开源。专注服务端、数据结构、算法、互联网微服务、分布式、高可用等架构领域!!!
展开
-
网络爬虫小区均价数据之Groovy
随着互联网信息大爆炸,网络爬虫应该是如今很多数据公司都会用到的技术,目前主流的技术有很多,例如:JAVA、Groovy、Python、Nutch等,太多各种各样的技术都可以实现。本人主要使用过JAVA、Groovy做过网络爬虫。对于有些小伙伴可能没有接触过Groovy,我在这里简单解释一下,Groovy是一种基于JVM(Java虚拟机)的动态脚本语言,详细的解释大家可以在百度百科搜索。下面是我...原创 2019-08-04 20:06:31 · 399 阅读 · 0 评论 -
MongoDB mapReduce填补自带group的限制问题
用过MongoDB的小伙伴或多或少都会遇到MongoDB自带group的限制问题,即group不支持大于2万的结果集!我曾在任职公司做过某网站小区均价数据抓取,采用的是Groovy技术。数据抓取下来后存放在MongoDB中。数据抓取完成都是需要经历数据清洗处理的,其中有一项数据去重时候就遇到MongoDB自带group的限制问题,即group不支持大于2万的结果集。几番折腾后来采用MongoD...原创 2019-09-05 22:35:32 · 297 阅读 · 0 评论