
数据分析
文章平均质量分 54
鸿浪@大数据
在政府大数据中探索
展开
-
指标管理的需求要点
最近梳理了指标管理在政府行业的需求点,包括了指标的定义和指标的查询,但不包括指标的申请、上线等其它部分的内容,完整的脑图如下:在这次梳理当中,需要支持多套指标类目树是一个新的发现,之前虽然也意识到用一套类目树对指标进行分类有些困难,但没有深入思考。就像图中的例子,宜居城市和智慧城市的指标体系,是会用到一些相同的基础指标,从而形成不同用途的评价体系,因此指标管理系统在实际使用当中,应该先有一套技...原创 2020-04-03 14:44:32 · 966 阅读 · 0 评论 -
转载:共克时艰,疫情数据分析
发布于知乎上的文章,https://zhuanlan.zhihu.com/p/105203409转载 2020-02-11 09:32:04 · 1023 阅读 · 0 评论 -
政府大数据之资源目录管理
最近客户正在按照三定职责梳理职责目录和数据,需要用到大数据平台的资源目录系统,经过几次交流,逐步梳理出一些改进需求。根据我的理解,梳理出资源目录系统的功能架构,将一些需要重点改进的点记录下来。根据相关标准定义,资源目录可以分为部门资源目录、基础资源目录和主题资源目录,从实践中来看,梳理部门的资源目录是大数据平台的切入点,这也是由政府大数据项目的现状和特点所决定的。现阶段政府大数据基本处于信息化...原创 2019-11-12 15:17:13 · 15591 阅读 · 0 评论 -
投标演示项目准备
这几天投标国家污染源普查项目,要求有一个demo演示系统功能,同时也提供了普查的样例数据,按照演示的要求,准备了一个演示场景,如下:按照要求,演示要涵盖4个方面的内容,由于时间仓促,只导入了工业污染源的4张表的数据进行演示,同时由于样例数据很少,为了演示效果,按照数据格式也造了一些模拟数据,这4个方面的功能分别如下:数据清洗与入库。将工业源数据导入hive数据库,通过清洗工具,为工业企业基...原创 2019-09-04 10:14:56 · 1711 阅读 · 0 评论 -
基于开源产品的机器学习平台
规划了一个基于开源产品h2o的机器学习平台,基于租户模式,可以对委办局提供从构建模型到模型应用全流程的能力支撑。架构图如下:其中,平台基于H2O平台,支持多种数据来源,除了H2O平台的交互式建模界面,也支持Python、R等脚本语言构建模型;平台分类算法模型开发和算法模型应用两大部分,其中,算法模型开发主要是H2O所提供的功能,包括数据导入、训练模型、验证模型等功能,但要在数据分析、数据...原创 2019-08-13 10:56:24 · 1944 阅读 · 0 评论 -
【产品规划】数据质量智能探查
这两天项目正在接入新的数据,包括户籍人口数据、学校数量、医院数量等,上午简单浏览了每个表的结构及数据内容,发现有几个数据与网上公开报道存在冲突,应该是问题数据,比如,北京市出租车公开报道是6.6万辆,但接入表数据显示有20多万辆出租车。其它几个问题也是类似的,与网上公布的数值差异较大。参与了近三个月的政府大数据项目,有几个体会:一是数据汇聚难,汇聚上来的数据质量差。对接上来的各委办局的数据,以...原创 2019-05-06 16:28:30 · 947 阅读 · 0 评论 -
创意火花-聚类算法
聚类算法以前在考虑机器学习的应用场景时,都是按照端到端的思路,比如,客户流失分析,输入客户列表及相关特征,输出流失的名单。之前也尝试过利用逻辑回归、决策树等算法对客户流失进行预测,效果不是特别好,里面既有数据不全面的问题,同时也应该存在算法单一的问题。最近又学习了几个常用机器学习算法,包括支持向量机、逻辑回归、聚类算法等,虽然还是没有理解了算法的基本原理,还是不会调参,但仍然有了一点收获,机器...原创 2018-08-10 16:51:57 · 271 阅读 · 0 评论 -
产品随记-无埋点数据采集
今天收到一封售前的邮件,关于H省网运营商要做手机APP数据分析的需求。客户对要分析的数据内容没有很清楚的想法,只给了百度移动统计的页面。这个需求本身不复杂,只是涉及的厂商较多:APP由我方提供,但其中有部分业务功能是通过H5的形式集成自大唐,数据分析平台由亚信提供。从技术角度出发,这个需求有两个解决方案:以SDK的形式集成业界成熟的数据分析云平台,包括百度移动分析、友盟、growio等,数据...原创 2018-08-17 16:48:07 · 856 阅读 · 1 评论 -
与副总裁的一个需求讨论
节目收入分析上周五公司一个副总裁叫过去,要统计各频道的收入。他的初衷是要通过收入评估外购频道的效益,是否有人购买、产生的收入有多少等。这个需求对于现有的业务系统有困难,因为系统只记录了节目包的收入,而节目包与频道的对应关系是没有的,也就是没有办法细分。内部经过简单讨论,写了一些实现思路及困难,今天又过去与副总讨论,终于理解了他提这个问题的思路。原来,他一直以为BOSS系统是按照频道进行打包,用...原创 2018-09-02 15:49:54 · 348 阅读 · 4 评论 -
数据分析心得
读《红楼梦》所感最近在读《红楼梦脂评汇校本》,在第二回“贾夫人仙逝扬州城 冷子兴演说荣国府”前有一段脂评描述红楼梦的写作手法,很有感触,摘录如下: 本旨只在冷子兴一人,即俗谓“冷中出热,无中生有”也。其演说荣府一篇者,盖因族大人我,若从作者笔下一一叙出,尽一二回不能得明,则成何文字?故借用冷子一人,略出其大半,使阅者心中,已有一荣府隐隐在心,然后用黛玉、宝钗等两三次皴染,则耀然于心中眼...原创 2018-09-13 13:27:53 · 2236 阅读 · 2 评论 -
中国城市统计年鉴下载
http://nianjian.xiaze.com/tags.php?/朔州市人口普查资料/1/13551853402/转载 2019-03-06 14:30:52 · 3214 阅读 · 0 评论 -
【zabix笔记】折线图展示平均值、最大值与最小值
上周看到zabix显示CPU使用时间指标,利用三条不同颜色的折线叠加显示了平均值、最大值与最小值,以及工作日/非工作日几项信息,非常受启发。在上图中,深绿色的线显示平均值,浅绿色和深粉色的线分别显示最小值和最大值,白色区域为工作时间(工作日),灰色区域为非工作时间。zabix关于该图的解释这种类型的折线图可以应用到很多场景,比如,工单的处理时间(平均处理时间、最长时间、最短时间)、订单价格(...原创 2019-04-22 11:58:36 · 2691 阅读 · 0 评论