
数据分析
阿泽财商会
作品主页https://mbd.pub/o/m/azcsh,高级人工智能算法训练工程师,人工智能应用工程师,高级工程师,高级信息系统项目管理师,软件设计师,CSM敏捷教练,csdn20周年直播嘉宾,高级健康管理师,会计师。
清华大学出版社《MongoDB游记》数据库教程书作者。专注于人工智能,数据挖掘技术与大数据,云计算与存储等技术的学习与研究。擅长人工智能算法训练,系统响应式开发、数据采集数据清洗和数据分析,分布式云存储运算等技术。熟悉后台系统、云存储计算平台的搭建,擅长解决架构过程中遇到的疑难问题。常用开发语言:java、python、c#、perl、sql。
展开
-
数据分析--积累--presto--一列转多行--数组分割展开
我们在做数据分析时,有时候需要使用join等作表连接,或者说 通过一些数据作关联。但是 如果需要的数据 是存储的一列中使用逗号分割,或者存储在数组中,就不能很方便的进行表连接。presto提供了很方便的语法,可以把列转成多行。场景一 字符串person表中 多个数据保存在pets使用逗号分割如下:select name, petsfrom person输出:namepetszzqsummer,winterlyspring,autu原创 2021-05-25 17:17:48 · 5333 阅读 · 1 评论 -
遇到的问题---presto---使用left join左连接后出现重复数据主表中一条变多条
情况在数据分析的时候 需要 costtable,shoptable两个表做左连接,costtable为主表,从shoptable两个表做左连接表中通过orderid拿shopname字段。select id,orderIdA,product from costtableleft joinselect orderIdB,shopName from shoptable 完整sql如下:select id,orderIdA,product,orderIdB,shopName from costt原创 2021-04-30 17:19:43 · 5019 阅读 · 1 评论 -
遇到问题---tableau online--新增join后运行时报错系统错误
情况根据数据需求,需要在原本正常运行的流程上增加一个字段。方案是 新增一个数据源获取字段后 进行join操作。原流程和增加分支后流程如下:但 运行后报错而且在 最终的输出步骤是 能够正常预览数据的原流程中涉及到时间格式的处理如下:读数据源时 if (occurtime is not null, to_unixtime(occurtime), 946656000000) occurtime,时间格式处理步骤使用公式DATETIME(DATEADD('second',INT原创 2021-04-26 16:05:32 · 512 阅读 · 0 评论 -
遇到问题--tableau online---Error with HTTP request, response code: 406
情况在使用tableau online编辑流程时,使用了custom sql进行presto的数据源加载使用sql如下:select evt."#user_id",evt."#event_name",evt.purpose,evt."#event_time",evt.params,evt.router, from hive.ta.v_event_2 evt where evt."$part_date">'2021-01-25' and evt."#event_name"原创 2021-02-22 16:46:00 · 694 阅读 · 0 评论 -
遇到问题---tableau online--运行时报错系统错误
情况因为线下的tableau online套装 tableau prep builder + tableau desktop 多人使用时,经常需要交换 文件,多人交互使用很不方便。所以决定 把线下的流程 迁移到 tableau online 云端版本 使用。但是 线下能成功运行的流程 同步 翻译 到线上后 ,运行报错,但是并没有详细的报错信息。使用custom sql的方式,后面直接跟一个输出,使用的sql如下:SELECT id, userid, occurtime,原创 2021-01-20 18:32:13 · 1301 阅读 · 0 评论 -
遇到问题---tableau prep builder--运行时报错系统错误
情况使用tableau prep builder处理数据时,运行了一部分后报错系统错误。如下图:原因tableau prep builder的报错非常简单,常常无法定位到具体的问题。这个时候 我们需要从自身的数据出发,一般是出现了脏数据导致了运行报错。最常见的就是时间格式的问题。这个时候 我们需要从 数据源的查询语句出发去排查问题。比如我这里使用的是presto连接hive。在presto的监控界面中果然看到了 语句运行错误的报错信息。如下:io.prestosql.spi.Presto原创 2021-01-19 15:58:53 · 3262 阅读 · 5 评论 -
产品运营数据仓库埋点调研
为了解决前端埋点的准确性、及时性、开发效率等问题,业内各家公司从不同角度,提出了多种技术方案,这些方案大体上可以归为三类:第一类是代码埋点,即在需要埋点的节点调用接口直接上传埋点数据,友盟、百度统计等第三方数据统计服务商大都采用这种方案;第二类是可视化埋点,即通过可视化工具配置采集节点,在前端自动解析配置并上报埋点数据,从而实现所谓的“无痕埋点”, 代表方案是已经开源的Mixpanel;...原创 2018-04-03 19:50:24 · 1428 阅读 · 0 评论 -
调研----小米架构师:亿级大数据实时分析与工具选型
讲师介绍 欧阳辰,超过15年的软件开发和设计经验,目前就职于小米公司,负责小米广告平台的架构研发。曾为微软公司工作10年,担任高级软件开发主管,领导团队参与微软搜索索引和搜索广告平台的研发工作。曾在甲骨文公司从事数据库和应用服务器的研发工作。热爱架构设计和高可用性系统,特别对于大规模互联网软件的开发,具有丰富的理论知识和实践经验。大家好,很高兴能跟大家分享一些关于实时数据分析的话题。...转载 2018-02-22 19:03:00 · 5567 阅读 · 1 评论 -
数据分析团队的搭建与思考
大家早上好,非常高兴能来参加这次上海站的数据驱动增长大会。以前说到数据驱动业务增长,我们第一个想到的可能是数据分析的方法。但就目前来看,数据驱动业务的增长已经成为一个不仅仅是分析方法和模型,而是包括了数据人才培养、数据架构的设计,甚至整个公司组织架构设计的企业治理问题。所以今天我想从途家数据团队的发展、部门的构成及职责这两个方面去跟大家分享一下途家网的一些实践。如果对一个公司的业务没有足够...转载 2018-02-22 18:48:16 · 7877 阅读 · 2 评论 -
用户行为服务系统架构调研----电信用户行为分析系统架构
2基于云计算的系统总体设计方案 2.1系统总体技术架构 本文设计的移动互联网用户行为分析引擎通过云计算技术实现分布式并发的大规模计算能力,构建移动互联网端到端的大数据挖掘分析系统,实现对DPI和应用平台用户上网行为的偏好分析,提供个性化推荐服务,打通从数据采集、分析到服务提供、营销执行的全过程。 系统通过FTP服务器获取数据,在接口层采用分布式计算与批量处理相结合的方式,将大数据...转载 2018-02-22 17:43:30 · 7071 阅读 · 0 评论 -
用户行为服务系统架构调研----携程实时用户行为服务系统架构实践
携程实时用户行为服务作为基础服务,目前普遍应用在多个场景中,比如猜你喜欢(携程的推荐系统)、动态广告、用户画像、浏览历史等等。 以猜你喜欢为例,猜你喜欢为应用内用户提供潜在选项,提高成交效率。旅行是一项综合性的需求,用户往往需要不止一个产品。作为一站式的旅游服务平台,跨业务线的推荐,特别是实时推荐,能实际满足用户的需求,因此在上游提供打通各业务线之间的用户行为数据有很大的必要性。 携程原有的实...转载 2018-02-22 11:33:06 · 1532 阅读 · 0 评论 -
数据仓库基本知识
数据仓库是什么根据统计,每个企业的数据量每2~3年时间就会成倍增长,这些数据蕴含着巨大的商业价值,而企业所关注的通常只占在总数据量的2%~4%左右。 因此,企业仍然没有最大化地利用已存在的数据资源,以至于浪费了更多的时间和资金,也失去制定关键商业决策的最佳契机。 于是,企业如何通过各种技术手段,并把数据转换为信息、知识避免各种无知状态和瞎猜行为,已经成了提高其核心竞争力的主要瓶颈。 ...原创 2017-10-31 17:35:04 · 29672 阅读 · 4 评论 -
jquery-highlight在web页面让字符高亮显示
效果:官网:http://johannburkard.de/blog/programming/javascript/highlight-javascript-text-higlighting-jquery-plugin.html下载用到的jquery:hightlight用到的jquery放到与静态页面并列的目录中原创 2014-01-24 17:27:19 · 7150 阅读 · 0 评论 -
页面中引用其他外部链接的页面
!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">数据对比 <div style=" overflow: hidden; border: 0px"> <iframe id="iframeContent" width="680" heig原创 2014-04-22 13:49:35 · 3947 阅读 · 0 评论 -
免费网站流量统计服务汇总
对于所有的ICP来说,除了保证网站稳定正常运行以外,一个重要的问题就是网站访问量的统计和分析报表,这对于了解和监控网站的运行状态,对提高各个网站的服务能力和服务水平是必不可少的。通过对Web服务器的日志文件进行分析和统计,能够有效掌握系统运行情况以及网站内容的受访问情况、加强对整个网站及其内容的维护与管理。原创 2014-11-23 14:39:14 · 3279 阅读 · 0 评论 -
数据分析运营---A/B测试中20个必须知道的问题
在网站和移动产品设计和开发中、以及互联网产品运营中,我们经常会面临多个产品设计和运营方案的选择,比如某个按钮是用红色还是用蓝色,是放左边还是放右边。传统的解决方法通常是集体讨论表决,或者由某位专家或领导来拍板,实在决定不了时也有随机选一个上线的。虽然传统解决办法多数情况下也是有效的,但A/B 测试(A/B Testing)可能是解决这类问题的一个更好的方法。在软件开发中,产品需求通过多种技术手段来转载 2017-04-29 23:49:08 · 51062 阅读 · 3 评论