
数据分析
文章平均质量分 64
gzroy
长期任职500强通讯企业,担任了从产品售前到产品研发的各个关键岗位,对移动通讯技术,人工智能,软件开发等有深入的了解和从业经验。现为国内头部能源企业提供人工智能方面的咨询和规划等服务。个人研究领域广泛,对NLP,图像识别,游戏开发,3D制作,区块链,AR等领域均有研究。
展开
-
Google云平台构建数据ETL任务的最佳实践
介绍了Google云平台开发数据ETL任务的最佳实践,通过Dataflow来实现Kafka数据的定期批处理并写入到Bigquery原创 2023-10-14 22:00:43 · 799 阅读 · 0 评论 -
Google Data Fusion构建数据ETL任务
介绍了如何用Google的Data fusion云服务来创建一个数据的ETL Pipeline原创 2023-09-13 17:42:38 · 445 阅读 · 0 评论 -
Kaggle Titanic Disaster Competetion
好久之前在Kaggle上面写的一个notebook, 关于如何用数据科学的方法来对泰坦尼克号数据集进行分析和预测生还者的,有兴趣的朋友可以参考一下Roy's Titanic Notebook | Kaggle原创 2021-12-27 10:57:52 · 711 阅读 · 0 评论 -
用Power BI来进行移动网络质量可视化分析
如果我们有一些按照时间顺序发生的测量数据,每个测量数据有一个对应的坐标点,那么我们如何利用Power BI来进行分析呢。这里记录一下我的作法。我的原始数据如下:Datetime Latitude Longitude CellID Operator NetworkType RSSI RxLevel RSRQ RSRP 2020-11-08 12:12:10 23.120296 113.3原创 2020-12-11 17:17:50 · 497 阅读 · 0 评论 -
利用Power BI制作分级地图报表
最近用到Power BI来做数据报表的呈现,其中一个需求是,把数据展现在地图中,地图可以分级来进行聚合呈现,例如地图可以按照区域来进行指标的呈现,当点击区域的时候,可以进入到第二级,按照网格(例如100*100米)来进行呈现。这里我采用了Power BI的Mapbox控件来进行开发。记录一下整个过程1. 数据的准备这里用到的数据是车辆在业务使用过程中,消息收发的时延。在服务器端接收车辆上报的消息的时候,会根据消息生成的时间戳和接收到消息的时间戳来计算传输时延。对于计算后的时延,按照每小时的粒度来原创 2020-12-09 14:22:56 · 2400 阅读 · 0 评论 -
基于移动网络测量数据的数据分析
最近在做的一个数据分析的工作,是基于P3 Network采集的移动终端上报的网络测量数据,进行数据分析,查看不同区域的网络覆盖情况和网络质量,对比不同运营商的网络,从而为业务运营提供决策需要的信息。数据预处理首先是对原始数据进行数据预处理,提取有用的字段,并进行相关的清洗。这里我采用SPARK来作为预处理的工具。SPARK是我最喜爱的大数据处理平台。这里以6月10日的原始数据为例,共有3个文件。总共有1521601条数据df1 = spark.read.csv('nir_0610_1.cs原创 2020-09-17 22:53:08 · 1514 阅读 · 0 评论 -
Kaggle Tweet Sentiment Extraction竞赛
Kaggle Twitter Sentiment Extraction竞赛Kaggle是一个数据分析竞赛的网站,里面有很多有趣的竞赛和练习。最近刚结束的一个twitter sentiment extraction的竞赛挺有意思的,给出Twitter的文本以及情感分类(positive, negative, neutral),需要找出文本中的哪些内容是支持这个情感分类的。例如对于“Sooo SAD I will miss you here in San Diego!!!”这条推特,分类为negative,其原创 2020-08-02 07:21:46 · 1234 阅读 · 2 评论 -
构建实时数据可视化监控的全栈实现(Kafka+Spark+TimescaleDB+Flask+Node.js)
因为项目需求,需要构建一个实时的数据监控系统,把平台上报的业务数据以1分钟的粒度进行呈现。为此我构建了以下的一个架构来实现。平台上报的业务数据会实时的发送消息给Kafka,例如平台每次为车辆进行OTA升级时,会发送一个OTA业务请求的事件,一个OTA业务完成或失败的事件。这些事件会发送到Kafka,然后Spark Streaming会进行实时的数据处理,计算之后保存到时序数据库。前端的WEB 报表...原创 2020-03-18 11:04:18 · 2353 阅读 · 2 评论