贵阳大数据战略发力 与滴滴共建网约车大数据中心

滴滴出行与贵阳达成战略合作,共同打造“中国网约车大数据交互共享中心”。该中心旨在促进当地经济转型和社会事业发展,推动交通运输公共信息服务监管,实现网约车在线服务与管理。滴滴将运用其在大数据和人工智能方面的技术优势,助力贵阳智慧交通建设。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

CNET科技资讯网 10月19日 北京消息:昨天,滴滴出行与贵阳达成战略合作,双方将携手共同打造“中国网约车大数据交互共享中心”(下称“中心”),将依托滴滴公司丰富的用户、车辆资源等大数据能力,促进贵阳的经济转型升级和社会事业发展。 

这标志着,在大数据应用合作、网约车管理探索等方面,滴滴与贵阳形成了紧密的战略合作伙伴关系,彰显出贵阳当地政府热情拥抱网约车的开明态度。这符合当前“互联网+交通”的发展大趋势,也为其他地区的网约车管理、大数据发展提供了有益借鉴。

根据战略合作协议,滴滴与贵阳运管局将共同在双龙新区成立“中国网约车大数据交互共享中心”一起推动当地道路运输管理相关数据公开,重点在公交、物流、网络预约出租车等领域展开合作。未来,该中心将着力打造新型业态交通运输大数据体系,推进交通行业数据资源在线聚集、开放和应用,逐步实现各个网约车平台的数据聚合、通用。 

2016年7月28日,交通部联合工信部等七部委共同发布了《网络预约出租汽车经营服务管理暂行办法》,中国由此成为世界上第一个网约车合法的国家,中国的网约车从此进入新阶段。目前,网约车的发展关键在于人工智能和大数据。 

滴滴出行平台上每天的计算次数以10亿计,高峰时段,每一分钟的匹配数高达200万次;每天平台都要计算所有司机和订单的加乘;每天平台上新增数据70TB以上(相当于7万部电影),超过90亿次路径规划次数。滴滴在机器学习、计算机视觉、人工智能、数据挖掘、最优化理论、分布式计算、智能分单、运力调度等方面有国际领先的技术优势。

本次贵阳和滴滴共同成立的“中国网约车大数据交互共享中心”,将推动交通运输公共信息服务监管,提升贵阳市交通运输公共服务品质。通过中心的建设工作,实现网约车的在线服务、在线管理,实现“互联网+模式”的证照管理、执法管理和公共监管。

滴滴出行方面表示,双方本次合作将加快全面推进大数据发展应用,运用大数据推动地方经济发展、完善社会治理,通过大数据手段促进网络预约出租汽车行业和互联网融合发展,保障运营安全和司乘合法权益。

如今,大数据产业正在不断的改变着每个人的生活。以滴滴为例,滴滴在大数据及智能算法方面经验丰富,优势明显。例如在运力调度方面,对于一个具体区域,滴滴“数据大脑”已经实现了提前15分钟预测供需,且预测准确率超过88%。根据预测结果,平台可选择要不要对司机运力进行调度,使在附近的司机可以提前到达运力紧缺的区域,以缓解可能发生的拥堵。

目前,滴滴已经构建了一个世界领先的智能交通云,不仅服务于滴滴平台,未来还能通过与公共部门合作,对整个城市的公共交通产生价值。滴滴方面表示,希望通过与贵阳方面共享数据,打造全球领先的政务数据和企业数据融合的智慧交通系统,让老百姓的出行越来越方便。 

业内人士分析认,随着此番滴滴与贵阳共同成立的“中国网约车大数据交互共享中心”,贵阳“智慧交通”建设、网约车管理很可能赶超一线城市,实现“弯道超车”。 

原文发布时间为:2016年10月19日
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
### 关于网大数据项目的Hive实现方案 #### Hive在网大数据项目中的作用 Hive 是一种建立在 Hadoop 上的数据仓库工具,主要用于规模数据的存储查询。在网大数据项目中,Hive 的主要功能包括但不限于以下几个方面[^5]: - **数据准备**:将来自不同源系统的原始数据经过清洗、转换后导入到 Hive 表中。 - **特征提取**:通过对历史数据进行聚合操作,生成用于机器学习模型训练的特征向量。 - **数据分析**:利用 SQL 查询对海量数据进行统计分析,支持业务决策。 以下是基于 Hive 的具体实现方案技术细节。 --- #### 数据准备工作流程 1. **数据采集存储** - 原始数据通常来源于多个渠道,例如 GPS 定位数据、用户行为日志等。这些数据会被定期上传至 Linux 文件系统或分布式文件系统 (如 HDFS)[^4]。 2. **创建外部表** - 使用 Hive 创建外部表来加载 CSV 格式的原始数据。以下是一个简单的 Hive 外部表定义示例: ```sql CREATE EXTERNAL TABLE IF NOT EXISTS raw_data ( tid STRING, lon DOUBLE, lat DOUBLE, time BIGINT ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE LOCATION '/path/to/data'; ``` 3. **数据清洗** - 清洗过程涉及去除异常值、填补缺失值以及标准化字段格式。可以通过 HiveQL 编写 ETL 脚本来完成这一任务。例如: ```sql INSERT INTO cleaned_data SELECT * FROM raw_data WHERE lon BETWEEN -180 AND 180; ``` --- #### 特征工程数据建模 1. **特征提取** - 在 Hive 中可以使用窗口函数或其他高级语法来计算复杂的特征。例如,计算每辆在过去一小时内行驶的距离: ```sql WITH trip_distance AS ( SELECT tid, LAG(lon) OVER(PARTITION BY tid ORDER BY time) prev_lon, LAG(lat) OVER(PARTITION BY tid ORDER BY time) prev_lat, lon, lat, time FROM cleaned_data ) SELECT tid, SUM(ACOS(SIN(RADIANS(prev_lat)) * SIN(RADIANS(lat)) + COS(RADIANS(prev_lat)) * COS(RADIANS(lat)) * COS(RADIANS(lon - prev_lon))) * 6371) total_distance_km FROM trip_distance GROUP BY tid; ``` 2. **宽表构建** - 结合 DWD 层的事实数据维度数据,在 Hive 中生成适合下游分析的宽表。这种设计能够显著提高 Ad-Hoc 查询效率[^3]: ```sql CREATE TABLE wide_table AS SELECT d.tid, d.lon, d.lat, d.time, u.user_type, v.vehicle_model FROM dim_user u JOIN fact_trip d ON u.uid = d.uid JOIN dim_vehicle v ON d.vin = v.vin; ``` --- #### 模型训练验证 虽然 K-Means 等算法本身不在 Hive 的职责范围内,但其输入数据往往需要借助 Hive 进行预处理。例如,划分训练集测试集的过程可以用如下脚本实现: ```sql INSERT INTO train_set SELECT * FROM wide_table WHERE rand() < 0.8; INSERT INTO test_set SELECT * FROM wide_table WHERE rand() >= 0.8; ``` 随后,导出这些子集并将其传递给 Spark MLlib 或其他框架执行实际的聚类运算[^5]。 --- #### 可视化结果解读 最后一步是对预测结果加以解释并前端界面集成。假设已经得到了簇标签,则可通过 Hive 计算每个群组内的平均位置作为代表点,并调用百度地图 API 显示热力图效果: ```sql SELECT cluster_id, AVG(lon), AVG(lat) FROM predictions GROUP BY cluster_id; ``` --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值