【车辆轨迹处理】python实现轨迹点的聚类（一）——DBSCAN算法

原创

已于 2024-07-24 23:00:44 修改 · 3.8k 阅读

38 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #python #聚类

于 2024-07-22 18:52:16 首次发布

文章目录

前言
一、单辆车轨迹的聚类与分析
二、整个数据集多辆车聚类
- 1.聚类
- 2.整体评价

前言

空间聚类是基于一定的相似性度量对空间大数据集进行分组的过程。空间聚类分析是一种无监督形式的机器学习。通过空间聚类可以从空间数据集中发现隐含的信息。
作者在科研工作中，需要对某些车辆的轨迹数据进行一些空间聚类分析，以期望发现车辆在行驶过程中发生轨迹点”聚集“的行为。当等时间间隔的轨迹点在某片区域分布过于”密“时，我们往往可以在这片区域发现某些信息，例如车辆在这片区域发生驻留或者低速行驶等。
在空间聚类算法中，DBSCAN是一种简单且有效的聚类算法，它有着基于密度、不需要预先指定聚类数、计算效率高的优点。
本文以如下格式车辆轨迹数据为例，实提供了DBSCAN对车辆轨迹数据聚类并分析的方法：

collect_time	id	lon	lat
时间	车辆标识	经度	纬度

为了尽量去除噪声影响，车辆轨迹数据已经经过滤波平滑，平滑方法可见作者之前文章：https://blog.youkuaiyun.com/jgsecurity/article/details/140608431。

一、单辆车轨迹的聚类与分析

对单辆车的轨迹数据，采用DBSCAN算法进行空间聚类。DBSCAN（Density-Based Spatial Clustering of Applications with Noise）是一种经典的密度聚类算法，适用于发现任意形状的聚类簇。其原理本文不做阐述，如有需要，可以自行搜索。

1.引入库

使用了数学计算库numpy和pandas，机器学习库scikit-learn，地理相关库shapely和geopy，绘图库matplotlib。

import numpy as np
import pandas as pd
from sklearn.cluster import DBSCAN
from sklearn import metrics
from shapely.geometry import MultiPoint
from geopy.distance import great_circle
import matplotlib.pyplot as plt
import matplotlib.colors as mcolors

2.聚类

在进行聚类之前，先使用shapely和geopy库实现了get_centermost_point函数。其输入数据cluster是列表类型，表示每一组聚类的点集。作用是在获得了每个聚类之后，计算出该聚类的中心点。

# 计算每个聚类的中心点
def get_centermost_point(cluster):
    # 计算整个点集合的质心点
    centroid = (MultiPoint(cluster).centroid.x, MultiPoint(cluster).centroid.y)
    # 取点集合中离质心点最近的点为中心点
    centermost_point = min(cluster, key=lambda point: great_circle(point, centroid).m)
    # 返回中心点
    return tuple(centermost_point)

对单辆车的聚类函数cluster_traj，其输入数据data是dataframe类型，表示一辆车的轨迹数据。


# DBSCAN聚类
def cluster_traj(data):
    # 提取dataframe中的经纬度列
    coords = data[['smoothed_lat', 'smoothed_lon']]

最低0.47元/天解锁文章