
算法
Necther
这个作者很懒,什么都没留下…
展开
-
如何从大规模的经纬度轨迹数据中选出能够代表该轨迹的点
背景: 需要对两个轨迹进行比对,判断是否重合或者重合度有多少。 两条轨迹的经纬度数据量很大,导致比对的时候计算量很大,所以需要从两条轨迹中选出具有代表性的点进行比较。 例如在下图中: ABCDE五个点之间还有很多经纬度数据。但是实际上真正能代表这个轨迹的就是这五个点 此处采用geohash编码来解决这个问题: 我们将整个经纬度数据进行geohash编码: 轨迹即变成上图所示,...原创 2018-05-23 14:16:16 · 4379 阅读 · 4 评论 -
司机乘客匹配中的距离和最小问题
这个是在工作中遇到的一个实际的算法问题,问题描述如下,当前有m个司机,n个乘客,每个司机和每个乘客的距离由经纬度可以计算得到,如何匹配可以使其去接乘客的距离和最小?(只能一个司机接一个乘客) 带权二分图方法 一般对KM算法的描述,基本上可以概括成以下几个步骤: (1) 初始化可行标杆 (2) 用匈牙利算法寻找完备匹配 (3) 若未找到完备匹配则修改可行标杆 (4) 重复(2)(3)直到...原创 2018-05-23 14:29:58 · 3545 阅读 · 0 评论 -
对xgboost和lightgbm的理解及其调参应该关注的点
这两个算法都是集成学习了分类回归树模型,先讨论是怎么集成的。 集成的方法是 Gradient Boosting 比如我要拟合一个数据如下: 第一次建了一个模型如上图中的折线,效果不是很理想,然后要新建一个模型来综合一下结果,那么第二个模型如何建,我们将实际目标值和我们第一个模型的预测的差值 作为第二次模型的目标值如下图再建一个模型: 然后不断地新建新的模型,过程如下: 最后就能集成这些模型不...原创 2018-11-03 17:24:55 · 677 阅读 · 0 评论 -
如何计算用户在某个车站上下车,地图匹配方法
具体需求 基于电信的位置融合数据,分析用户是否通过火车出行,以及火车出行的相关信息,如乘车车次、上车站、下车站等。 数据描述 1、用户定位数据 手机号码 业务开始时间 城市编码 经纬度 基站标识 网格号 业务类型 事件类型 数据源 天分区 2、火车停靠数据 车次 车站序号 车站名称 行驶时间 到站时间 行驶里程 经纬度 Python代码如下: 输入经纬度 和编码级别计算对应的geohash编码 f...原创 2018-11-02 13:09:36 · 628 阅读 · 0 评论