kaggle之旧金山犯罪

最新推荐文章于 2024-09-04 02:31:06 发布

Frank-Lee

最新推荐文章于 2024-09-04 02:31:06 发布

阅读量5.1k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签： kaggle

本文链接：https://blog.youkuaiyun.com/lijingpengchina/article/details/52247633

这篇博客主要介绍了在kaggle上的旧金山犯罪数据集分析，通过贝叶斯训练和逻辑回归进行建模。文章详细描述了数据预处理步骤，包括离散特征的二值化处理，以及如何分割训练集和验证集。最终，模型在测试集上进行了运行并保存了结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

kaggle地址

github地址

特点：
1. 离散特征
2. 离散特征二值化处理

## 数据概览

import pandas as pd
import numpy as np

# 载入数据
train = pd.read_csv('~/kaggle/dataset/San_Francisco_Crime_Classification/train.csv', parse_dates = ['Dates'])
test = pd.read_csv('~/kaggle/dataset/San_Francisco_Crime_Classification/test.csv', parse_dates = ['Dates'])

预览训练集

print train.head(10)

Dates Category Descript \ 0 2015-05-13 23:53:00 WARRANTS WARRANT ARREST 1 2015-05-13 23:53:00 OTHER OFFENSES TRAFFIC VIOLATION ARREST 2 2015-05-13 23:33:00 OTHER OFFENSES TRAFFIC VIOLATION ARREST 3 2015-05-13 23:30:00 LARCENY/THEFT GRAND THEFT FROM LOCKED AUTO 4 2015-05-13 23:30:00 LARCENY/THEFT GRAND THEFT FROM LOCKED AUTO 5 2015-05-13 23:30:00 LARCENY/THEFT GRAND THEFT FROM UNLOCKED AUTO 6 2015-05-13 23:30:00 VEHICLE THEFT STOLEN AUTOMOBILE 7 2015-05-13 23:30:00 VEHICLE THEFT STOLEN AUTOMOBILE 8 2015-05-13 23:00:00 LARCENY/THEFT GRAND THEFT FROM LOCKED AUTO 9 2015-05-13 23:00:00 LARCENY/THEFT GRAND THEFT FROM LOCKED AUTO DayOfWeek PdDistrict Resolution Address \ 0 Wednesday NORTHERN ARREST, BOOKED OAK ST / LAGUNA ST 1 Wednesday NORTHERN ARREST, BOOKED OAK ST / LAGUNA ST 2 Wednesday NORTHERN ARREST, BOOKED VANNESS AV / GREENWICH ST 3 Wednesday NORTHERN NONE 1500 Block of LOMBARD ST 4 Wednesday PARK NONE 100 Block of BRODERICK ST 5 Wednesday INGLESIDE NONE 0 Block of TEDDY AV 6 Wednesday INGLESIDE NONE AVALON AV / PERU AV 7 Wednesday BAYVIEW NONE KIRKWOOD AV / DONAHUE ST 8 Wednesday RICHMOND NONE 600 Block of 47TH AV 9 Wednesday CENTRAL NONE JEFFERSON ST / LEAVENWORTH ST X Y 0 -122.425892 37.774599 1 -122.425892 37.774599 2 -122.424363 37.800414 3 -122.426995 37.800873 4 -122.438738 37.771541 5 -122.403252 37.713431 6 -122.423327 37.725138 7 -122.371274 37.727564 8 -122.508194 37.776601 9 -122.419088 37.807802 预览测试集合