kaggle之旧金山犯罪

这篇博客主要介绍了在kaggle上的旧金山犯罪数据集分析,通过贝叶斯训练和逻辑回归进行建模。文章详细描述了数据预处理步骤,包括离散特征的二值化处理,以及如何分割训练集和验证集。最终,模型在测试集上进行了运行并保存了结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

kaggle地址

github地址

特点:
1. 离散特征
2. 离散特征二值化处理

## 数据概览
import pandas as pd
import numpy as np

# 载入数据
train = pd.read_csv('~/kaggle/dataset/San_Francisco_Crime_Classification/train.csv', parse_dates = ['Dates'])
test = pd.read_csv('~/kaggle/dataset/San_Francisco_Crime_Classification/test.csv', parse_dates = ['Dates'])
预览训练集
print train.head(10)
Dates Category Descript \ 0 2015-05-13 23:53:00 WARRANTS WARRANT ARREST 1 2015-05-13 23:53:00 OTHER OFFENSES TRAFFIC VIOLATION ARREST 2 2015-05-13 23:33:00 OTHER OFFENSES TRAFFIC VIOLATION ARREST 3 2015-05-13 23:30:00 LARCENY/THEFT GRAND THEFT FROM LOCKED AUTO 4 2015-05-13 23:30:00 LARCENY/THEFT GRAND THEFT FROM LOCKED AUTO 5 2015-05-13 23:30:00 LARCENY/THEFT GRAND THEFT FROM UNLOCKED AUTO 6 2015-05-13 23:30:00 VEHICLE THEFT STOLEN AUTOMOBILE 7 2015-05-13 23:30:00 VEHICLE THEFT STOLEN AUTOMOBILE 8 2015-05-13 23:00:00 LARCENY/THEFT GRAND THEFT FROM LOCKED AUTO 9 2015-05-13 23:00:00 LARCENY/THEFT GRAND THEFT FROM LOCKED AUTO DayOfWeek PdDistrict Resolution Address \ 0 Wednesday NORTHERN ARREST, BOOKED OAK ST / LAGUNA ST 1 Wednesday NORTHERN ARREST, BOOKED OAK ST / LAGUNA ST 2 Wednesday NORTHERN ARREST, BOOKED VANNESS AV / GREENWICH ST 3 Wednesday NORTHERN NONE 1500 Block of LOMBARD ST 4 Wednesday PARK NONE 100 Block of BRODERICK ST 5 Wednesday INGLESIDE NONE 0 Block of TEDDY AV 6 Wednesday INGLESIDE NONE AVALON AV / PERU AV 7 Wednesday BAYVIEW NONE KIRKWOOD AV / DONAHUE ST 8 Wednesday RICHMOND NONE 600 Block of 47TH AV 9 Wednesday CENTRAL NONE JEFFERSON ST / LEAVENWORTH ST X Y 0 -122.425892 37.774599 1 -122.425892 37.774599 2 -122.424363 37.800414 3 -122.426995 37.800873 4 -122.438738 37.771541 5 -122.403252 37.713431 6 -122.423327 37.725138 7 -122.371274 37.727564 8 -122.508194 37.776601 9 -122.419088 37.807802 预览测试集合
print test.head(10)
Id Dates DayOfWeek PdDistrict Address \ 0 0 20
Kaggle是一个数据科学竞赛平台,经常有各种数据集竞赛供数据科学家参与。旧金山犯罪竞赛通常需要参赛者分析旧金山市的犯罪数据,预测犯罪发生的可能性以及可能发生的地点。在进行这样的竞赛时,数据可视化是一个重要的步骤,可以帮助参赛者更好地理解数据,发现数据中的模式和特征。 一个简单的图形绘制代码示例可能会使用Python中的matplotlib库。以下是一个基本的图形绘制代码示例,该代码可能会被用于展示旧金山犯罪数据中的犯罪类型分布情况: ```python import matplotlib.pyplot as plt import pandas as pd # 假设有一个Pandas DataFrame叫做df,其中包含旧金山犯罪数据 # 'Category'列包含了犯罪的类型 # 计算每种犯罪类型的数量 crime_counts = df['Category'].value_counts() # 绘制条形图 plt.figure(figsize=(10, 8)) crime_counts.plot(kind='bar') plt.title('旧金山犯罪类型分布') plt.xlabel('犯罪类型') plt.ylabel('数量') plt.xticks(rotation=45) plt.show() ``` 这段代码首先导入了必要的库,然后使用Pandas读取数据,并计算了每个犯罪类型的数量。之后,使用matplotlib绘制了一个条形图,显示了旧金山不同犯罪类型的数量分布。 请注意,实际竞赛中的数据和需求会更加复杂,可能需要更高级的数据处理和可视化技术,比如使用Seaborn进行更美观的图形绘制,或者利用交互式可视化库如Plotly来创建动态图表等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值