- 博客(5)
- 收藏
- 关注
原创 Python爬虫实例:Scrapy爬取股票信息到SQL数据库
今天给大家分享一个之前完成的爬虫实例,利用Scrapy库和docker爬取股票信息。这个案例的目标是爬取股票的信息并存放到SQL Server当中。这应该算是爬虫入门必学的案例了,话不多说,直接上干货。首先看一下我们今天要用到的库和工具:from scrapy import Spider, Requestfrom scrapy_splash import SplashRequestimport scrapyimport refrom getStock.items import Getstoc
2020-09-21 19:46:43
1957
1
原创 Kaggle实战入门(四)之Cat-In-The-Dat-ii
第四个项目比较简单和有趣,因为它的数据集全部都是分类型特征,在这种情况下,我们又应该怎么做呢。在这里给大家分享一个比较好用的模型catboost和对分类型特征处理的编码方式TargetEncoder。在这个项目中可以方便快捷的对数据进行处理和建模。Part1.数据导入import numpy as npimport pandas as pdimport osfrom sklearn.exceptions import ConvergenceWarningimport warningswarn
2020-09-21 00:12:20
1180
原创 Kaggle实战入门(三)之纽约出租车价格预测New-York-City-Taxi-Fare-Prediction
今天给大家分享第三个kaggle竞赛项目,纽约出租车价格预测New-York-City-Taxi-Fare-Prediction。这个项目的特点是给到我们的数据集比较大,有5.3G,数据总量是5400W行。不过我们在做这个项目的时候并不需要这么多的数据量,下面我们就一起来看一下这个项目。Part1.数据导入和初步分析首先导入我们的数据集,由于数据量过大,我们只导入前500W行的数据进行建模。import numpy as npimport pandas as pdimport matplotlib
2020-09-20 23:23:37
4557
8
原创 Kaggle实战入门(二)之房价预测Housing Prices Competition
这是博主第二个kaggle项目,Housing Prices Competition。这个项目是基于波士顿房价改编的数据集对房子的价格进行预测。虽然是基于波士顿房价数据集,但改编过后有着80多个数据特征,还是有一定难度的。下面给大家分享一下我的做法把,同样地在kaggle上排到了前10%的成绩。Part1.数据导入和初步分析先来初步观察一下我们这次要用到的数据集import numpy as npimport pandas as pdimport seaborn as snsimport ma
2020-07-25 16:08:20
5390
7
原创 Kaggle实战入门(一)之泰坦尼克号
博主最近开始在Kaggle上做项目,第一个项目就是最经典的项目泰坦尼克号。在尝试了几种模型,调整了很多次之后,终于将模型调到0.8的得分,给大家分享一下我的做法。Part1.数据导入和初步观察导入泰坦尼克号训练集和测试集的数据,这次我选择同时处理两份数据,所以直接将他们拼接起来import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport warningswarn
2020-07-16 15:45:53
18243
8
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人