船讯网根据获得的MMSI信息对于每个对应船舶的信息进行爬取
船讯网网址:http://www.shipxy.com/
这里爬取的内容包括了船舶的mmsi,imo,船舶宽度,船舶长度,船舶吃水深度等比较详细的信息,大体思路是根据Post得到数据然后我导入了mysql的数据库里。
mmsi数据是我之前爬取船舶的运动轨迹的时候就已经爬取得到了的。
代码原来是优快云上一位学者根据船名爬取MMSI改的,他那个数据请求方式是get,稍有出入。
首先登陆 船舶网 发送请求,对其request method进行查看。可以发现数据的请求方式是post。
再看数据需要输入的内容,这里只有mmsi。
再看输出,在preview里面,就是我们要得到的内容。
关于爬虫的代码我附在最后,这个也是我写的第一篇优快云,作为自己的心得记录,希望可以和更多的人一起交流~
import requests
import os
import time
import pymysql
import pandas as pd
import re
import random
'''
author:longcheng
function:通过读取船舶数据,分别请求拿到dict数据入库
'''
#定义入库的类
class company_ship_in_database:
def __init__(self):
self.conn = pymysql.connect(host="",port=, user="", password="", database="", charset="utf8")
self.cursor = self.conn.cursor()
self.last