Python-爬取2010-2018和讯年度社会责任报告

本想直接json.loads(),结果网页json试了几种方法就是转不了格式,也不知道为啥。而且得到的数据也不怎么会存储,等找到更好地方法来更新。

# -*- coding: utf-8 -*-
from time import sleep
from pyquery import PyQuery as pq
import re,requests,argparse,csv
import pandas as pd
import numpy as np

def getdate(url):
	headers = {
   
		'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36',
		'Cookie': 'UM_distinctid=170b8aa056f144-074c1185d12ebb-4313f6a-e1000-170b8aa05703b4; ASL=18329,0000z,2404b15f; ADVC=38432d7145211e; vjuids=9096406ec.170b8aa0ade.0.1eb47072712f5; vjlast=1583646117.1583646117.30; hexunATC=hexun,1676,19791,19947,1583646189348,https%3A%2F%2Fh01hxsame.hexun.com%2Fs%3Fz%3Dhexun%26c%3D1676%26op%3D1; cn_1263247791_dplus=%7B%22distinct_id%22%3A%20%22170b8aa056f144-074c1185d12ebb-4313f6a-e1000-170b8aa05703b4%22%2C%22userFirstDate%22%3A%20%2220200308%22%2C%22userID%22%3A%20%22%22%2C%22userName%22%3A%20%22%22%2C%22userType%22%3A%20%22nologinuser%22%2C%22userLoginDate%22%3A%20%2220200308%22%7D; __jsluid_h=642d73b511ae9253ac0724519b48614d; Hm_lvt_cb1b8b99a89c43761f616e8565c9107f=1583646202; HexunTrack=SID=20200308134154013aab19d532e4540798c07f2d877a151a7&CITY=34&TOWN=340100&#
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值