爬取新浪微博

爬虫技巧与实践
本文介绍了使用Python进行网络爬虫时的一些实用技巧,包括利用logger记录日志而非使用print语句,采用正则表达式处理数据,掌握time模块的使用方法,了解eval函数的高级应用,以及formrequest的发送方式。

https://github.com/factsbenchmarks/Weibo

学到的东西。

  1 习惯用logger,而不是用print

self.logger.debug('{}开始解析'.format(response.url))

  2 习惯用正则表达式

  这是在pipeline清理数据时用到的

s = '5分钟前'

if re.match('\d+分钟前',s):
    minute = re.match('(\d+)',s).group(1)
    datetime = time.strftime('%Y-%m-%d %H:%M',time.localtime(time.time()-float(minute)*60))

    print(datetime)

  3 time模块都快忘干净了吧

  4 eval的妙用,还可以这样用!

  注释的是lowB代码。如果字段更多,更显的low。

  学到了

    def parse_detail(self,response):
        self.logger.debug('{}开始解析'.format(response.url))
        item = YQtem()
        title = response.css('body > div.wrap > div.mainbox > div.main2 > div.left > div.title > strong > a::text').extract_first()
        author = response.css('body > div.wrap > div.mainbox > div.main2 > div.right > div.autherinfo > div.au_name > p:nth-child(2) > a::text').extract_first()
        popularity = response.css('body > div.wrap > div.mainbox > div.main2 > div.left > div.num > table > tbody > tr > td:nth-child(2)::text').extract_first()
        count = response.css('body > div.wrap > div.mainbox > div.main2 > div.left > div.num > table > tbody > tr > td:nth-child(4)::text').extract_first()
        # item['title'] = title
        # item['author'] = author
        # item['popularity'] = popularity
        # item['count'] = count
        for field in item.fields:
            item[field] = eval(field)
        yield item

   5 formrequest 的用法

data = {
                    'mp': str(self.max_page),
                    'page': str(page)
                }
yield FormRequest(url, callback=self.parse_index, formdata=data)

 

转载于:https://www.cnblogs.com/654321cc/p/8976944.html

## 01、数据介绍 数据整理全国30个省份制造业细分行业产值,能够反映一定时期内细分行业工业生产总规模和总水平的指标,是计算工业生产发展速度和主要比例关系、计算工业产品销售率等其他经济指标的基础。先进制造业数据可用于两业融合测算。 数据名称:全国30省-制造业细分行业产值/先进制造业细分行业产值数据 数据年份:2001-2022年 ## 02、数据指标 农副食品加工业;食品制造业;饮料制造业;烟草制造业;纺织业;纺织服装鞋帽制造业;皮革、毛皮、羽毛(绒)极其制品业;木材加工及木、竹、藤、棕、草制品业;家具制造业;造纸及纸制品业;印刷业和记录媒介的复制;文教体育用品制造业;石油加工、炼焦及核燃料加工业化;学原料及化学制品制造业;医药制造业;化学纤维制造业;橡胶和塑料制品制品业;非金属矿物制品业;黑色金属冶炼及压延加工业;有色金属冶炼及压延加工业;金属制品业;通用设备制造业;专用设备制造业;汽车制造业;其他运输设备制造业;电气机械及器材制造业;通信设备计算机及其他电子设备制造业;仪器仪表及文化、办公用机械制造业;其他制造业;废弃资源和废旧材料回收加工业;制造业总产值 印刷业和记录媒介的复制;石油加工、炼焦及核燃料加工业;化学原料及化学制品制造业;医药制造业;橡胶和塑料制品制品业;非金属矿物制品业;黑色金属冶炼及压延加工业;有色金属冶炼及压延加工业;金属制品业;通用设备制造业;专用设备制造业;汽车制造业;其他运输设备制造业;电气机械及器材制造业;通信设备计算机及其他电子设备制造业;仪器仪表及文化、办公用机械制造业;废弃资源和废旧材料回收加工业
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值