python爬虫爬取机床展名录

几个月前吧,需要去北京看机床展,在去之前需要对参展公司,及其展品种类有个大体的了解。参展列表如下

http://www.cimtshow.com/ZHSExhibitorsListAction.do?actionType=showlist&topage=1&keyword=&language=zhs

一共34页,还是比较多的,如果只需要展位号,公司名称这样本页就有的信息导入excel很简单,但是为了筛选但是还要打开每个展位的“参赛展品”链接,看里面有什么种类一个个点就太麻烦了。正好之前看过简单的爬虫知识,这个用爬虫来解决是比较方便的。虽然很简单,但是第一次写爬虫,第一次用python语言,还是写了一晚上。

#!/usr/bin/env python3
import os
from urllib.request import urlopen
from bs4 import BeautifulSoup
import csv

pages=[]	#建立个列表来存储链接
def getLinks(url):
	html=urlopen(url)
	bsObj=BeautifulSoup(html,"lxml")
	a=bsObj.findAll("table")[0]
	bls=a.findAll("a")
	for aa in bls:
		if 'href' in aa.attrs:
			if aa.attrs['href']  not in pages:
				#我们遇到了新页面
				newPage=aa.attrs['href']
				print("http://www.cimtshow.com"+newPage)
				pages.append("http://www.cimtshow.com"+newPage)

for j in range(34):	#这里python循环也查了好久。。是这样写的
	url="http://www.cimtshow.co
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值