一个朋友是做化工行业的销售,最近可能业务有点波动,老客户不给力,新客户乏力,自己想看看有没有好的渠道可以取拓展用户,所以一时间他不知道客户来和其他家的市场行情。
平时觉的咱这个写代码的好像没多大作用,这个时候就体现出来了,想从平台找到一些销售线索,但是自己去看感觉复杂,而且容易遗漏。来找我帮忙了。
实战需和实际相结合才能产生效益和动力,否则学了再多也不行啊,今天花点时间简单写了个抓取化工网的数据。
习惯性的用python来,使用requests库的proxies参数来设置HTTP代理,使用headers参数来模拟浏览器。
import requests
from bs4 import BeautifulSoup
# 目标URL
url = 'https://product.chemmade.com/'
# 代理服务器地址
# 获取免费爬虫IP:http://jshk.com.cn/mb/reg.asp?kefu=xjy
proxies = {
"http": "http://proxy-server-ip:port",
"https": "http://proxy-server-ip:port",
}
# 模拟浏览器的User-Agent
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHT