l 采集网站
【场景描述】采集新浪财经所有行业板块中上市公司的高管信息。
【源网站介绍】
新浪财经,提供7X24小时财经资讯及全球金融市场报价,覆盖股票、债券、基金、期货、信托、理财、管理等多种面向个人和企业的服务。
【使用工具】前嗅ForeSpider数据采集系统,点击下方链接可免费下载
http://www.forenose.com/view/forespider/view/download.html
【入口网址】
http://finance.sina.com.cn/stock/sl/#sinaindustry_1
【采集内容】
采集新浪财经所有行业板块中上市公司的高管信息。
【采集效果】如下图所示:
l 思路分析
配置思路概览:
l 配置步骤
1. 新建采集任务
选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。
选择列表链接,点击完成按钮,即创建任务完成。
2.获取行业链接
①用浏览器打开该网页,查看各行业的链接规律,发现行业链接规律为:http://vip.stock.finance.sina.com.cn/mkt/#new_+行业名称首字母
比如:
http://vip.stock.finance.sina.com.cn/mkt/#new_cbzz (船舶制造)
http://vip.stock.finance.sina.com.cn/mkt/#new_tchy (陶瓷行业)
②所以获取行业链接的方法为:将各行业关键词的首字母设置为关键词,用脚本拼接行业链接。
③设置关键词,具体步骤如下所示:
关键词文本如下:
new_blhy;new_cbzz;new_cmyl;new_dlhy;new_dqhy;new_dzqj;new_dzxx;new_fdc;new_fdsb;new_fjzz;ne