爬虫

前一段时间学习了一点python,最近又了解了一些有关网络爬虫的知识,下面根据我的理解,简单说一下爬虫。



   
网络爬虫,是一段小程序,它能够自动下载网络资源。它就像一只蜘蛛,在各个网页之间爬来爬去,并把爬过的网

页中感兴趣的东西下载下来,这些网页中的url链接就是蜘蛛网的丝。



   
一个简单的爬虫工作过程大概是这样的:它先向服务器发送一个请求,得到返回后获得了一个网页,之后分析这个

网页,把其中所有的URL提取出来,如果原来的队列中没有,就把这些URL放入队列中等待下载,之后再从队列中拿

出一个新的URL,重复上面的过程。上面这些过程都是自动完成的。


   
爬虫抽象出来就是图的遍历,每个网页可以看成一个节点,网页中的URL链接可以看成边,对这些网页的遍历就要

用到广度优先搜索(BFS)。爬虫的原理就是这么简单,但实际中要考虑的东西有很多,下面主要谈一下遇到的问题

以及对应的解决方法。



   
第一个,就是如果一个网页无法打开,就会使程序死在那儿。对应的方法是,把对应的请求代码放在一个异常处理

中,如果遇到打不开的网页,或经过一定时间无法打开的网页,直接抛出异常,然后继续下一个请求。这是相对简单

的问题。



   
第二个,就是对URL队列遍历的问题。等到爬虫运行一段时间后,等待下载的URL会很多,这时每次对URL队列进

行遍历会占用很多时间。对应的处理方发就是使用散列表,即hash表,这样每次遍历查找的时间复杂度就是O(1)。但

是,这就产生了另一个问题,小规模的还无所谓,如果规模达到一定程度,hash表就会占用很多内存,甚至一台电脑

的内存无法加载整个hash表。我查找了一些资料,在一些搜索引擎上会使用布隆过滤器来解决这个问题,它只需要

hash表的1/81/4就能解决相同问题。



   
第三个,有时候要遍历的网页太多了,如何加快速度。这个问题在搜索引擎中是个很基本的问题,对应的解决方法

就是分布式处理,就是使用更多的服务器共同爬。通常会使用一或多台性能比较好的服务器来储存URL队列,告诉其

他服务器下载哪一个网页,另外的服务器只需要下载网页,然后分析出其中的URL链接,提交到性能较好的服务器上

即可。这种分布式处理方式可以加快爬虫速度,并提高了可靠性,一般搜索引擎都是使用了分布式处理方式。



   
第四个,如果你想爬取特定的信息,那么爬虫不能无限的爬下去,还要设置一个边界值,如果遇到这个边界值就会

自动停下来。可以设置搜索的层数,也可以设置搜索URL的范围。





我感觉,刚开始学习爬虫的时候,最难的不是程序如何写,而是之前的分析。首先要对你要爬的网页进行分析,找出

规律,写出正则分析,如果做到这一点,基本上完成了一半。


另外,还需要考虑到各种异常,做好异常处理,因为互联网本身是不稳定的,任何一个不稳定都会导致你的爬取中

断,这时候要保存好你已经爬好的内容,已经断点,方便滞后的重新爬取。


内容概要:本文详细介绍了一种基于Simulink的表贴式永磁同步电机(SPMSM)有限控制集模型预测电流控制(FCS-MPCC)仿真系统。通过构建PMSM数学模型、坐标变换、MPC控制器、SVPWM调制等模块,实现了对电机定子电流的高精度跟踪控制,具备快速动态响应和低稳态误差的特点。文中提供了完整的仿真建模步骤、关键参数设置、核心MATLAB函数代码及仿真结果分析,涵盖转速、电流、转矩和三相电流波形,验证了MPC控制策略在动态性能、稳态精度和抗负载扰动方面的优越性,并提出了参数自整定、加权代价函数、模型预测转矩控制和弱磁扩速等优化方向。; 适合人群:自动化、电气工程及其相关专业本科生、研究生,以及从事电机控制算法研究与仿真的工程技术人员;具备一定的电机原理、自动控制理论和Simulink仿真基础者更佳; 使用场景及目标:①用于永磁同步电机模型预测控制的教学演示、课程设计或毕业设计项目;②作为电机先进控制算法(如MPC、MPTC)的仿真验证平台;③支撑科研中对控制性能优化(如动态响应、抗干扰能力)的研究需求; 阅读建议:建议读者结合Simulink环境动手搭建模型,深入理解各模块间的信号流向与控制逻辑,重点掌握预测模型构建、代价函数设计与开关状态选择机制,并可通过修改电机参数或控制策略进行拓展实验,以增强实践与创新能力。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值