scrapy---基础

本文介绍了Scrapy框架,它用于爬取网站数据、提取结构性数据,基于twisted,性能好且易于扩展。还提及网页分类,包括静态和动态网页。阐述了爬虫在搜索引擎、推荐引擎等方面的应用,介绍了字符串编码知识,最后给出了Scrapy的安装方法。

一,概念

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,可以应用于数据挖掘,信息处理或存储历史数据等一些列的程序中。Scrapy最初就是为了网络爬取而设计的。

<1>, requests和beautifulsoup是库,scrapy是框架
<2>, scrapy框架中可以加入requests和beautifulsoup
<3>, scrapy基于twisted(异步io的框架),性能是最大的优势
<4>, 易于扩展,提供了很多内置的功能
<5>, Scrapy内置的css和xpath selector非常方便,beautifulsoup最大的缺点就是慢

二,网页分类

1, 静态网页
事先生成好的,并没有和数据库相关

2, 动态网页
页面中有数据库动态填充的数据

三,爬虫能做什么

1, 搜索引擎,百度,谷歌,垂直搜索领域搜索引擎(知道自己要什么)
2, 推荐引擎,今日头条(根据浏览习惯猜测喜欢的内容,然后推荐给我们)
3, 机器学习的数据样本
4, 数据分析,金融数据分析,舆情分析

四,字符串编码

Unicode编码比ascii需要多一倍的存储空间,传输需要多一倍的传输
可变长的编码utf-8,把英文变成一个字节,汉字三个字节,特别生僻的汉字4-6个字节,如果传输大量的英文,utf-8作用就很明显了
但是,如果把utf-8编码拿到内存里边去处理,就会变得复杂
所以:读取的时候转换为unicode,保存的时候转换为utf-8

注意:

Python在内存中将所有字符按unicode进行编码,要想使用encode,要先保证其为unciode

五,安装scrapy

pip install  -i  https://pypi.doubanio.com/simple/ scrapy

发现没有装twist,可以去该网站(组件库)去找:
https://www.lfd.uci.edu/~gohlke/pythonlibs/

搜索twisted,找到对应的版本下载
在对应的虚拟环境下,pip install +组件路径
在重新安装

内容概要:本文系统介绍了算术优化算法(AOA)的基本原理、核心思想及Python实现方法,并通过图像分割的实际案例展示了其应用价值。AOA是一种基于种群的元启发式算法,其核心思想来源于四则运算,利用乘除运算进行全局勘探,加减运算进行局部开发,通过数学优化器加速函数(MOA)和数学优化概率(MOP)动态控制搜索过程,在全局探索与局部开发之间实现平衡。文章详细解析了算法的初始化、勘探与开发阶段的更新策略,并提供了完整的Python代码实现,结合Rastrigin函数进行测试验证。进一步地,以Flask框架搭建前后端分离系统,将AOA应用于图像分割任务,展示了其在实际工程中的可行性与高效性。最后,通过收敛速度、寻优精度等指标评估算法性能,并提出自适应参数调整、模型优化和并行计算等改进策略。; 适合人群:具备一定Python编程基础和优化算法基础知识的高校学生、科研人员及工程技术人员,尤其适合从事人工智能、图像处理、智能优化等领域的从业者;; 使用场景及目标:①理解元启发式算法的设计思想与实现机制;②掌握AOA在函数优化、图像分割等实际问题中的建模与求解方法;③学习如何将优化算法集成到Web系统中实现工程化应用;④为算法性能评估与改进提供实践参考; 阅读建议:建议读者结合代码逐行调试,深入理解算法流程中MOA与MOP的作用机制,尝试在不同测试函数上运行算法以观察性能差异,并可进一步扩展图像分割模块,引入更复杂的预处理或后处理技术以提升分割效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值