
数据爬虫
文章平均质量分 69
SF引流
梦想是天马行空,落地是平淡枯燥,存量内卷时代的引流思考者。
展开
-
抓取网页图片源代码剖析
还出现了好多为了采集资源而出现的网络爬虫(Net spider),为了反制图片爬虫,研发人员都不会把网页的图片地址放到标签的src属性中去,而放到其他属性中去通过脚本来异步加载,或者页面中根本没有图片地址,通过专门的异步请求来单独获取和处理,还有就是针对频繁下载IP进行封号。场景1:原来从各大搜索引擎(例如百度、360、搜狐等)和知名图片网站(昵图网、汇图网等),输入图片关键词进行搜索,然后一页一页翻看图片搜索结果,现在想在下载工具上输入图片关键字,一键把图片搜索结果下载到本地。原创 2023-01-05 17:56:35 · 1856 阅读 · 2 评论 -
抓取网页图片项目的一些感悟
前一阵因为一个项目中的爬取需求,用python3写了个爬取网页图片的工具,中间碰到了不少问题,例如不同网页的图片地址格式不同,存放位置也不尽相同,就很让人头疼,趟了不少雷还好都解决了,客户是IT小白,所以操作界面必须也得傻瓜式的简单易懂,吐槽一下wxpython开发界面真够原始的。 关于文本框组件的提示信息处理费了一番周折,文本框组件的名称为wx.TextCtrl,为了让客户能知道该文本框需要填写啥信息,需要在文本框中给出提示,鼠标点击进行编辑状态时该提示信息要消失,如果鼠标移走没有填写任何信原创 2022-11-08 19:54:57 · 18158 阅读 · 3 评论 -
SEO网站排名刷量代码中的一些坑
SEO网站排名刷量代码中的动态切换IP代码是为了应对搜索引擎反爬虫模拟真实用户访问而设计的一段代码,SEO网站排名刷量代码中的第一段就是要通过selenium框架来创建浏览器,然后在浏览器中进行搜索查询,现在流行的浏览器当然非chrome莫属,SEO网站排名刷量代码中访问客户网站那一段代码,在运行过程中最容易出现问题,就是触发了客户网站的发爬虫机制,原创 2022-08-19 20:39:26 · 395 阅读 · 0 评论 -
搜索引擎的发展历史
搜索引擎的发展历史:第一代搜索引擎:分类目录时代;第二代搜索引擎:文本检索时代;第三代搜索引擎:整合分析时代;第四代搜索引擎:用户中心时代;原创 2022-03-02 09:27:08 · 3525 阅读 · 0 评论 -
seo网站关键词优化-搜索词和搜索结果观察_百度搜索
本篇通过2个搜索内容来介绍一下百度搜索内容和搜索结果之间的关系观察。话不多说直捣黄龙。例1:在百度首页搜索框中输入“200x100热镀锌槽式直通价格”进行搜索1、搜索内容分词分词结果如下:200 x 100 热 镀锌 槽 式 直通 价格为了方便跟搜索结果比对,先给这些拆分后的单个词语进行编码,编码结果如下:①-200②-x③-100④-热⑤-镀锌⑥-槽⑦-式⑧-直通⑨-价格2、搜索结果分析=搜索结果第1条如下图=搜...原创 2022-02-12 16:31:03 · 775 阅读 · 0 评论 -
python selenium 爬虫 模拟浏览网站内容
使用python selenium编写的爬虫代码,模拟用户浏览某个网站内容,废话少说进入正文。1、爬虫界面如下:界面使用说明:第一步:填写要访问的网站地址第二步:填写每天访问该网址的次数第三步:点击“开始刷量”按钮开始访问网站内容2、爬虫源代码介绍:1)点击“开始刷量”按钮调用runjob方法,runjob具体代码如下:# 访问网站操作代码def runjob(): # m, s = divmod(second, 60) # h, m = d..原创 2021-10-16 23:24:26 · 2077 阅读 · 0 评论