自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(47)
  • 收藏
  • 关注

原创 在 Ubuntu24.04 LTS 上 Docker Compose 部署基于 Dify 重构二开的开源项目 Dify-Plus

Dify-Plus,该名字不是说比 Dify 项目牛的意思,意思是想说比 Dify 多做了一些针对企业场景多了一些二开的功能而已。简而言之:该项目基于 gin-vue-admin 做了 Dify 的管理中心,基于 Dify 做了一些适合企业场景的二开功能。Dify-Plus 是 Dify 的企业级增强版,集成了基于 gin-vue-admin 的管理中心,并针对企业场景进行了功能优化。🚀 Dify-Plus = 管理中心 + Dify 二开。

2025-04-06 22:44:35 524

原创 使用Scrapy官方开发的爬虫部署、运行、管理工具:Scrapyd

Scrapyd是Scrapy官方开发的,用来部署、运行和管理Scrapy爬虫的工具。使用Scrapyd,可以实现一键部署Scrapy爬虫,访问一个网址就启动/停止爬虫。Scrapyd自带一个简陋网页,可以通过浏览器看到爬虫当前运行状态或者查阅爬虫Log。Scrapyd提供了官方API,从而可以通过二次开发实现更多更加复杂的功能。Scrapyd可以同时管理多个Scrapy工程里面的多个爬虫的多个版本。

2025-04-05 23:47:03 1171

原创 (一) 互联网云服务模型提供商介绍 — 硅基流动

Max Tokens : 模型生成回复时允许的最大Token数量。Token可以是单词、子词或标点等语言基本单元。图中设置为8192,表示生成内容的上限为8192个Token。Temperature : 温度系数,控制生成文本的随机性。值越高,文本越具创造性和多样性,但可能偏离主题;值越低,文本更保守和确定。图中值为0.6,处于适中范围。Top - P : 核采样(nucleus sampling)参数。从概率分布中选取累计概率达到0.95的词作为候选集,再从中采样生成。

2025-03-17 12:49:23 90

原创 在 Ubuntu24.04 LTS 上 Docker Compose 部署 Dify 社区版 1.0.1

LLMOps(Large Language Model Operations)是一个涵盖了大型语言模型(如GPT系列)开发、部署、维护和优化的一整套实践和流程。LLMOps 的目标是确保高效、可扩展和安全地使用这些强大的 AI 模型来构建和运行实际应用程序。它涉及到模型训练、部署、监控、更新、安全性和合规性等方面。下表说明了使用 Dify 前后开发 AI 应用的各环节差异:在使用 LLMOps 平台如 Dify 之前,基于 LLM 开发应用的过程可能会非常繁琐和耗时。

2025-03-15 00:04:08 1236

原创 Ubuntu24.04 LTS 版本 Linux 系统在线和离线安装 Docker 和 Docker compose

在 Ubuntu 24.04 LTS 中,系统引入了全新的软件源配置格式。现在的源配置文件内容更加结构化且清晰,主要包含了软件类型 (Types)、源地址 (URIs)、版本代号 (Suites) 以及组件 (Components) 等信息。由于首次更新会包含内核更新,我们需要执行重启操作,让内核和各种补丁生效。

2025-03-14 00:16:15 1381

原创 在 Windows 系统下使用 VMware 安装 Ubuntu 24.04 LTS 系统

Ubuntu24.04桌面端官方下载:https://cn.ubuntu.com/download/desktop。

2025-03-13 18:09:13 1540

原创 下载安装启动 VMware 个人免费版本

如果本身是要在 Windows 系统安装 VMware ,那找到 VMware Workstation Pro for PC 点击 DOWNLOAD NOW ;如果本身是要在 Mac 系统安装 VMware ,那找到 VMware Fusion Pro for Mac 点击 DOWNLOAD NOW 。

2025-03-12 18:33:35 1035

原创 Python3 爬虫 爬虫中间件

爬虫中间件的用法与下载器中间件非常相似,只是它们的作用对象不同。下载器中间件的作用对象是请求request和返回response;爬虫中间键的作用对象是爬虫,更具体地来说,就是写在spiders文件夹下面的各个文件。

2025-03-08 23:49:30 1725

原创 Python3 爬虫 开发Scrapy下载器中间件

能在中间件中实现的功能,都能通过直接把代码写到爬虫中实现。使用中间件的好处在于,它可以把数据爬取和其他操作分开。在爬虫的代码里面专心写数据爬取的代码;在中间件里面专心写突破反爬虫、登录、重试和渲染AJAX等操作。对团队来说,这种写法能实现多人同时开发,提高开发效率;对个人来说,写爬虫的时候不用考虑反爬虫、登录、验证码和异步加载等操作。另外,写中间件的时候不用考虑数据怎样提取。一段时间只做一件事,思路更清晰。没有自由的秩序和没有秩序的自由,同样具有破坏性。

2024-12-22 21:23:34 1583

原创 Python3 爬虫 Scrapy 与 Redis

Scrapy是一个分布式爬虫的框架,如果把它像普通的爬虫一样单机运行,它的优势将不会被体现出来。因此,要让Scrapy往分布式爬虫方向发展,就需要学习Scrapy与Redis的结合使用。Redis在Scrapy的爬虫中作为一个队列存在。

2024-12-15 19:00:36 1345

原创 Scrapy与MongoDB

Scrapy可以在非常短的时间里获取大量的数据。这些数据无论是直接保存为纯文本文件还是CSV文件,都是不可取的。爬取一个小时就可以让这些文件大到无法打开。这个时候,就需要使用数据库来保存数据了。MongoDB由于其出色的性能,已经成为爬虫的首选数据库。它的出现,使得Scrapy如虎添翼,从此可以放心大胆地爬数据了。

2024-12-08 21:44:00 1069

原创 Python3 爬虫 Scrapy的使用

Scrapy的爬虫默认是遵守robots.txt协议的

2024-12-01 00:05:48 1451

原创 Python3 爬虫 Scrapy的安装

Scrapy是基于Python的分布式爬虫框架。使用它可以非常方便地实现分布式爬虫。Scrapy高度灵活,能够实现功能的自由拓展,让爬虫可以应对各种网站情况。同时,Scrapy封装了爬虫的很多实现细节,所以可以让开发者把更多的精力放在数据的提取上。

2024-11-24 20:09:44 1456

原创 Android原生App爬虫-实现原理

爬虫常见两种情况:第一种情况,爬虫伪装成浏览器,向服务器要数据;第二种情况,在服务器往浏览器发送数据时,爬虫从中拦截,获取信息。这两种情况,无论是暗号(参数)不对还是行为不对,都会被服务器识别。​那么有没有什么办法可以做到几乎毫无痕迹地爬取数据呢?答案是有的。

2024-11-16 22:36:17 2912

原创 Python3 爬虫 中间人爬虫

抓包是爬虫开发过程中非常有用的一个技巧

2024-10-06 20:41:27 2404

原创 Python3 爬虫 数据抓包

使用Charles,可以轻松截获手机App和微信小程序的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。

2024-08-04 20:19:01 1506

原创 Python3 爬虫 模拟登录验证码处理

在线验证码识别

2024-07-14 20:36:58 1967 1

原创 Python3 爬虫 模拟登录

模拟登录有多种实现方法,使用Selenium操作浏览器登录和使用Cookies登录虽然简单粗暴,但是有效。使用模拟提交表单登录虽然较为麻烦,但可以实现自动化。

2024-06-23 18:11:47 1789

原创 Python3 之 模拟浏览器

虽然在网页的源代码中无法看到被异步加载的内容,但是在Chrome的开发者工具的“Elements”选项卡下却可以看到网页上的内容,这就说明Chrome开发者工具“Elements”选项卡里面的HTML代码和网页源代码中的HTML代码是不一样的。而这个条件就是“presence_of_element_located”,其中的“located”是“locate”的被动式,表示“被定位的”,“presence”的英文意思是“出现”。使用Windows的开发者在写这个参数的时候,要注意反斜杠的问题。

2024-01-01 13:36:01 2043

原创 Python3 之 Headers请求头

网站怎么知道现在是计算机浏览器还是手机浏览器在访问这个页面呢?这就要归功于Headers了。

2023-12-09 21:25:51 1835

原创 Python3 爬虫之异步加载

JSON是一种格式化字符串。JSON字符串与Python的字典或者列表非常相似,仅存在一些细微差别。为什么需要JSON这种字符串呢?举一个例子:一个会英语不会德语的中国人,和一个会英文不会中文的德国人,他们可以使用英语愉快地交谈。英语在他们的交流中扮演了一个中介的角色。JSON在网络通信里面就是这个中介。JSON的全称是JavaScript Object Notation,是一种轻量级的数据交换格式。网络之间使用HTTP方式传递数据的时候,绝大多数情况下传递的都是字符串。

2023-11-26 19:32:19 1136

原创 Python3 爬虫信息读取 MongoDB 和 Redis 的使用建议

虽然MongoDB相比于MySQL来说,速度快了很多,但是频繁读写MongoDB还是会严重拖慢程序的执行速度。

2023-11-12 18:41:22 414

原创 Python3 之 Redis-py 安装与使用

在Python中使用Redis-py,只需要简单的两步:连接Redis,操作Redis

2023-08-13 19:48:09 818

原创 Python3 之 Redis 安装

Redis是一个基于内存的数据库,数据库可以作为一个媒介来实现人与程序或者程序与程序的沟通。比如,如果程序的一些关键变量的值是实时从数据库里面读出来的,那么如果控制者想改变程序的一些行为,只需要修改这几个关键变量的值就可以了。例如爬虫的目标页面的网址是从数据库里面实时读出来的,那么如果想临时增加几个新的网址,只需要把网址添加到数据库中即可,不需要重启爬虫。

2023-07-16 20:21:23 673

原创 Python3 之 PyMongo 的安装与使用

PyMongo 模块是 Python 对 MongoDB 操作的接口包,能够实现对 MongoDB 的增删改查及排序等操作。

2023-07-09 11:33:43 8507

原创 Python3 之 MongoDB 的安装

MongoDB 是一款基于C++开发的开源文档数据库,数据在 MongoDB 中以Key-Value的形式存储,就像是Python中的字典一样。使用 MongoDB 管理软件RoboMongo。需要注意的是,RoboMongo 已经被 Studio 3T 所在的 3T Software Labs 收购,因此,RoboMongo 的后续版本改名为 Robo 3T。Robo 3T 与 RoboMongo 除了名字不一样以外,其他地方都是一样的。

2023-07-01 22:25:22 261

原创 微服务框架为什么首选前后端分离开发模式

当业务变得越来越复杂或产品线越来越多时,原有的开发模式就无法满足业务需求了。产品越来越多,展现层的变化越来越快、越来越多,此时应该进行前后端分离的分层抽象,简化数据获取过程。

2023-04-02 13:54:35 931

原创 Python3 使用 XPath 和 Beautiful Soup4 进行HTML内容解析

XPath(XML Path)是一种查询语言,它能在XML(Extensible Markup Language,可扩展标记语言)和HTML的树状结构中寻找结点。形象一点来说,XPath就是一种根据“地址”来“找人”的语言。用正则表达式来提取信息,经常会出现不明原因的无法提取想要内容的情况。最后即便绞尽脑汁终于把想要的内容提取了出来,却发现浪费了太多的时间。需要寻找的内容越复杂,构造正则表达式所需要花费的时间也就越多。

2023-03-22 21:53:04 1211

原创 Python3 爬虫的常见搜索算法

搜索算法并非非此即彼,需要根据实际情况灵活选择,很多时候也能够同时使用

2023-02-12 18:30:58 1488

原创 Python3 多线程爬虫

由于爬虫是I/O密集型的操作,特别是在请求网页源代码的时候,如果使用单线程来开发,会浪费大量的时间来等待网页返回,所以把多线程技术应用到爬虫中,可以大大提高爬虫的运行效率。

2022-12-29 10:39:05 286

原创 使用 Python3 获取网页源代码

爬虫的数据爬取量非常大,显然不可能对每个页面都手动复制源代码,因此就有必要使用自动化的方式来获取网页源代码。

2022-12-23 21:57:59 9320 1

原创 Python3 的文件操作

Python3 爬虫操作涉及对文件的读/写与编码的处理是爬虫工程师必须要掌握的。 使用Python3 来读/写文本需要用到“open”这个关键字。它的作用是打开一个文件,并创建一个文件对象。 使用Python3打开文件,有两种常用写法。 第1种方式,如下: 第2种方式,如下: 第1种方式需要手动关闭文件,但是在程序开发中经常会出现忘记关闭文件的情况。第二种方法不需要手动关闭文件,只要代码退出了缩进,Python就会自动关闭文

2022-12-12 23:34:24 2427

原创 Python3 正则表达式

正则表达式(Regular Expression)是一段字符串,它可以表示一段有规律的信息。Python自带一个正则表达式模块,通过这个模块可以查找、提取、替换一段有规律的信息。比如,在程序开发中,要让计算机程序从一大段文本中找到需要的内容,就可以使用正则表达式来实现。使用正则表达式有如下步骤。(1)寻找规律。(2)使用正则符号表示规律。(3)提取信息。

2022-11-27 19:47:31 2464

原创 JavaScript打印页面的出错异常与IE调用其他网页

try语句用来运行代码,当代码有错误发生时,则转到catch语句继续执行。在catch语句中,使用“e.description”获取错误信息的描述,然后通过“document.write”方法,将错误信息显示在页面上。

2022-11-13 14:54:49 1177

原创 JavaScript 保护网页源代码与防止网页被放入框架示例

大部分网页的源代码可以使用浏览器提供的“查看源代码”命令查看。本例中屏蔽对网页源代码的查看,原理是首先将文档的内容保存在一个变量中,然后清空文档的内容,最后再在文档中显示旧内容。其实文档内容显示的就是“document.write”输出的内容。

2022-11-10 23:35:18 537

原创 Ubuntu 22.04 安装 PyCharm 搭建 Python 开发环境

任何文本编辑器都可以用来开发Python程序,包括记事本。唯一的不同是开发效率与质量的高低而已。一个优秀的集成开发环境(Integrated Development Environment, IDE)可以让Python开发效率和质量如虎添翼。

2022-11-05 12:56:44 10532 1

原创 javascript页面后退前进刷新示例

为了及时反映站点数据的变化,通常需要页面进行自动刷新;可以将刷新结果指向当前页面,也可以转换到指定页面。重点是meta元素,其属性“HTTP-EQUIV”设置为“refresh”时,会自动刷新当前页面,此属性包含两个重要的设置:CONTENT和URL,CONTENT表示自动刷新的时间间隔,URL表示刷新后的页面地址。

2022-11-03 23:18:43 2315

原创 HTML页面反向显示与页面自动最大化语法示例

HTML页面反向显示与页面自动最大化语法示例

2022-10-26 09:09:24 635

原创 Windows11 如何命令查询自己电脑主板支持的最大内存

随着操作系统和各种应用软件的版本升级,发现自己用的电脑内存越来越不够用了。但换内存却不是自己想换多大就换多大,而是要看自己的电脑主板的支持的最大内存容量是多少!

2022-10-16 17:45:14 4146

原创 JDK19 版本的重要特性

与JDK 18 一样,JDK19 将是一个短期版本,只有六个月的顶级Premier 支持。之前的版本JDK 17 是离JDK19最近的一个长期支持(LTS)版本,提供了数年的支持。JDK19 中主要的7个新特性中,最具 Java 开发者垂涎已久的新特性—— 虚拟线程,类似 Go 语言的协程。

2022-10-04 16:29:57 4171

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除