- 博客(47)
- 收藏
- 关注
原创 在 Ubuntu24.04 LTS 上 Docker Compose 部署基于 Dify 重构二开的开源项目 Dify-Plus
Dify-Plus,该名字不是说比 Dify 项目牛的意思,意思是想说比 Dify 多做了一些针对企业场景多了一些二开的功能而已。简而言之:该项目基于 gin-vue-admin 做了 Dify 的管理中心,基于 Dify 做了一些适合企业场景的二开功能。Dify-Plus 是 Dify 的企业级增强版,集成了基于 gin-vue-admin 的管理中心,并针对企业场景进行了功能优化。🚀 Dify-Plus = 管理中心 + Dify 二开。
2025-04-06 22:44:35
524
原创 使用Scrapy官方开发的爬虫部署、运行、管理工具:Scrapyd
Scrapyd是Scrapy官方开发的,用来部署、运行和管理Scrapy爬虫的工具。使用Scrapyd,可以实现一键部署Scrapy爬虫,访问一个网址就启动/停止爬虫。Scrapyd自带一个简陋网页,可以通过浏览器看到爬虫当前运行状态或者查阅爬虫Log。Scrapyd提供了官方API,从而可以通过二次开发实现更多更加复杂的功能。Scrapyd可以同时管理多个Scrapy工程里面的多个爬虫的多个版本。
2025-04-05 23:47:03
1171
原创 (一) 互联网云服务模型提供商介绍 — 硅基流动
Max Tokens : 模型生成回复时允许的最大Token数量。Token可以是单词、子词或标点等语言基本单元。图中设置为8192,表示生成内容的上限为8192个Token。Temperature : 温度系数,控制生成文本的随机性。值越高,文本越具创造性和多样性,但可能偏离主题;值越低,文本更保守和确定。图中值为0.6,处于适中范围。Top - P : 核采样(nucleus sampling)参数。从概率分布中选取累计概率达到0.95的词作为候选集,再从中采样生成。
2025-03-17 12:49:23
90
原创 在 Ubuntu24.04 LTS 上 Docker Compose 部署 Dify 社区版 1.0.1
LLMOps(Large Language Model Operations)是一个涵盖了大型语言模型(如GPT系列)开发、部署、维护和优化的一整套实践和流程。LLMOps 的目标是确保高效、可扩展和安全地使用这些强大的 AI 模型来构建和运行实际应用程序。它涉及到模型训练、部署、监控、更新、安全性和合规性等方面。下表说明了使用 Dify 前后开发 AI 应用的各环节差异:在使用 LLMOps 平台如 Dify 之前,基于 LLM 开发应用的过程可能会非常繁琐和耗时。
2025-03-15 00:04:08
1236
原创 Ubuntu24.04 LTS 版本 Linux 系统在线和离线安装 Docker 和 Docker compose
在 Ubuntu 24.04 LTS 中,系统引入了全新的软件源配置格式。现在的源配置文件内容更加结构化且清晰,主要包含了软件类型 (Types)、源地址 (URIs)、版本代号 (Suites) 以及组件 (Components) 等信息。由于首次更新会包含内核更新,我们需要执行重启操作,让内核和各种补丁生效。
2025-03-14 00:16:15
1381
原创 在 Windows 系统下使用 VMware 安装 Ubuntu 24.04 LTS 系统
Ubuntu24.04桌面端官方下载:https://cn.ubuntu.com/download/desktop。
2025-03-13 18:09:13
1540
原创 下载安装启动 VMware 个人免费版本
如果本身是要在 Windows 系统安装 VMware ,那找到 VMware Workstation Pro for PC 点击 DOWNLOAD NOW ;如果本身是要在 Mac 系统安装 VMware ,那找到 VMware Fusion Pro for Mac 点击 DOWNLOAD NOW 。
2025-03-12 18:33:35
1035
原创 Python3 爬虫 爬虫中间件
爬虫中间件的用法与下载器中间件非常相似,只是它们的作用对象不同。下载器中间件的作用对象是请求request和返回response;爬虫中间键的作用对象是爬虫,更具体地来说,就是写在spiders文件夹下面的各个文件。
2025-03-08 23:49:30
1725
原创 Python3 爬虫 开发Scrapy下载器中间件
能在中间件中实现的功能,都能通过直接把代码写到爬虫中实现。使用中间件的好处在于,它可以把数据爬取和其他操作分开。在爬虫的代码里面专心写数据爬取的代码;在中间件里面专心写突破反爬虫、登录、重试和渲染AJAX等操作。对团队来说,这种写法能实现多人同时开发,提高开发效率;对个人来说,写爬虫的时候不用考虑反爬虫、登录、验证码和异步加载等操作。另外,写中间件的时候不用考虑数据怎样提取。一段时间只做一件事,思路更清晰。没有自由的秩序和没有秩序的自由,同样具有破坏性。
2024-12-22 21:23:34
1583
原创 Python3 爬虫 Scrapy 与 Redis
Scrapy是一个分布式爬虫的框架,如果把它像普通的爬虫一样单机运行,它的优势将不会被体现出来。因此,要让Scrapy往分布式爬虫方向发展,就需要学习Scrapy与Redis的结合使用。Redis在Scrapy的爬虫中作为一个队列存在。
2024-12-15 19:00:36
1345
原创 Scrapy与MongoDB
Scrapy可以在非常短的时间里获取大量的数据。这些数据无论是直接保存为纯文本文件还是CSV文件,都是不可取的。爬取一个小时就可以让这些文件大到无法打开。这个时候,就需要使用数据库来保存数据了。MongoDB由于其出色的性能,已经成为爬虫的首选数据库。它的出现,使得Scrapy如虎添翼,从此可以放心大胆地爬数据了。
2024-12-08 21:44:00
1069
原创 Python3 爬虫 Scrapy的安装
Scrapy是基于Python的分布式爬虫框架。使用它可以非常方便地实现分布式爬虫。Scrapy高度灵活,能够实现功能的自由拓展,让爬虫可以应对各种网站情况。同时,Scrapy封装了爬虫的很多实现细节,所以可以让开发者把更多的精力放在数据的提取上。
2024-11-24 20:09:44
1456
原创 Android原生App爬虫-实现原理
爬虫常见两种情况:第一种情况,爬虫伪装成浏览器,向服务器要数据;第二种情况,在服务器往浏览器发送数据时,爬虫从中拦截,获取信息。这两种情况,无论是暗号(参数)不对还是行为不对,都会被服务器识别。那么有没有什么办法可以做到几乎毫无痕迹地爬取数据呢?答案是有的。
2024-11-16 22:36:17
2912
原创 Python3 爬虫 数据抓包
使用Charles,可以轻松截获手机App和微信小程序的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。
2024-08-04 20:19:01
1506
原创 Python3 爬虫 模拟登录
模拟登录有多种实现方法,使用Selenium操作浏览器登录和使用Cookies登录虽然简单粗暴,但是有效。使用模拟提交表单登录虽然较为麻烦,但可以实现自动化。
2024-06-23 18:11:47
1789
原创 Python3 之 模拟浏览器
虽然在网页的源代码中无法看到被异步加载的内容,但是在Chrome的开发者工具的“Elements”选项卡下却可以看到网页上的内容,这就说明Chrome开发者工具“Elements”选项卡里面的HTML代码和网页源代码中的HTML代码是不一样的。而这个条件就是“presence_of_element_located”,其中的“located”是“locate”的被动式,表示“被定位的”,“presence”的英文意思是“出现”。使用Windows的开发者在写这个参数的时候,要注意反斜杠的问题。
2024-01-01 13:36:01
2043
原创 Python3 爬虫之异步加载
JSON是一种格式化字符串。JSON字符串与Python的字典或者列表非常相似,仅存在一些细微差别。为什么需要JSON这种字符串呢?举一个例子:一个会英语不会德语的中国人,和一个会英文不会中文的德国人,他们可以使用英语愉快地交谈。英语在他们的交流中扮演了一个中介的角色。JSON在网络通信里面就是这个中介。JSON的全称是JavaScript Object Notation,是一种轻量级的数据交换格式。网络之间使用HTTP方式传递数据的时候,绝大多数情况下传递的都是字符串。
2023-11-26 19:32:19
1136
原创 Python3 爬虫信息读取 MongoDB 和 Redis 的使用建议
虽然MongoDB相比于MySQL来说,速度快了很多,但是频繁读写MongoDB还是会严重拖慢程序的执行速度。
2023-11-12 18:41:22
414
原创 Python3 之 Redis 安装
Redis是一个基于内存的数据库,数据库可以作为一个媒介来实现人与程序或者程序与程序的沟通。比如,如果程序的一些关键变量的值是实时从数据库里面读出来的,那么如果控制者想改变程序的一些行为,只需要修改这几个关键变量的值就可以了。例如爬虫的目标页面的网址是从数据库里面实时读出来的,那么如果想临时增加几个新的网址,只需要把网址添加到数据库中即可,不需要重启爬虫。
2023-07-16 20:21:23
673
原创 Python3 之 PyMongo 的安装与使用
PyMongo 模块是 Python 对 MongoDB 操作的接口包,能够实现对 MongoDB 的增删改查及排序等操作。
2023-07-09 11:33:43
8507
原创 Python3 之 MongoDB 的安装
MongoDB 是一款基于C++开发的开源文档数据库,数据在 MongoDB 中以Key-Value的形式存储,就像是Python中的字典一样。使用 MongoDB 管理软件RoboMongo。需要注意的是,RoboMongo 已经被 Studio 3T 所在的 3T Software Labs 收购,因此,RoboMongo 的后续版本改名为 Robo 3T。Robo 3T 与 RoboMongo 除了名字不一样以外,其他地方都是一样的。
2023-07-01 22:25:22
261
原创 微服务框架为什么首选前后端分离开发模式
当业务变得越来越复杂或产品线越来越多时,原有的开发模式就无法满足业务需求了。产品越来越多,展现层的变化越来越快、越来越多,此时应该进行前后端分离的分层抽象,简化数据获取过程。
2023-04-02 13:54:35
931
原创 Python3 使用 XPath 和 Beautiful Soup4 进行HTML内容解析
XPath(XML Path)是一种查询语言,它能在XML(Extensible Markup Language,可扩展标记语言)和HTML的树状结构中寻找结点。形象一点来说,XPath就是一种根据“地址”来“找人”的语言。用正则表达式来提取信息,经常会出现不明原因的无法提取想要内容的情况。最后即便绞尽脑汁终于把想要的内容提取了出来,却发现浪费了太多的时间。需要寻找的内容越复杂,构造正则表达式所需要花费的时间也就越多。
2023-03-22 21:53:04
1211
原创 Python3 多线程爬虫
由于爬虫是I/O密集型的操作,特别是在请求网页源代码的时候,如果使用单线程来开发,会浪费大量的时间来等待网页返回,所以把多线程技术应用到爬虫中,可以大大提高爬虫的运行效率。
2022-12-29 10:39:05
286
原创 使用 Python3 获取网页源代码
爬虫的数据爬取量非常大,显然不可能对每个页面都手动复制源代码,因此就有必要使用自动化的方式来获取网页源代码。
2022-12-23 21:57:59
9320
1
原创 Python3 的文件操作
Python3 爬虫操作涉及对文件的读/写与编码的处理是爬虫工程师必须要掌握的。 使用Python3 来读/写文本需要用到“open”这个关键字。它的作用是打开一个文件,并创建一个文件对象。 使用Python3打开文件,有两种常用写法。 第1种方式,如下: 第2种方式,如下: 第1种方式需要手动关闭文件,但是在程序开发中经常会出现忘记关闭文件的情况。第二种方法不需要手动关闭文件,只要代码退出了缩进,Python就会自动关闭文
2022-12-12 23:34:24
2427
原创 Python3 正则表达式
正则表达式(Regular Expression)是一段字符串,它可以表示一段有规律的信息。Python自带一个正则表达式模块,通过这个模块可以查找、提取、替换一段有规律的信息。比如,在程序开发中,要让计算机程序从一大段文本中找到需要的内容,就可以使用正则表达式来实现。使用正则表达式有如下步骤。(1)寻找规律。(2)使用正则符号表示规律。(3)提取信息。
2022-11-27 19:47:31
2464
原创 JavaScript打印页面的出错异常与IE调用其他网页
try语句用来运行代码,当代码有错误发生时,则转到catch语句继续执行。在catch语句中,使用“e.description”获取错误信息的描述,然后通过“document.write”方法,将错误信息显示在页面上。
2022-11-13 14:54:49
1177
原创 JavaScript 保护网页源代码与防止网页被放入框架示例
大部分网页的源代码可以使用浏览器提供的“查看源代码”命令查看。本例中屏蔽对网页源代码的查看,原理是首先将文档的内容保存在一个变量中,然后清空文档的内容,最后再在文档中显示旧内容。其实文档内容显示的就是“document.write”输出的内容。
2022-11-10 23:35:18
537
原创 Ubuntu 22.04 安装 PyCharm 搭建 Python 开发环境
任何文本编辑器都可以用来开发Python程序,包括记事本。唯一的不同是开发效率与质量的高低而已。一个优秀的集成开发环境(Integrated Development Environment, IDE)可以让Python开发效率和质量如虎添翼。
2022-11-05 12:56:44
10532
1
原创 javascript页面后退前进刷新示例
为了及时反映站点数据的变化,通常需要页面进行自动刷新;可以将刷新结果指向当前页面,也可以转换到指定页面。重点是meta元素,其属性“HTTP-EQUIV”设置为“refresh”时,会自动刷新当前页面,此属性包含两个重要的设置:CONTENT和URL,CONTENT表示自动刷新的时间间隔,URL表示刷新后的页面地址。
2022-11-03 23:18:43
2315
原创 Windows11 如何命令查询自己电脑主板支持的最大内存
随着操作系统和各种应用软件的版本升级,发现自己用的电脑内存越来越不够用了。但换内存却不是自己想换多大就换多大,而是要看自己的电脑主板的支持的最大内存容量是多少!
2022-10-16 17:45:14
4146
原创 JDK19 版本的重要特性
与JDK 18 一样,JDK19 将是一个短期版本,只有六个月的顶级Premier 支持。之前的版本JDK 17 是离JDK19最近的一个长期支持(LTS)版本,提供了数年的支持。JDK19 中主要的7个新特性中,最具 Java 开发者垂涎已久的新特性—— 虚拟线程,类似 Go 语言的协程。
2022-10-04 16:29:57
4171
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人