- 博客(28)
- 收藏
- 关注
原创 ApacheTika类型解析:透过后缀的文件类型检测方式
Apache Tika 是一个开源的 内容类型检测和内容提取工具库,由 Apache 软件基金会维护。它能够自动识别和解析上千种文件格式(如文档、图像、音频、视频等),并从中提取结构化文本和元数据
2025-04-03 15:00:49
258
转载 什么是向量数据库,在大模型中的应用
随着大模型应用的深化,向量数据库正在成为连接非结构化数据与智能应用的核心枢纽。在实际落地时,常用来:用户提问 → 向量化 → 向量库检索 → 拼接上下文 → 大模型生成回答
2025-03-24 15:28:45
60
原创 prompt工程一:如何编写高效提示词
提示词是用户与大模型交互的核心工具,通过精准设计可引导输出方向(如角色设定)、激活相关知识并调节生成行为(如链式推理)。其质量直接影响结果的准确性与规范性,使提示工程成为优化模型性能的关键技术。然而,效果受文化语境、语言歧义及模型偏见的制约。未来,自适应提示技术将深化人机协作,成为释放大模型潜能的“隐形控制器”。
2025-03-19 17:21:22
264
原创 简单的数据库分级分类算法模型实现
在数据库管理中,分级分类算法模型可以用于对数据进行分类和分级,以便更好地管理和保护数据。以下是一个基于深度学习的数据库分级分类算法模型的示例,使用 Python 和 TensorFlow/Keras 实现。首先,我们需要准备数据。假设我们有一个包含数据库表及其分类标签的数据集。每个表有一组特征(如列数、行数、数据类型等),并且每个表都有一个分类标签(如“敏感数据”、“非敏感数据”等)。2. 构建模型接下来,我们构建一个简单的神经网络模型来进行分类。3. 训练模型使用训练数据来训练模型。4. 评估模
2025-03-03 09:24:25
358
原创 清华大学关于deepseek的使用介绍
下载地址https://download.youkuaiyun.com/download/qq_37713191/90361723
2025-02-10 11:41:47
495
转载 关于flink复杂事件处理Flink-CEP
它们构成了一个新的“复杂事件流”,流中的数据就变成了一组一组的复杂事件,每个数据都包含了一个圆形和一个三角形。设定一些行为模式,可以对用户的异常行为进行实时检测。利用 CEP 可以用预先定义好的规则,对用户的行为轨迹进行实时跟踪,从而检测出具有特定行为习惯的一些用户,做出相应的用户画像。CEP 可以帮助在复杂的、看似不相关的事件流中找出那些有意义的事件组合,进而可以接近实时地进行分析判断、输出通知信息或报警。具体的处理过程是,把事件流中的一个个简单事件,通过一定的规则匹配组合起来,这就是“复杂事件”;
2025-01-02 09:11:40
53
原创 数据资产化探索
目前国家已经出台了《关于构建数据基础制度更好发挥数据要素作用的意见》提出了建立保障权益、合规使用的数据资产产权制度,目前来看,还处在基础立法阶段,只有完成了可执行的数据财产权确认、厘清数据权属,处理好数据流通使用环节中的权利关系,才能保障数据交易合法、合规。它对数据资产定价、确权提出了新的挑战。数据增值服务是一种利用大数据技术,对原始数据进行加工、处理和分析,以提供更有价值的信息和服务的活动,这种服务不仅包括数据的收集和存储,更重要的是通过高级的数据分析方法和技术,来挖掘数据中的深层次价值。
2024-12-27 16:01:39
232
原创 mysql数据库信创适配(微服务版)
信创适配的主要目的是确保原有的系统或软件可以正常运行在信创环境(如国产CPU、操作系统、数据库等)上。这涉及到核心芯片协议、基础硬件、操作系统、数据库、中间件、服务器以及应用软件等多个层面的匹配与优化
2024-12-18 15:57:28
456
原创 docker部署elasticsearch与kibana
8、执行命令docker-compose -f docker-compose-kibana.yml up -d --build。4、执行命令docker-compose -f docker-compose-es.yml up -d --build。6、由于kibana是一个可视化工具,本身并不产生数据,所以不需要挂载数据目录。7、编辑kibana的docker-compose-kibana.yml。2、编辑es的docker-compose-es.yml。10、通过kibana访问es。
2024-12-18 10:18:28
772
转载 Nginx+keepalived配置高可用
在使用 Nginx 做反向代理或者负载均衡的时候,都是以 Nginx 为入口,如果 Nginx 宕机了,那么所有的服务都无法正常提供,影响非常严重。所有我们需要保证 nginx 高可用,就是配置备份机,前一个挂了,还有后一个。为了避免负载均衡服务器宕机造成严重影响,就需要建立一个备份机。主服务器和备份机上都运行高可用(High Availability)监控程序,通过传送诸如“I am alive”这样的信息来监控对方的运行状况。
2024-10-12 17:47:25
228
转载 应用系统多租户设计
每一个租户(这里具体描述为企业),有自己独立的应用实例,数据库,比如有一个数据中台产品,跟珠海政府,长沙市政府 共同签订了产品服务合同,为了数据安全,需要在珠海机房搭建一套数据中台系统,又要在长沙机房搭建一台数据中台服务,(假如各地政府没有定制化需求)如果面对的是银行、医院等需要非常高数据隔离级别的租户,可以选择这种模式,提高租用的定价。这是第一种方案,即一个租户一个数据库,这种方案的用户数据隔离级别最高,安全性最好,但成本也高。如果出现故障,数据恢复比较困难,因为恢复数据库将牵扯到其他租户的数据;
2024-01-11 08:50:28
154
转载 python中urllib.request与requests
除了requests模块可以发送请求之外, urllib模块也可以实现请求的发送,只是操作方法略有不同!urllib在python中分为urllib和urllib2,在python3中为urllib下面以python3的urllib为例进行讲解构造简单请求#构造请求#发送请求获取响应传入headers参数#构造headersMSIE 9.0;#构造请求#发送请求传入data参数 实现发送post请求(示例)data = {'pid': '',
2023-12-28 18:21:23
1581
原创 微服务系统离线操作
当前企业内部B/S模式的系统一般都是在局域网中访问,但是有些模块比如XX检查、独立报表等需要离线使用,要是每个人都部署一套,涉及较多基础软件,不论从便利性、资源占用等角度来看,都是很不方便的,所以就需要简化操作,以下从技术角度来描述如何快速实现系统离线操作。4、点击打开虚拟机,选择已经部署了微服务业务系统的虚拟机镜像CentOS7.vmx打开即可,虚拟机包含root与admin账号,如果仅设置了admin账号,root密码相同,密码统一为xxx(系统使用无需键入密码登录操作系统)2、打开虚拟网络编辑器。
2023-12-26 14:38:29
490
转载 Python教你如何快速分拆、删页、合并PDF文件
有时我们可能需要对PDF文件进行一些处理,例如分拆、删页、合并等。这些操作在一些专业的PDF软件中可能比较容易实现,但是如果我们想要用Python来自动化或批量处理这些操作呢?有没有什么简单而强大的Python库可以帮助我们呢?答案是肯定的。在Python中,有一个叫做PyPDF2的库,它可以让我们用简单的代码来处理PDF文件。在这篇教程中,我们将学习如何使用PyPDF2库来快速分拆、删页、合并PDF文件。我们将通过一些实际的例子来演示这些操作,并介绍一些常用的API和参数。在开始之前,我们需要先安装。
2023-12-07 14:59:57
286
转载 企业服务总线之Apache Camel 教程
企业服务总线之Apache Camel 教程通过本教程学习 Apache Camel 的基础知识并在 Spring Boot 项目上创建您的第一个 Camel。
2022-02-23 11:25:37
5917
2
原创 数据治理流程
数据治理流程一、 为什么要进行数据治理?业务层面系统层面二、需要建设的系统一、 为什么要进行数据治理?业务层面1、经过 30年的信息化建设,企业和政府部门都围绕着业务需求建设了众多的业务系统,从而导致数据的种类和数量大增,看似积累了众多的数据资产,实则在需要使用时,困难重重。2、因为各个业务系统的建设都是围绕着业务需求来建设的,当业务环境发生变化时,原来的业务系统不能互联互通,不能满足跨部门、跨职能、跨组织的协作需求。3、各个业务系统所产生的海量数据以复杂而分散的形式存储,导致数据之间的不一致.
2022-01-26 10:57:12
5545
原创 ELK实现接口调用统计
ELK实现接口调用统计具体思路设置打印日志格式日志格式:当前系统名称-调用类-调用方法-调用结果-入参-出参-响应时间各个字段间用空格分割,便于es分词切分使用logstash过滤器grok对固定格式的日期进行分词存储使用正则表达式对上述固定格式日志进行切分过滤正则表达式为: %{CURRENT_SYSTEM:current_system} %{CLASS:class} %{METHOD:method} %{RESULT:result} %{INPUT_PARAM:input_param}
2022-01-10 16:10:28
2922
原创 ELK日志统计系统搭建
ELK是什么ELK是三个开源软件的缩写,分别表示:Elasticsearch , Logstash, Kibana , 都是开源软件以下演示windows环境下elk安装Elasticsearch安装https://www.cnblogs.com/hualess/p/11540477.htmlKibana 安装https://blog.youkuaiyun.com/weixin_34727238/article/details/81200071Logstash安装下载地址Logstash工作流程
2022-01-06 15:51:16
1066
原创 Hadoop2.0之MapReduce流程分析概述
Hadoop2.0之mapreduce执行详解一、map阶段 主要是解析hdfs或其他类型文件,分解成一行行的<偏移量,行内容>map集合,这个阶段有个比较重要的分区概念,即对上述生成的map集合分解成合理的分片(默认大小128M) 为什么128M是比较合理的呢? 因为hdfs中存储数据的块大小是128M,块是hdfs实际物理上存储数据的大小,分片超过128M就需要跨块读取数据,一个分片会对应一个mappr程序,hadoop是将程序推送到数据端进行计算的,跨块必然导致单个分片超过1
2021-12-03 11:37:27
417
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人