- 博客(50)
- 收藏
- 关注
原创 大模型应用编排工具Dify之常用编排组件
本文主要通过一个实际落地案例,介绍 Dify工作流编排中常用的 问题分类器、参数提取器、知识库和 LLM等组件,其中着重介绍了系统提示词和用户提示词,最后对后台服务如何调用工作流编排进行了说明。
2025-01-22 22:00:00
3262
原创 大模型应用编排工具Dify之自定义工具
dify中提供了自定义工具的能力,工具十分容易复用,在需要的流程编排中进行引用即可。根据笔者的经验和理解,自定义工具有点类似微服务,可以把通用的能力封装到工具里面。同时,工具还提供了测试和鉴权等功能,对开发者比较友好。
2024-12-19 21:30:00
1415
原创 大模型应用编排工具Dify之构建专属FQA应用
通过 dify可以基于开源大模型的能力,并结合业务知识库、工具API和自定义代码等构建特定场景、行业的专属大模型应用。本文通过 dify工作室的**聊天助手-工作流编排**构建了一个基于历史工作日志回答问题的助手,相比原始的大模型答复,通过工作流构建的应用将提供更精准的答案。
2024-12-10 20:15:00
1022
原创 大模型应用编排工具Dify二开之登录Token改造
dify工作室支持在画布上直接编辑业务流程,通过调用开源大模型可以实现特定场景的业务,而且可以迅速更新发布。因此,某些项目要求在产品里面能够直接编辑 dify业务流程,使得现场开发人员能够迅速响应客户需求。另外,方便对 dify进行运维,比如 更新开源大模型认证信息。
2024-11-28 19:15:00
3130
5
原创 大模型应用编排工具Dify二开之接入LLM改造
在大模型项目落地过程中,由于安全、合规和管控等原因不会直接使用原生开源大模型,一般会在开源大模型的基础上添加额外的认证信息或者修改接口访问方式。本次的目标是通过修改 dify源码能够对接**不遵守标准 openai接口协议**,在 header里面添加了**额外认证信息**的开源大模型。
2024-11-15 22:45:00
2720
原创 SpringBoot数据库连接泄露快速排查方法
快速排查SpringBoot Hikari数据库连接池连接泄露的方法,java.sql.SQLTransientConnectionException: HikariPool-1 - Connection is not available, request timed out after 30000ms.
2024-08-24 16:26:44
1307
原创 记一次Flink任务无限期INITIALIZING排查过程
环境:Flink-1.16.1,部署模式:Flink On YARN,现象:Flink程序能正常提交到 YARN,Job状态是 RUNNING,而 Task状态一直处于 **INITIALIZING**,排查思路有...
2024-03-07 22:00:00
2255
3
原创 Ambari动态给YARN分配计算节点
YARN可用的计算节点数量并不总是等于 Hadoop集群节点数量,可以根据业务需求分配 YARN计算节点数量。
2024-03-04 20:07:46
667
1
原创 Flink使用 KafkaSource消费 Kafka中的数据
很多 flink相关的书籍和网上的文章讲解如何对接 kafka时都是使用的 FlinkKafkaConsume,'org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer' is deprecated ,新版 flink应该使用 KafkaSource来对接 kafka。
2023-03-21 21:22:23
2247
原创 大数据集群搭建方案对比
回顾从前,已经在大数据领域混了5年了,经手了不少大数据集群搭建方案,自己也做过许多大数据平台的运维工作,在这里进行阶段性的总结,主要是 原生Hadoop、CDH、Ambari集群搭建对比。
2023-03-19 12:17:06
1253
原创 Kafka使用MirrorMaker同步数据的两种方式
CDH对 Kafka MirrorMaker的支持度不错,稳定性也能经得起时间的检验。另外,这种备份方式属于实时备份,很适合对数据完整性和及时性要求较高的项目,能最大程度地确保通过 kafka流转的数据的及时可用。还有一个好处是,当 kafka集群1因为某种原因无法工作时,可以迅速切换到集群2,且两个集群的数据几乎一致。
2022-12-22 12:05:24
4104
原创 HBase Shell启动缓慢及操作耗时长的原因分析与解决
在内网搭了一个 hbase-2.2.6(hadoop-2.7.3)的环境,使用的是其内置的 zookeeper-3.4.10,16010端口对应的 web界面可以正常访问,且各项功能正常。在使用 hbase shell的过程中,首先是 hbase shell启动非常慢,约 210s才成功,其次执行 scan、put、get等命令需要 20s左右才能完成。以笔者的经验,hbase肯定出问题了,不可能这么慢。
2022-11-17 20:00:00
4199
4
原创 Logstash对接 SNMP v2和 v3
老版的 logstash不支持 snmp协议,当时只能自己写插件实现,现在官方支持了,故验证其对 v2c和 v3两个版本 snmp的支持情况,并熟悉其用法。
2022-11-04 20:00:00
1149
原创 Kibana自动优化索引模式字段显示
优化 Kibana Discover页面索引模式中字段的显示效果:0.98-> 98%,10240-> 10KB, 20.1-> $20.1。介绍如何使用脚本实现自动更新,以及如何在界面上手动修改的方法
2022-10-24 21:45:57
1103
原创 DataX VS Kettle,深度对比分析
开源的 ETL工具里面 DataX和 Kettle的人气一直高居不下,datax虽然比较年轻,但这两年发展势头很猛,不时就能听到身边的同事谈起。kettle作为老牌的 etl工具,诞生年限长,功能完善,特别是其开箱即用的数据转换算子,不得不令人叹服。因此,笔者决定对这两款工具进行深入的对比分析,有多深呢,到源码那种。
2022-10-19 20:15:00
17285
1
原创 站在使用者的角度研究 List 源码
站在使用者的角度研究下 List 源码,对其核心方法进行梳理,发现 List除了增删改查,还有部分实用的集合运算。ArrayList作为其实现类之一,方法的实现逻辑较为清晰简洁,在集合运算中还调用了 native方法。在代码风格上也很有借鉴意义,比如 使用 Objects.requireNonNull()方法进行 null判断,使用 'E'来表示本集合元素类型,用 '?'来表示其他未知集合的元素类型。
2022-10-12 22:20:49
387
原创 Elasticsearch生产环境使用总结及扩展
本文从 基本概念、数据类型、查询类型、数据聚合、集群维护等维度对 Elasticsearch进行了总结和介绍,中间融入了一些生产环境的实际经验。
2022-10-07 11:08:12
807
原创 Kibana生产上的常用功能总结
出差现场一个月总结 Kibana生产上的常用功能包含 discover,console,visualize,monitoring等的实用方法
2022-08-26 20:15:00
1668
原创 Java Socket服务端和客户端通讯实例
Java Socket服务端和客户端通讯实例本文在 java socket通讯的基础上,适当扩展了 客户端认证、多客户端支持、心跳检测等功能
2022-08-10 17:52:05
1723
原创 解决 Docker容器因 iptables无法启动的问题
解决 Docker容器因 iptables无法启动的问题driver failed programming external..iptables: No chain/target/match by that name
2022-07-30 16:41:20
7641
6
原创 使用 Zookeeper命令行修改 Kafka Cluster ID
使用 Zookeeper命令行修改 Kafka Cluster IDkafka.common.InconsistentClusterIdException: The Cluster ID q3r3fhGkTya24-s3dfvYUQ doesn't match stored clusterId Some(kguWHlzQQGmCHczV3u38vQ) in meta.properties.
2022-07-27 17:55:06
2463
原创 MySQL高可用和灾备调研
1.高可用和灾备方案概览高可用方案的评价以组件能正常对外提供服务为主,而灾备方案的评价以数据稳定同步和恢复时间尽量短为主,其他的还要求方案实现起来较简单,后期运维服务压力较小等。当下业界比较流行的 mysql高可用灾备方案是主从复制和 galera,这里先对所有的方案进行简要介绍,然后详细介绍 基于主从复制这一种方案。1.1 主从复制使用双节点数据库,搭建单向或者双向的半同步复制(semi sync replication)。在 5.7以后的版本中,由于 lossless replication、
2022-05-04 14:19:33
4475
2
原创 分析升级 OpenSSH后 Linux open files配置不生效问题
1.现象Elasticsearch、Hadoop和 MongoDB等都需要修改 Linux里面最大打开文件数这个配置,即下面的 open files[root@localhost opt]# ulimit -acore file size (blocks, -c) 0data seg size (kbytes, -d) unlimitedscheduling priority (-e) 0file size
2022-04-10 15:59:21
5445
2
原创 解决 OpenSSH开启 PAM后 root用户无法远程登录问题
1.现象OpenSSH版本:8.8p1在 openssh配置文件中开启 pam,如下:UsePAM yes发现在 windows上用远程连接工具无法以 root用户登录,其他的 linux服务器也无法以 ssh的方式登录该服务器。远程连接工具报错:Access denied2.分析从报错来看只能猜测是权限问题,具体原因还需要查看 Linux系统日志,这里简要介绍两个系统日志:/var/log/messages这里存放的是一些常规系统日志,一般的操作都能在这里找到对应日志,但是有的日志
2022-04-08 20:30:00
20374
2
原创 通过 GC工具分析 HiveServer2停顿时间过长问题
1.现象线上环境 HiveServer2报:在前 5分钟内暂停所花的平均时间过长hs2角色日志如下:2.分析看到上面的报错和日志,第一个直觉就是 hs2 GC出问题了,于是使用 jstat命令进行分析:jstat -gcutil 82775 5000 5这里先简单介绍一下 jstat这条命令: -gcutil,打印 gc统计信息 82775,java进程ID 5000,5000ms 5,5次所以这条命令的含义为:每间隔 5000ms打印一次 进程 82775的 gc
2022-04-01 20:15:00
3369
原创 数据仓库VS数据湖
1.前言本文将新兴的数据湖技术和数据仓库技术进行了对比,然后简要介绍三种常见的数据湖实施方案。2.数据仓库痛点没有存储非结构化的数据这里并不是说数仓不能存储非结构化的数据,而是数仓的分层模型决定了数据会被规整计算为结构化的数据,然后在处理完成的数据上进行建模、分析等。一般的数仓分层模型:ODS-> DWD-> DWS-> APP。数据分析人员一般会在 APP或 DWS层上进行分析,而不会直接针对 ODS(原始数据层)进行分析。没有保留原始数据企业出于成本考虑,ODS层
2022-03-26 18:34:01
3692
原创 Java连接基于 LDAP认证的 Impala服务
1.前言本文将描述如何根据 impala官方文档使用 java连接 impala。使用的 impala版本:2.12.0。2.下载和安装 JDBC包2.1 下载 JDBC包官网下载地址:Download Impala JDBC Connector这里需要根据 impala的版本选择对应的 jdbc包,impala-2.12.0对应的包如下:打开下载压缩包,可以看到官方给的指引文档: Cloudera-JDBC-Driver-for-Impala-Install-Guide.pdf2.2
2022-03-08 20:30:00
1293
原创 解决 HDFS edit log文件损坏问题
1.现象CDH集群 HDFS出现爆红项,具体原因是 JournalNode状态异常,查看角色日志如下:2.分析edit log文件里面存放的是hdfs一些状态信息,从报错来看是某个 edits文件无法读取导致的,结合最近服务器出现过一次集体断电,猜测是 edit log文件损坏了。3.解决查看集群组件状态,JournalNode一共有 3台机器,其中一台状态异常,另外两台状态良好,于是可以把从其中一台状态良好的机器上拷贝 edit log文件到状态异常的机器。具体步骤如下:停止集群所有服
2022-02-23 21:30:00
980
原创 Hive通过 ZooKeeper开启 HA(高可用)
前言生产上的大数据平台都会配置多个 HiveServer,在使用 JDBC这种方式连接 hive服务时,如果直接连接某个 HiveServer,当其所在机器异常时,就会导致服务不可用。因此,生产上一般都要求使用 ZooKeeper开启 HA,通过 zk去间接访问 hive服务。这里以 CDH 5.X为例介绍 Hive如何通过 ZooKeeper开启 HA。Hive开启 HA(高可用)修改界面配置打开 CDH界面,然后在 Hive配置里面搜索 hive-site,如下:然后添加如下配置项:
2022-02-17 20:00:00
3559
原创 解决 HDFS副本数不足问题
1.现象CDH界面 HDFS出现爆红项,查看详情发现是 副本数不足导致的,如下:HDFS和 CDH版本:2.6.0+cdh5.15.1+28222.分析报错是很明确的:接近 99%的 hdfs块副本缺失。默认情况下 hdfs的副本一般是3个,要求至少有3个 DataNode。出问题的集群是一个测试集群,之前一共有 3台机器,最近由于一台机器故障,现在集群只剩 2台机器了,问题应该就出在这里了。明确一下问题的原因: 集群现有的机器数量不满足 3个 DataNode的要求,故导致副本数不足。
2022-01-27 15:56:14
5102
原创 Hive 简明使用教程
1.简介The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage. A command line tool and JDBC driver are provided t
2022-01-18 15:09:52
2622
原创 NLP 算法工具箱(关键词、实体、摘要、文本相似度)
1.前言本项目包含几种常用 NLP算法的实现:关键词(keyword)、命名实体(named entity)、自动摘要(abstract)、文本相似度比较(text similarity)等。另外,本项目基于 python3,依赖 jieba,tensorflow等第三方库。2.NLP 工具箱简介2.1 关键词在 jieba的基础上,进行了一些封装。可以很方便的在 etc/user_words.dict中添加用户词典,以加强对一些领域特有关键词的识别。调用举例:kw_extract = Key
2022-01-16 11:44:31
1156
原创 CentOS7搭建和维护共享 YUM源
1. 前言虽然互联网上已经有了多个公开的可以直接使用的 yum源,但是针对于内网(局域网)这种无法连接互联网,又需要安装维护多台服务器的场景,就需要搭建一个内网的共享 yum源了。此时,就会涉及如何搭建本地 yum源、从公开 yum源同步 rpm包,以及手动添加 rpm包等操作,这就是本文的主要内容。本文基于 CentOS7.9编写,应用场景为局域网多台服务器。2. 搭建多主机共享的 YUM源2.1 创建本地 YUM源这里使用 CentOS操作系统镜像文件作为本地 yum源的基础 rpm包。
2021-11-27 15:39:12
872
原创 Python调用 Java下载 FastDFS文件
1. 前言最近由于业务需求,需要使用 Python下载 FastDFS上的文件。一开始看到 Python有第三方包可以用就直接上了,但是需要处理的文件数量实在太大,导致经常出现文件积压的情况。经过分析,发现文件的下载速度是影响较大的因素之一,所以第一个程序调优思路就定为研究如何提高文件的下载速度。通过查阅资料,发现 FastDFS是使用 Java编写的,作者只提供了 Java版本的客户端,而 Python的客户端则是由其他开发者编写的。那么一个疑问就随之而来:会不会使用 Java下载文件会更快?2.
2021-09-26 22:15:17
313
原创 修复 py3Fdfs因 socket timeout导致下载失败的问题
背景笔者在使用 pypi.org提供的 FastDFS Python客户端:py3Fdfs-2.2.0.tar.gz时,发现:下载文件时偶尔报错 socket timeout,随即文件下载失败因苦于 2.2.0已经是官网最新版本,无奈只能自己动手修复问题—————————————————————————————————说明通过调试发现下载文件失败的原因在下面这段代码:def tcp_recv_file(conn, local_filename, file_size, buffer_size=
2021-07-07 23:05:07
993
5
原创 Kafka Producer通过参数调优提高数据发送速度
1. 前言最近项目现场发生了 日志文件积压的情况,日志文件的大概处理流程是:读取日志文件->进行结构化->发送到 kafka以一个 7.57M的日志文件为例(约58400条日志信息),程序需要 16.8s才能将其处理完,也就是说平均每秒只能处理约 3500条数据,经过验证,其中瓶颈在数据发送到 Kafka这一步。这个根据经验,明显肯定是没有达到 Kafka的瓶颈的,应该是自己 producer程序有问题,于是去 Kafka官网一查:Single producer thread, 3x a
2021-04-22 16:08:58
4739
原创 Java 后台开发高频 Linux 命令
前言本文所有命令都基于 linux 发行版:centos ,centos 是目前工业上比较流行的服务器操作系统。1. 查看系统信息# centos 查看系统版本cat /etc/redhat-release# 查看主机名hostname# 防火墙# 检查selinux/usr/sbin/sestatus -v# 查看系统时间date# 查看系统的开机信息 dmesg2. 目录切换# 进到某个目录cd <path># eg. cd /opt/test
2020-10-31 23:14:49
246
原创 Pip 技巧 批量下载安装 WHL 文件
1. 前言最近入坑 NLP 了,开始正儿八经玩 Python ,那么 pip 的使用就必须要掌握了。2. 修改 Pip 仓库地址为国内源这个跟 maven 一样如果使用默认的国外仓库,很多时候速度感人 …如果想按时下班,那么更换国内源是必须的。国内常用的 Pip 地址仓库如下:阿里云, http://mirrors.aliyun.com/pypi/simple/中国科技大学, https://pypi.mirrors.ustc.edu.cn/simple/清华大学, https://pypi
2020-05-27 20:57:56
12464
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人