- 博客(10)
- 收藏
- 关注
原创 RAGFlow解析方法说明
这样做的好处是LLM可以更好的概括论文中相关章节的内容, 产生更全面的答案,帮助读者更好地理解论文。我们使用最低的部分标题作为对文档进行切片的枢轴。如果你要总结的东西需要一篇文章的全部上下文,并且所选LLM的上下文长度覆盖了文档长度,你可以尝试这种方法。使用“标签”作为分块方法的知识库应该被其他知识库使用,以将标签添加到其块中,对这些块的查询也将带有标签。未能遵循上述规则的文本行将被忽略,并且 每个问答对将被认为是一个独特的部分。此知识库中的块是标签的示例,它们演示了整个标签集以及块和标签之间的相关性。
2025-03-11 17:45:47
1087
原创 Sqoop介绍以及与Flume的不同
两者可以做同样的工作,但是各自擅长的领域不同,因此应用场景也不同。由于Sqoop最早期是Hadoop的模块,所以Sqoop底层做的是MapReduce任务,通过将我们的导入导出命令翻译成MapReduce程序来完成作业,通过MapReduce将数据从数据库导到HDFS,或是从HDFS导入数据库。Sqoop2:有多种交互方式,命令行,web UI,rest API,conncetor集中化管理,所有的链接安装在sqoop server上,完善权限管理机制,connector规范化,仅仅负责数据的读写。
2024-08-08 17:30:00
655
原创 Hive安装及配置
(1)把apache-hive-3.1.2-bin.tar.gz上传到Linux的/opt/software目录下。(2)解压apache-hive-3.1.2-bin.tar.gz到/opt/module/目录下面。(3)修改apache-hive-3.1.2-bin.tar.gz的名称为hive。(5)解决日志Jar包冲突,进入/opt/module/hive/lib目录。(4)修改/etc/profile.d/my_env.sh,添加环境变量。(2)新建Hive元数据库。(1)启动Hive客户端。
2024-08-06 20:50:21
1081
原创 Hdfs小文件处理
在hadoop中对文件进行切片时,默认使用TextInputFormat中的切片机制,即按文件进行切片,不管文件大小,每个文件都会是一个单独的切片,并且每个文件/切片都会由一个单独的MapTask进行处理,但是这种切片机制会造成一个问题,如果有大量的小文件,那么也就要分配大量的MapTask,但每个文件的数据量又很小,光是启动MapTask的过程就会消耗大量的资源,这样显然是不合理的。HAR文件是一个索引文件,它将多个小文件打包进一个大文件中,从而减少HDFS上的存储需求。
2024-07-25 20:59:28
168
原创 KafaKa相关设置
hadoop105、hadoop106、hadoop107三台集群的网络总带宽30m/s左右,由于是两个副本,所以Kafka的吞吐量30m/s ➗ 2(副本) = 15m/s。比如linger.ms=5ms,那么就是要发送的数据没有到64k,5ms后,数据也会发出去。(1)Consumer的测试,如果这四个指标(IO,CPU,内存,网络)都不能改变,考虑增加分区数来提升性能。throughput 是每秒多少条信息,设成-1,表示不限流,尽可能快的生产数据,可测出生产者最大吞吐量。较小,会降低吞吐量。
2024-07-18 20:41:12
1161
原创 Python 基础语法
3. **数据类型**:Python 支持多种数据类型,包括整数(int)、浮点数(float)、字符串(str)、列表(list)、元组(tuple)、字典(dict)等。4. **运算符**:Python 有多种运算符,包括算术运算符(+、-、*、/、%)、比较运算符(==、!9. **输入和输出**:使用 `print()` 函数来输出,使用 `input()` 函数来从用户那里获取输入。包是包含多个模块的集合。- **条件语句**:使用 `if`、`elif` 和 `else` 来进行条件判断。
2024-07-13 12:03:32
373
原创 初识Python
Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。Python 的设计具有很强的可读性,相比其他语言经常使用英文关键字,其他语言的一些标点符号,它具有比其他语言更有特色语法结构。这意味着开发过程中没有了编译这个环节。类似于PHP和Perl语言。这意味着,您可以在一个 Python 提示符 >>> 后直接执行代码。这意味着Python支持面向对象的风格或代码封装在对象的编程技术。
2024-07-13 09:46:13
412
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人