冰岛-优快云博客

这样做的好处是LLM可以更好的概括论文中相关章节的内容，产生更全面的答案，帮助读者更好地理解论文。我们使用最低的部分标题作为对文档进行切片的枢轴。如果你要总结的东西需要一篇文章的全部上下文，并且所选LLM的上下文长度覆盖了文档长度，你可以尝试这种方法。使用“标签”作为分块方法的知识库应该被其他知识库使用，以将标签添加到其块中，对这些块的查询也将带有标签。未能遵循上述规则的文本行将被忽略，并且每个问答对将被认为是一个独特的部分。此知识库中的块是标签的示例，它们演示了整个标签集以及块和标签之间的相关性。

2025-03-11 17:45:47 1087

原创 Sqoop介绍以及与Flume的不同

两者可以做同样的工作，但是各自擅长的领域不同，因此应用场景也不同。由于Sqoop最早期是Hadoop的模块，所以Sqoop底层做的是MapReduce任务，通过将我们的导入导出命令翻译成MapReduce程序来完成作业，通过MapReduce将数据从数据库导到HDFS，或是从HDFS导入数据库。Sqoop2：有多种交互方式，命令行，web UI，rest API，conncetor集中化管理，所有的链接安装在sqoop server上，完善权限管理机制，connector规范化，仅仅负责数据的读写。

2024-08-08 17:30:00 655

原创 Hive安装及配置

（1）把apache-hive-3.1.2-bin.tar.gz上传到Linux的/opt/software目录下。（2）解压apache-hive-3.1.2-bin.tar.gz到/opt/module/目录下面。（3）修改apache-hive-3.1.2-bin.tar.gz的名称为hive。（5）解决日志Jar包冲突，进入/opt/module/hive/lib目录。（4）修改/etc/profile.d/my_env.sh，添加环境变量。（2）新建Hive元数据库。（1）启动Hive客户端。

2024-08-06 20:50:21 1081

原创 Hdfs小文件处理

在hadoop中对文件进行切片时，默认使用TextInputFormat中的切片机制，即按文件进行切片，不管文件大小，每个文件都会是一个单独的切片，并且每个文件/切片都会由一个单独的MapTask进行处理，但是这种切片机制会造成一个问题，如果有大量的小文件，那么也就要分配大量的MapTask，但每个文件的数据量又很小，光是启动MapTask的过程就会消耗大量的资源，这样显然是不合理的。HAR文件是一个索引文件，它将多个小文件打包进一个大文件中，从而减少HDFS上的存储需求。

2024-07-25 20:59:28 168

原创 KafaKa相关设置

hadoop105、hadoop106、hadoop107三台集群的网络总带宽30m/s左右，由于是两个副本，所以Kafka的吞吐量30m/s ➗ 2（副本） = 15m/s。比如linger.ms=5ms，那么就是要发送的数据没有到64k，5ms后，数据也会发出去。（1）Consumer的测试，如果这四个指标（IO，CPU，内存，网络）都不能改变，考虑增加分区数来提升性能。throughput 是每秒多少条信息，设成-1，表示不限流，尽可能快的生产数据，可测出生产者最大吞吐量。较小，会降低吞吐量。

2024-07-18 20:41:12 1161

原创 Python——闪动爱心代码

python爱心代码

2024-07-17 19:58:13 12728 3

原创 Python 基础语法

3. **数据类型**：Python 支持多种数据类型，包括整数（int）、浮点数（float）、字符串（str）、列表（list）、元组（tuple）、字典（dict）等。4. **运算符**：Python 有多种运算符，包括算术运算符（+、-、*、/、%）、比较运算符（==、!9. **输入和输出**：使用 `print()` 函数来输出，使用 `input()` 函数来从用户那里获取输入。包是包含多个模块的集合。- **条件语句**：使用 `if`、`elif` 和 `else` 来进行条件判断。

2024-07-13 12:03:32 373

原创 MySQL经典练习题--30题

【代码】MySQL经典练习题--30题。

2024-07-13 10:07:38 1220 1

原创初识Python

Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。Python 的设计具有很强的可读性，相比其他语言经常使用英文关键字，其他语言的一些标点符号，它具有比其他语言更有特色语法结构。这意味着开发过程中没有了编译这个环节。类似于PHP和Perl语言。这意味着，您可以在一个 Python 提示符 >>> 后直接执行代码。这意味着Python支持面向对象的风格或代码封装在对象的编程技术。

2024-07-13 09:46:13 412

z952468的博客

原创 Dify工作流深度解析：从入门到高阶应用

原创 RAGFlow解析方法说明