
AI基础设施
文章平均质量分 61
分享大数据/AI需要的软硬件基础设施,例如标注工具、大数据平台、大规模检索工具等
Jamence
AI从业者,负责过多模态大模型、超大规模分类、聚类、检索等任务;发表过10+ CCF A/B等论文
展开
-
开源PDF解析工具olmOCR
olmOCR 是由 Allen Institute for Artificial Intelligence (AI2) 的 AllenNLP 团队开发的一款开源工具,旨在将PDF文件和其他文档高效地转换为纯文本,同时保留自然的阅读顺序。它支持表格、公式、手写内容等。olmOCR 经过学术论文、技术文档和其他文档内容的训练,并采用提示词工程技术来提高准确性并减少幻觉(错误生成的内容)。原创 2025-02-28 09:19:54 · 1735 阅读 · 0 评论 -
A100、H100、H800、H20等多种显卡配置对比
相较于PCIe接口,具备提供更高的带宽和更低的延迟,更好的稳定性和可靠性,常用于高性能计算和数据中心。在显卡配置中,PCIe一般指PCIe接口,是服务器实现IO扩展的关键,PCIe接口除了用于插PCIe的GPU卡外,也可以广泛用于Raid卡、网卡、HBA卡等。常见的显存类型,具有较高的带宽和较低的延迟,适用于大多数显卡,如NVIDIA的GeForce系列和AMD的Radeon系列显卡。NvLink和SXM其实说的都是一个东西,NvLink是从互联的角度说的, SXM是从板子上面接口的角度说的。原创 2025-02-22 21:59:48 · 2806 阅读 · 0 评论 -
国产开源PDF解析工具MinerU
PDF的数据解析是一件较困难的事情,几乎所有商家都把PDF转WORD功能做成付费产品。PDF是基于PostScript子集渲染的,PostScript是一门图灵完备的语言。而WORD需要的渲染,本质上是PDF能力的子集。大模型领域,我们的目标文件格式一般是markdown,markdown相较于WORD更加简单,是WORD的子集。子集向父集转换是容易的,因为子集有的功能,父集都有。而父集向子集转换是困难的,因为父集的众多功能,子集并不具备。通过元素映射的方式来实现PDF的解析,是不现实的。原创 2025-02-21 10:44:05 · 1530 阅读 · 0 评论 -
新硬盘如何挂载使用
它会显示每个磁盘的设备名称、大小、分区表类型(如 MBR 或 GPT)、分区编号、分区类型、文件系统类型、挂载点等信息。命令用于列出所有可用的块设备(如硬盘、分区、LVM 卷等)及其详细信息,包括设备名称、挂载点、文件系统类型、大小等。是 Linux 中常用的文件系统类型,具有高性能、可靠性和大容量支持等特点。重点看文件类型,因为/dev/sdc尚未格式化,不具备文件类型。命令,/dev/sdc磁盘已经挂载到/data目录上了。命令,/dev/sdc的文件类型已经变为ext4了。选项用于显示文件系统信息。原创 2025-02-12 14:56:52 · 328 阅读 · 0 评论 -
docker启动报错code=exited, status=1/FAILURE——问题排查
该错误什么信息都没有透露,但是我们可以通过查看docker日志,来进一步分析原因。会看到docker0的配置,此时需要将docker0的配置删除。基本能够断定Linux的防火墙和docker的网络冲突导致的。查看 Docker 守护进程的日志,以获取更多错误信息。在某台centos7机器上,启动docker服务。删除完之后,重启docker。原创 2025-02-07 21:18:59 · 864 阅读 · 0 评论 -
多端同步工具调研及使用-百度网盘|夸克网盘|坚果云|微利同步|Syncthing
想实现多端(安卓手机、windows电脑)的文件夹同步,用于obsidian知识库文件夹的多端同步。可以采用syncthing来实现多端数据同步。原创 2024-12-08 10:38:49 · 1043 阅读 · 0 评论 -
【字节实习生模型训练代码注入】如何实现
最近,某知名高校硕士生在字节实习期间,因对团队资源分配感到不满,于六月底利用攻击代码破坏了团队的模型训练任务,造成较大损失。攻击手段包括,但不限于我们就来模拟一下攻击手段,只有了解如何攻击,才能知道如何防备。知己知彼百战百胜!原创 2024-10-28 21:54:41 · 228 阅读 · 0 评论 -
python pickle处理
如果你有自定义的类,可以通过实现getstate和setstate方法来控制其序列化和反序列化行为。# 返回对象的状态# 恢复对象的状态# 创建一个 Student 对象# 序列化对象# 反序列化对象。原创 2024-10-23 12:44:29 · 261 阅读 · 0 评论 -
python读写csv文件
读写CSV文件在Python中是一个常见的任务,可以使用内置的csv模块或第三方库如pandas来完成。原创 2024-10-18 15:24:00 · 275 阅读 · 0 评论 -
向量数据库Milvus部署及试用
Milvus 是一种高性能、高扩展性的向量数据库,可在从笔记本电脑到大型分布式系统等各种环境中高效运行。它既可以开源软件的形式提供,也可以云服务的形式提供。原创 2024-10-17 18:31:03 · 616 阅读 · 0 评论 -
开源标注工具
安装非常麻烦,github更新频率比较低,支持功能和doccano类似。安装简单,可尝试(github上共17.1k star,且一直在更新)支持CV、NLP、语音等各种既定任务,及支持自定义任务标注。实测下来,发现标注大量数据可能存在问题,系统可能不稳定。大家有啥好的标注工具,也可以一起分享一下呀。后端代码未开放,可能有数据泄露风险。8年前的老系统,不敢用。原创 2024-09-25 12:48:19 · 517 阅读 · 0 评论