Kangas: 探索大规模多媒体数据集
kangas 🦘 Explore multimedia datasets at scale 项目地址: https://gitcode.com/gh_mirrors/ka/kangas
1. 项目介绍
Kangas 是一个用于探索、分析和可视化大规模多媒体数据的工具。它提供了一个简单的 Python API 用于记录大规模数据表,以及一个直观的视觉界面来对数据集进行复杂查询。Kangas 的主要特点包括:
- 可扩展性:Kangas DataGrid 能够轻松存储数百万行数据。
- 性能:在几秒钟内对数百万数据点进行分组、排序和过滤。
- 互操作性:Kangas 可以在笔记本中运行或作为独立应用运行,本地和远程均可。
- 集成的计算机视觉支持:无需额外设置即可可视化并过滤边界框、标签和元数据。
2. 项目快速启动
首先,通过 pip 安装 Kangas 库:
pip install kangas
接下来,可以通过多种方式加载或创建一个 DataGrid。以下是一个快速启动示例:
import kangas as kg
# 加载一个现有的 DataGrid
dg = kg.read_datagrid("path_to_your_datagrid.zip")
# 在 Kangas Viewer 中直接从 Python 渲染
dg.show()
你也可以通过命令行启动 Kangas 服务器:
kangas server https://github.com/caleb-kaiser/kangas_examples/raw/master/coco-500.datagrid.zip
3. 应用案例和最佳实践
加载数据
Kangas 支持从多种数据源加载数据,例如 CSV 文件、Pandas DataFrame 和 Parquet 文件。以下是一些加载方法的例子:
- 从 CSV 文件加载:
dg = kg.read_csv("path_to_your_csv_file.csv")
- 从 Pandas DataFrame 加载:
import pandas as pd
df = pd.DataFrame({
"hidden_layer_size": [8, 16, 64],
"loss": [0.97, 0.53, 0.12]
})
dg = kg.read_dataframe(df)
- 从 Parquet 文件加载:
dg = kg.read_parquet("path_to_your_parquet_file.parquet")
数据探索
一旦 DataGrid 初始化完成,你可以在 Kangas Viewer 中进行数据分组、排序和过滤。例如,如果你的数据集中包含图像和相应的元数据,Kangas 会自动解析这些信息。
可视化
Kangas 提供了丰富的可视化选项,例如:
# 可视化图像数据
dg.visualize(image_column="image_column_name")
4. 典型生态项目
Kangas 可以与多种开源项目配合使用,以下是一些典型的生态项目:
- Pandas:Kangas 可以直接从 Pandas DataFrame 中读取数据,用于数据探索和可视化。
- TensorBoard:虽然 TensorBoard 专注于训练工作流的分析和监控,但 Kangas 可以用于训练前的数据探索或部署后的预测分析。
- Comet:Kangas 是由 Comet 的研究团队开发并维护的,它是 Comet 生态的一部分,但也可以独立使用。
以上就是关于 Kangas 的简要介绍、快速启动指南、应用案例和与生态项目的配合。希望这些信息能够帮助你更好地了解和使用 Kangas。
kangas 🦘 Explore multimedia datasets at scale 项目地址: https://gitcode.com/gh_mirrors/ka/kangas
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考