OpenClaw 是一个用于细粒度视觉定位和属性识别的多模态数据标注格式,主要支持以下能力:

核心特点
- 物体检测与分割:支持边界框和掩码标注
- 属性识别:细粒度属性分类(颜色、形状、材质等)
- 关系检测:物体间空间/语义关系
- 视觉问答支持:与问题-答案对关联
主要数据格式
图像级信息
{
"image_id": "unique_id",
"file_name": "image.jpg",
"width": 1920,
"height": 1080,
"split": "train/val/test"
}
物体标注
{
"object_id": 1,
"image_id": "image_id",
"bbox": [x_min, y_min, x_max, y_max],
"mask": "RLE编码或多边形坐标",
"category_id": 25,
"attributes": {
"color": ["red", "blue"],
"material": ["wooden"],
"state": ["open"]
},
"is_thing": true // 可计数物体为true,stuff为false
}
关系标注
{
"relationship_id": 1,
"image_id": "image_id",
"subject_id": 1,
"object_id": 2,
"predicate": "holding",
"attributes": {
"spatial": ["above", "near"]
}
}
视觉问答对
{
"question_id": 1,
"image_id": "image_id",
"question": "What is the red object on the table?",
"answer": "apple",
"answer_type": "object",
"grounding": {
"object_ids": [3],
"relationship_ids": [5]
}
}
数据集结构示例
openclaw_dataset/
├── images/
│ ├── train/
│ ├── val/
│ └── test/
├── annotations/
│ ├── instances_train.json
│ ├── instances_val.json
│ ├── attributes.json # 属性类别定义
│ ├── categories.json # 物体类别定义
│ └── predicates.json # 关系谓词定义
└── questions/
├── vqa_train.json
└── vqa_val.json
工具支持
标注工具
- LabelMe(扩展支持)
- VIA(Visual Image Annotator)
- 自定义标注工具
数据处理库
# 加载标注
with open('annotations/instances_train.json') as f:
data = json.load(f)
# 结构包含
# - images: 图像信息列表
# - annotations: 物体标注列表
# - attributes: 属性定义
# - categories: 类别定义
应用场景
- 细粒度视觉定位:精确识别物体及其属性
- 场景图生成:构建物体关系图
- 指代消解:将语言描述映射到视觉对象
- 视觉推理:支持复杂视觉问答
- 多任务学习:联合训练检测、分割、属性识别
注意事项
- OpenClaw格式相对较新,工具链仍在完善
- 与COCO格式部分兼容(可扩展转换)
- 支持多层级属性体系
- 强调细粒度和关系信息
需要具体的使用示例或转换代码吗?我可以提供更详细的实现指导。
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。