Temporal Collage Prompting：驾驶事故视频识别系统

项目简介

本项目实现了基于 GPT-4o 的低成本模拟器驾驶事故视频识别系统，采用时间拼接提示（Temporal Collage Prompting）方法，通过将视频帧拼接成 collage 图片，利用 GPT-4o 的视觉能力进行事故分类。

技术架构

整体流程

视频数据 → 帧提取 → Collage生成 → GPT-4o分析 → 结果输出

模块说明

模块	功能	对应脚本
帧提取	从视频中提取关键帧	`main.py extract-frames`
Collage生成	将帧拼接成网格图片	`main.py create-collage`
事故分析	使用GPT-4o进行分类	`main.py analyze`

快速开始

环境配置

# 安装依赖
pip install -r requirements.txt

运行命令

1. 提取视频帧

python src/main.py extract-frames \
    --input data/videos \
    --output data/data-frames/data-frames-3fps \
    --interval 10

2. 生成 Collage

python src/main.py create-collage \
    --input data/data-frames/data-frames-3fps \
    --output data/collages/collages-3fps-2-3 \
    --layout 2-3

3. 事故分析

python src/main.py analyze \
    --input data/collages/collages-3fps-2-3 \
    --model gpt-4o-low

数据集

数据结构

data/
├── videos/          # 原始视频数据
│   ├── norm/        # 正常驾驶 (30个视频)
│   ├── ped/         # 行人事故 (15个视频)
│   └── col/         # 车辆碰撞 (15个视频)
├── data-frames/     # 提取的视频帧
└── collages/        # 生成的Collage图片

数据说明

视频分辨率: 1280x720
帧率: 30fps（提取帧时使用3fps）
时长: 每个视频约10-30秒
场景: CARLA模拟器生成的驾驶场景

实验结果

分类性能

指标	值
准确率	85%
行人事故识别	Precision: 100%, Recall: 93%
车辆碰撞识别	Recall: 93%

混淆矩阵

              预测
            Normal  Ped  Col
真实  Normal    28    0    2
     Ped         0   14    1
     Col         3    0   12

引用

如果您觉得我们的工作对您有帮助，请引用：

@inproceedings{suntichaikul2024temporal,
    title        = {{Temporal Collage Prompting: A Cost-Effective Simulator-Based Driving Accident Video Recognition With GPT-4o}},
    author       = {Suntichaikul, Pratch and Taveekitworachai, Pittawat and Nukoolkit, Chakarida and Thawonmas, Ruck},
    year         = 2024,
    booktitle    = {2024 8th International Conference on Information Technology (InCIT)},
    pages        = {708--713},
    doi          = {10.1109/InCIT63192.2024.10810536}
}

许可证

本项目采用 MIT 许可证，详见 LICENSE 文件。