目标检测与距离评估

项目概述

本项目基于深度学习目标检测算法，在 OpenHUTB/nn 开源仓库基础上进行迭代开发，融合目标检测、距离估算、危险等级智能评估三大核心功能，并同时支持静态图片、本地视频文件、摄像头捕获等全场景检测与可视化输出。系统通过目标框位置完成自车与目标的相对距离计算，基于距离阈值划分危险等级，可为自动驾驶决策模块提供直观、可解释的环境感知结果，有效提升自动驾驶的安全性与可靠性。

相关算法与理论基础

本项目核心功能的实现依赖于深度学习、计算机视觉及环境感知相关理论与算法，具体如下，为功能开发提供坚实的理论支撑：

1. 目标检测核心算法

项目采用基于深度学习的目标检测算法，选用 YOLO（You Only Look Once）系列算法（优先适配 YOLOv5/v7）作为核心检测模型，其核心理论优势的适配性如下：

YOLO 算法将目标检测建模为端到端回归任务，直接从图像特征映射到边界框与类别概率，其核心损失函数包含坐标损失、置信度损失与分类损失，统一表示为：

$\begin{align*} L_{\text{YOLO}} &= \lambda_{\text{coord}} \sum_{i=0}^{S^2} \sum_{j=0}^{B} \mathbb{I}_{ij}^{\text{obj}} \left[ (x_i - \hat{x}_i)^2 + (y_i - \hat{y}_i)^2 \right] \\ &+ \lambda_{\text{coord}} \sum_{i=0}^{S^2} \sum_{j=0}^{B} \mathbb{I}_{ij}^{\text{obj}} \left[ \left( \sqrt{w_i} - \sqrt{\hat{w}_i} \right)^2 + \left( \sqrt{h_i} - \sqrt{\hat{h}_i} \right)^2 \right] \\ &+ \sum_{i=0}^{S^2} \sum_{j=0}^{B} \mathbb{I}_{ij}^{\text{obj}} (C_i - \hat{C}_i)^2 \\ &+ \lambda_{\text{noobj}} \sum_{i=0}^{S^2} \sum_{j=0}^{B} \mathbb{I}_{ij}^{\text{noobj}} (C_i - \hat{C}_i)^2 \\ &+ \sum_{i=0}^{S^2} \mathbb{I}_{i}^{\text{obj}} \sum_{c \in \text{classes}} \left( p_i(c) - \hat{p}_i(c) \right)^2 \end{align*}$

算法基于卷积神经网络（CNN）提取图像特征，通过多尺度特征融合（FPN 结构），能够有效检测道路场景中不同尺寸的目标（如行人、车辆、障碍物等），解决小目标检测精度不足的问题。
结合非极大值抑制（NMS）算法，通过交并比（IOU）对模型输出的冗余检测框进行筛选，剔除重叠度较高的框，IOU 计算公式为：

$\text{IOU}(B_1, B_2) = \frac{\text{Area}(B_1 \cap B_2)}{\text{Area}(B_1 \cup B_2)}$

以此保留最优检测结果，提升目标检测的准确性，避免重复标注影响后续距离计算与危险评估。

2. 目标距离估算理论与方法

距离估算功能基于计算机视觉中的 “单目视觉测距” 理论实现，无需额外硬件（如激光雷达），仅通过目标检测框的位置信息完成相对距离计算，核心理论与实现逻辑如下：

核心理论：基于相机成像原理（针孔成像模型），利用目标在图像中的像素尺寸与实际尺寸的比例关系，结合相机内参（焦距、像素尺寸），推导目标与相机（自车）的相对距离。根据相似三角形几何关系，距离计算公式为：

$Z = \frac{W \times f}{p}$

其中：

Z：目标与自车（相机）的实际相对距离，单位 m

W：目标真实物理宽度，单位 m

f：相机等效焦距，单位像素

p：目标检测框在图像中的像素宽度

实现方法：预设道路常见目标（如车辆、行人）的实际尺寸（如标准轿车宽度 1.8m、行人身高 1.7m），通过检测框的宽度 / 高度像素值，代入测距公式完成距离估算。
优化策略：引入坐标校正算法，消除图像畸变（如透视畸变）对像素尺寸检测的影响；结合目标类别动态调整实际尺寸参数，提升不同目标的距离估算精度。

3. 视频处理相关算法

视频文件检测功能基于计算机视觉中的视频帧处理与目标跟踪理论，核心算法如下：

帧处理算法：基于 OpenCV 的视频读取接口（cv2.VideoCapture），实现视频帧的高效读取与预处理（灰度化、去噪、尺寸归一化），为目标检测提供高质量输入。
目标跟踪辅助：结合 IOU（交并比）跟踪算法，对视频帧间的同一目标进行匹配，IOU 计算公式为：

$\text{IOU}(B_1, B_2) = \frac{\text{Area}(B_1 \cap B_2)}{\text{Area}(B_1 \cup B_2)}$

通过该方式减少重复检测，提升视频检测的效率与连贯性，同时保证距离信息与危险等级的连续性。

视频编码与保存：采用 H.264 编码算法，将标注后的视频帧合成输出视频，确保输出文件的兼容性与清晰度，满足离线分析与演示需求。

功能模块

1. 核心检测引擎

基于 YOLO 系列深度学习算法与 CNN 特征提取理论，实现道路场景目标检测，输出目标类别、检测框坐标等基础信息，作为距离估算、危险等级评估的底层支撑；集成 NMS 算法优化检测结果，提升检测精度。

2. 目标距离估算

基于单目视觉测距理论，在核心检测引擎中集成目标距离计算逻辑
根据目标检测框位置、像素尺寸，结合相机内参与目标实际尺寸，实时估算目标与自车的相对距离
距离信息直接附加到检测结果中，无需额外模块调用，通过坐标校正算法提升估算精度

3. 危险等级评估

基于距离阈值划分与模糊综合评价理论，建立标准化危险等级划分规则：安全 (Safe) / 警告 (Warning) / 危险 (Danger)。定义目标风险系数：

$S = \frac{\alpha}{Z}$

其中 α 为目标类别敏感系数，Z 为目标距离。危险等级判定规则为：

$\begin{cases} Z < Z_d, & \text{Danger（危险）} \\ Z_d \leq Z < Z_w, & \text{Warning（警告）} \\ Z \geq Z_w, & \text{Safe（安全）} \end{cases}$

式中取危险阈值 Zd=5m，警告阈值 Zw=12m。

基于距离阈值自动完成目标危险等级分类，结合目标移动速度、类别等因素进行修正
检测结果同步输出距离数值与危险等级标签，为自动驾驶决策模块提供直观的安全预警依据

4. 视频文件检测

增加独立 video_detector.py 模块，封装 VideoDetector 类，集成 OpenCV 帧处理与 IOU 跟踪算法
支持本地 .mp4 / .mov 等格式视频文件读取与逐帧检测，通过帧预处理算法提升检测质量
完全复用核心检测引擎，自动保留检测框、距离、危险等级全量标注
支持检测结果实时预览与输出视频保存，结合目标跟踪算法提升检测连贯性

功能实现与开发详情

核心功能实现

距离计算与危险等级评估

在 detection_engine.py 核心文件中新增目标距离计算逻辑，通过目标检测框的位置信息完成相对距离估算；设计三级危险等级划分规则，依据距离阈值对检测目标进行智能分类；优化检测结果输出结构，为每个目标同步绑定距离信息和危险等级标签，大幅提升检测结果的实用性与可解释性，直接支撑自动驾驶决策模块使用。

视频文件检测功能

新增 video_detector.py 功能模块，基于 OpenCV 实现本地视频高效读取、逐帧推理、视频编码与保存；功能完全复用已有的检测引擎（基于 YOLO 算法与 CNN 特征提取），确保视频检测结果与图片检测保持一致，自动包含目标框、距离、危险等级全量标注；同步升级用户交互界面，在主菜单中添加视频文件检测选项，支持用户输入视频路径、选择是否保存输出视频，实现完整的视频检测闭环流程。

测试环境与验证结果

测试环境：
操作系统：Windows 11
Python 版本：3.10
测试素材：项目图像数据集、.mov 格式视频文件（300 帧）
测试方式：

使用图像数据运行完整检测流程；运行

python main.py

进入主菜单，可选择检测功能，输入对应的数字，并输入数据路径即可进入

验证结果：
距离计算功能正常输出稳定数值，不同距离目标的危险等级划分符合预设规则
代码修改未影响原有目标检测功能，系统整体运行稳定
图片与视频检测结果均成功标注目标框、距离信息及危险等级，可视化效果直观
程序顺利完成 300 帧视频逐帧检测，并在指定路径生成带标注的 .mp4 输出视频
图片与视频检测功能兼容一致，无冲突、功能表现统一

系统运行效果

图片 / 视频检测均可输出完整的目标信息：类别 + 检测框 + 距离 + 危险等级，YOLO 算法的高效性确保实时检测无延迟。
目标危险等级根据距离自动动态标注，直观呈现目标与自车的空间关系及安全风险。
视频检测支持实时预览和结果保存，IOU 跟踪算法保证目标标注的连贯性，满足离线分析、演示验证等需求
交互界面菜单清晰、操作简单，无需复杂配置即可完成全功能使用，降低算法与系统的使用门槛。
功能模块低耦合、高复用，系统整体稳定可靠。

原始图片检测效果：

图片检测运行效果

改进后检测效果：

图片检测运行效果

视频检测效果：

点这里打开视频

系统特性

一体化感知：深度融合 YOLO 目标检测、单目视觉测距、模糊综合评价等算法与理论，集目标检测、距离估算、危险等级评估于一体，功能模块衔接紧密、逻辑连贯，无需额外集成第三方工具，适配原开源仓库的神经网络应用场景。
多场景支持：兼顾静态图片与动态视频检测需求，算法经过优化适配不同输入类型，既能处理单帧图像的精准检测，也能实现视频逐帧高效推理，适配自动驾驶多场景环境感知需求。
功能一致性：视频检测功能完全复用核心检测引擎，依托原仓库的代码规范与复用理念，确保图片、视频两种检测模式的结果标准统一，检测框、距离信息、危险等级标注格式一致，无功能偏差。
高实用性：检测输出数据（目标类别、检测框、距离、危险等级）可直接对接自动驾驶决策模块，贴合原仓库中 Carla 无人车感知、控制的核心需求，具备较强的工程实践价值，可直接用于原型系统开发。
易用性强：采用菜单式交互逻辑，优化 ui_handler.py 交互界面，操作流程简洁直观，无需深入掌握底层算法与代码细节，降低使用门槛，同时符合原仓库的模块使用规范，便于后续扩展与维护。

应用场景

自动驾驶车载环境感知原型系统：基于本项目功能，可快速搭建适配 Carla 无人车的感知模块，实现道路目标的实时检测与安全预警，契合原开源仓库的模拟器应用场景。
自动驾驶安全预警模块开发与验证：依托距离估算与危险等级评估功能，为自动驾驶安全决策提供数据支撑，可用于安全预警算法的开发、测试与验证。
道路目标检测教学实验与课程设计：融合深度学习、计算机视觉核心算法，可作为高校相关专业（计算机、自动化、车辆工程）的实践案例，助力理论与工程实践结合。
交通场景视频数据智能分析：通过视频逐帧检测功能，可批量处理交通场景视频，提取目标信息与安全风险数据，为交通管理、路况分析提供支持。
自动驾驶仿真测试与数据标注：适配原仓库的模拟器开发需求，可用于 Carla、AirSim 等模拟器的仿真测试，同时输出的标注结果可作为神经网络模型训练的数据集补充。

总结

本项目在 OpenHUTB/nn 开源仓库基础上，严格遵循原仓库的代码规范、模块约定与开发理念，完整实现了目标距离估算、危险等级智能评估、视频文件检测三大核心功能，构建了一套集图片 / 视频检测、距离计算、安全预警于一体的自动驾驶环境感知原型系统。系统深度融合相关算法与理论，功能完整、运行稳定、交互友好，检测结果具备高可解释性与工程实用价值，既适配原仓库的模拟器神经网络应用需求，也可作为自动驾驶感知模块学习、开发与测试的优质平台，为深度学习、计算机视觉在自动驾驶领域的应用提供了切实可行的实践参考。

未来工作与进阶方向

本项目作为自动驾驶环境感知的原型系统，仍存在多方面可优化与拓展的空间，后续工作可从以下维度展开：

1. 动态目标风险预测与多目标协同决策 目前危险等级仅基于静态距离判定，未考虑目标的运动状态。后续可引入目标速度与轨迹预测模块，结合距离与速度信息构建动态风险评估模型，实现更合理的危险等级分级与预警；同时，可拓展多目标优先级排序功能，为自动驾驶决策模块提供多目标场景下的协同安全策略。

2. 多模态感知融合与仿真环境适配 本项目当前仅基于单目视觉，后续可拓展融合激光雷达、毫米波雷达等多源传感器数据，构建多模态感知系统，提升恶劣天气、复杂光照等场景下的感知鲁棒性。同时，可进一步适配 CARLA 等自动驾驶仿真平台，将感知模块与仿真场景深度集成，实现端到端的感知-决策-控制闭环验证。