为什么做这个项目
到了 2026 年,主流安防厂商已经在部分产品线中提供了较为成熟的基础智能分析能力。以海康为例,AcuSense 已经覆盖人车识别、告警联动等常见场景;大华的 WizSense 也提供了围绕人、车、周界等方向的基础能力。同时,中心管理平台通常又是独立的软件产品,例如 HikCentral Professional、DSS Professional 等,负责视频、告警、门禁、设备联动等统一管理。
但在真实项目中,摄像机能力、中心平台、行业定制算法、训练数据和业务闭环,往往并不是天然打通的。厂商方案更偏向“可交付、可维护、稳定运行”,而不是把数据标注、模型训练、算法扩展和源码级改造完整交给项目方。这就导致一个很现实的问题:如果项目需要更细分、更贴近业务的场景能力,往往仍然要走一条自己的路。
这个项目的出发点,不是简单重复做一个监控平台,而是尝试把一条常被拆开的链路重新连起来:设备接入、视频转发、实时推理、事件联动、数据沉淀、模型训练、AI 分析。这样做的意义,不在于替代所有商业产品,而在于真正理解每一层为什么存在、彼此如何协作,以及整个系统在工程上应该如何落地。
现有方案的典型问题
- 现成摄像头通常只支持较为通用的算法场景,但在钢铁、制造、能源、化工等行业里,真正需要的往往是更细分的业务规则,例如睡岗检测、单人巡检、是否佩戴指定防护工具等。这类需求很难直接依赖设备默认能力完成。
- 一旦涉及模型训练,很多公司会对训练数据、标注方式、训练流程极为敏感,不能接受外部平台长期接触核心数据。
- 厂商通常不会开放完整的标注体系、训练方法和源码实现,这意味着平台更多是“使用型产品”,而不是“可持续改造的底座”。
- 公开可检索的开源方案并不多,尤其是能够把视频接入、推理、告警、训练、AI 分析整合到一条链路中的完整思路,更少。
这个项目的价值
- 提供一套从视频接入到事件联动的完整参考方案,而不是只讲某一个局部技术点。
- 支持围绕现有方案继续做二次开发,包括数据标注、模型训练、场景扩展和算法替换。
- 支持本地化部署,优先面向少路数、成本可控、能够真正落地的小规模项目。
- 支持单相机多场景复用,同一条视频流尽量只做一次解码和推理,减少重复消耗。
- 支持对异常事件进行消息推送、工单联动和结果留证,更贴近真实生产环境。
- 支持叠加多模态模型和 LLM,在视觉检测之外补充事件理解、摘要、问答和分析能力。
项目目标
- 学习音视频相关知识,例如解码、推流、协议转换、低延迟播放
- 学习算法标注、模型训练、实时推理
- 学习多模态大模型运行和部署
- 学习并发处理与工程化拆分
- 学习如何把算法能力真正接入业务系统,而不是停留在 Demo 层面
核心技术简介
核心讲解会放在音视频专栏中,这里只保留项目中会频繁出现的关键词,先建立整体认识。
音视频基础知识
本节留空,后续由作者自行补充资料与教程。
FFmpeg
FFmpeg 是整个链路中最基础、也最常用的工具之一。它本质上是一套通用的音视频处理工具链,可以完成转码、封装、抽帧、推流、截图等工作。在实际项目中,浏览器无法直接播放、需要协议转换、需要截图留证、需要调节码率等问题,最终往往都会落到 FFmpeg 这一层。
WebRTC
WebRTC 是面向实时音视频与数据传输的开放标准,现代浏览器支持度较高。对于监控平台而言,它最重要的价值在于低延迟播放,更适合做实时预览、远程查看和交互式场景。但它也并不是“天然低延迟”的万能解法,部署时通常还要处理信令、ICE、STUN/TURN、编解码兼容等问题。
HLS
HLS 是 Apple 推出的基于 HTTP 的流媒体传输方案,优点是兼容性好、部署成熟、便于通过普通 Web 服务和 CDN 分发。它更适合兼容性优先、分发优先、回放优先的场景;如果项目追求的是尽可能接近实时的监控预览,HLS 更适合作为补充链路,而不是唯一方案。
编码格式
视频如果不经过压缩,体量会非常大,几乎无法直接存储和传输,因此编码格式是整条链路里绕不开的一层。项目中最常见的是 H.264 和 H.265。很多播放兼容、协议转换、浏览器支持问题,表面看是“流地址不能播”,本质上往往同时与编码格式、封装格式和播放器能力有关。
MediaMTX
MediaMTX 是一个轻量且实用的实时媒体服务器,支持 RTSP、RTMP、WebRTC、LL-HLS 等多种协议。它更像一个媒体路由器:负责把上游流接进来,再按不同下游需求进行统一分发。在这类项目里,它非常适合放在协议转换、统一出口、网页播放、录制与转发这一层。
多模态模型
多模态模型的价值,不只是“看图说话”。在安防和工业场景中,它更适合承担事件的二次理解工作,例如读取抓拍图、补充异常描述、生成事件摘要、辅助人工研判。视觉模型负责“看到了什么”,多模态模型负责“怎么理解这些结果”。
ONVIF
ONVIF 并不是单一协议,而是一套围绕网络视频设备互通建立起来的规范体系。它通过不同 Profile 定义设备与平台之间应支持的能力。对接入平台来说,ONVIF 的价值不在于万能,而在于尽量降低不同厂商设备之间的兼容差异,减少对接成本。
RTSP
RTSP 是实时流媒体场景中最常见的一类协议。更准确地说,它是用于控制实时媒体会话的协议,而不只是一个“视频地址”。在工程实践里,很多设备接入问题最终都体现在 RTSP 这一层,例如网络可达性、鉴权方式、主辅码流区分、会话稳定性等。
WebSocket
WebSocket 提供浏览器与服务端之间的双向通信能力。它在这个项目中的主要作用不是传输视频,而是传输推理状态、告警事件、任务进度、节点心跳和页面实时刷新数据,使前端可以持续收到后端变化。
LLM
大语言模型更适合放在理解层和组织层,而不是替代视觉检测本身。它可以根据规则生成文本摘要、结构化结果、告警说明、工单内容,适合做自然语言查询、事件总结、知识问答和辅助分析。简单来说,视觉模型回答“发生了什么”,LLM 回答“怎么表达”和“怎么对接业务”。
数据标注
数据标注是训练自定义视觉模型的起点。像 Label Studio、CVAT 这类成熟工具都支持图像、视频等多种类型的数据标注。对于项目实践而言,优先把标注格式、类别定义、数据质检和导出流程固定下来,往往比一开始就追求模型精度更重要。
模型训练
以 YOLO 系列工具链为例,模型训练通常不是孤立的一步,而是与验证、推理、导出、部署、跟踪等环节一起构成完整流程。真正的难点并不只是“把模型训出来”,而是如何把训练结果稳定接回工程链路,最终在真实业务中跑起来。
视觉算法
这里主要指目标检测、分类、分割、跟踪等视觉任务。对于项目初期而言,最有价值的不是一开始就追求大而全,而是先把检测、跟踪、规则判定、截图留证和结果联动这一条线打通,再逐步扩展更复杂的场景能力。
对象存储
对象存储适合承载抓拍图、短视频片段、模型文件、导出结果等以“对象”为单位的数据。以 MinIO 为代表,这类系统通常具备较好的兼容性和可扩展性,更适合作为平台中的统一文件出口,而不是把所有大文件直接放进数据库。
消息队列
消息队列的核心作用是削峰、解耦和异步化。像 RabbitMQ 这样的消息中间件,非常适合承接告警推送、异步截图处理、工单触发、通知重试等工作,让推理主链路尽量不要被外围动作拖慢。
同类型产品介绍
下面这些产品都和视频接入、平台管理、智能分析、联动处理有关,但定位并不完全相同。把它们放在一起看,更容易理解本项目所在的位置。
厂商一体化平台
-
HikCentral Professional
海康的中心管理平台,定位是统一管理视频、门禁、告警等子系统,偏向厂商生态内的一体化能力。
官网:https://www.hikvision.com/en/products/software/HikCentral-Professional-series/hikcentral-professional/ -
DSS Professional / DSS Express
大华的视频管理软件体系,DSS Professional 更偏大型项目,DSS Express 则更适合中小规模场景。
官网:https://www.dahuasecurity.com/products/software/software-products/dss-professional
开放平台型 VMS
-
Milestone XProtect
典型的开放平台 VMS,强调设备兼容、可扩展和 API/SDK 能力。
官网:https://www.milestonesys.com/products/software/xprotect/ -
Nx Witness
跨平台视频管理系统,强调开发者友好、AI 增强和设备兼容能力。
官网:https://www.networkoptix.com/nx-witness -
AXIS Camera Station
Axis 自有的视频管理软件,适合用于观察设备厂商如何构建平台能力边界。
官网:https://www.axis.com/products/video-management-software
开源与本地化方案
-
Frigate
开源 NVR,特点是本地实时 AI 检测,适合重视隐私、本地处理和可控性的项目。
官网:https://frigate.video/ -
Shinobi
开源 NVR,强调性能与灵活性,适合作为工程参考方案。
官网:https://shinobi.video/ -
ZoneMinder
老牌开源监控系统,适合用来理解传统开源视频监控平台的设计思路。
官网:https://zoneminder.com/
分析能力平台
- BriefCam
更偏向视频分析软件层,而不是单纯的视频接入平台,重点在事件检索、实时响应和数据分析。
官网:https://www.briefcam.com/
这篇教程的定位
这套教程不会把重点放在“比较哪家产品更强”上,而是放在把链路讲清楚、把关键问题讲透、把最小可跑通方案搭起来。
你可以把它理解为一套偏工程化的学习项目:
- 既能学习协议和媒体链路
- 也能学习标注、训练和部署
- 还能看到一个真实系统如何把视频、算法、通知、存储和 AI 串成完整闭环
参考资料与原始依据
以下资料主要选自官网、官方文档和标准组织页面,便于后续继续查阅与校验。
标准与基础协议
- ONVIF Profiles:https://www.onvif.org/profiles/
- ONVIF Profile S:https://www.onvif.org/profiles/profile-s/
- ONVIF Profile T:https://www.onvif.org/profiles/profile-t/
- RTSP RFC 7826:https://datatracker.ietf.org/doc/html/rfc7826
- WebSocket RFC 6455:https://datatracker.ietf.org/doc/html/rfc6455
- WebRTC 官方站点:https://webrtc.org/
- Apple HLS 官方文档:https://developer.apple.com/streaming/
核心技术与工具
- FFmpeg 官方文档:https://ffmpeg.org/ffmpeg.html
- MediaMTX 官方仓库:https://github.com/bluenviron/mediamtx
- Label Studio 官方站点:https://labelstud.io/
- CVAT 官方文档:https://docs.cvat.ai/
- Ultralytics YOLO 文档:https://docs.ultralytics.com/
- MinIO 官方站点:https://www.min.io/
- RabbitMQ 官方站点:https://www.rabbitmq.com/
同类产品官网
- Hikvision AcuSense:https://www.hikvision.com/en/core-technologies/see-smarter-technology/acusense/
- HikCentral Professional:https://www.hikvision.com/en/products/software/HikCentral-Professional-series/hikcentral-professional/
- Dahua WizSense:https://www.dahuasecurity.com/products/key-technologies/wizsense
- DSS Professional:https://www.dahuasecurity.com/products/software/software-products/dss-professional
- Milestone XProtect:https://www.milestonesys.com/products/software/xprotect/
- Nx Witness:https://www.networkoptix.com/nx-witness
- AXIS Video Management Software:https://www.axis.com/products/video-management-software
- Frigate:https://frigate.video/
- Shinobi:https://shinobi.video/
- ZoneMinder:https://zoneminder.com/
- BriefCam:https://www.briefcam.com/
评论