第二章 视频会议系统结构
视频会议系统是集通信技术、计算机技术、微电子技术于一体的远程异地通信方式,它将计算机的交互性、通信的分布性、以及电视的真实性有机地结合在一起,具有明显的优越性,因而成为当今计算机领域的一个研究热点。
|
2.1 系统结构
本节从两个角度来介绍视频会议系统的整体系统结构,即逻辑系统结构和物理系统结构。事实上,这两种结构密不可分,前者侧重于软件结构,后者侧重于硬件结构,在视频会议系统中表现为一个有机的统一整体。
2.1.1 逻辑系统结构
从功能上看,完整的视频会议系统应具有会议管理、协作处理、视频/音频处理,多点控制、通信服务等功能模块,其逻辑结构如图2-2所示。
会议管理 |
实时音频 |
实时视频 |
音/视频同步 |
视频音频处理 |
协作处理 |
共享白板 |
共享文件 |
共享应用 |
通信服务 |
多点控制 |
图2-2 视频会议的逻辑结构
(1)会议管理
完成会议通知,召集任务;初始化会议环境;在会议进行中,协调系统各部分,管理与会者的身份与权力;进行系统各项性能参数的设置和调整。
(2)协作处理
主要提供共享白板、共享文件、共享应用等形式的协作方式。其中,共享白板的作用是实现与会人员的公共显示和修改窗口,实时传送修改信息;内含文件等数据的传送功能,完成文件传阅任务;具有OLE功能。
(3)视频/音频处理程序
完成视频/音频信息的采集、转化,实时压缩本地媒体产生的数据,实时解压缩和播放远地媒体产生的并经过网络传送过来的数据。
(4)通信服务和多点控制
具有网络管理的功能,能集中处理各种媒体产生的信息流的调度、传输等一系列问题,实现点对点、组广播、广播方式等通信方式;完成相应进程的数据的连接;保证网络传输的效率,以维护一定的系统性能。
视频会议系统应具有的特点是:其谈话和活动图像必须是自然的,用户之间必须共享信息,必须要具有友好的用户接口。
2.1.2 物理系统结构
视频会议系统的物理系统结构如图2-3所示。
终端系统 |
终端系统 |
终端系统 |
MCU |
MCU |
MCU |
MCU |
通信网络 |
终端系统 |
终端系统 |
终端系统 |
图2-3 视频会议系统的物理结构
其中,有以下几点值得注意:
(1)通信网络可以是PSTN,LAN,ISDN,Internet,FDDI/ATM等,但由于不同的通信网络原理及结构差异很大,导致了视频会议系统微观部署结构(包括终端系统的连接结构,多点控制设备(MCU)的配置方案结构等)的差异性。
(2)多点控制设备MCU(Multipoint Control Unit)并不是必需的。只有在多个会议场点(Conference Site)进行多点视频会议时,才设置一台或多台MCU,以进行图像与语音的分配和切换,这是由于视频与音频是连续传递的数据流,多个信道之间不能直接并联连接,否则来自不同会议场点的视频和音频信号将重叠在一起。MCU通常设置在网络节点处。
(3)终端系统的配置在同一视频会议系统中并不要求完全一致;对终端系统(包括软件和硬件)的要求比较统一,只需符合一定的国际标准即可。
2.2 终端结构
终端系统实际上代表视频会议中的本地会议场点,其结构如图2-4所示,主要包括以下几部分。
通信网络信道 |
视频输入设备 |
视频输出设备 |
音频输入设备 |
音频输出设备 |
信息通信设备 |
系统控制 |
视频 编/解码器 |
音频 编/解码器 |
数据协议 |
控制协议 |
多 路 复 用 |
用户接口和网络接口 |
图2-4 视频会议系统终端结构
(1)视频输入/输出设备
①视频输入设备
视频输入设备采集的各种视频信号都须经过视频输入口,将视频信号(模拟或数字)送入视频编码器内进行处理(变换、压缩等)。
视频输入设备包括摄像机及录像机。摄像机主要有主摄像机、辅助摄像机和图文摄像机。
其中,主摄像机主要用来摄取发言人的特写镜头,但主摄像机可被控制转动,这种控制可以是手动的,也可以是自动的。手动方式主要由参加会议人员通过控制器,控制摄像机上、下、左、右转动以及焦距的调节,也可以控制对方会场的主摄像机的转动。自动方式涉及到摄像头方向性的技术问题,可以加入声学扫描技术,用数字信号处理方法将发言者的声音叠加起来,形成一个很窄的声波,再自动调整摄像头对准本会议场点发言者,如果没有太大干扰,反应速度是比较满意的。
辅助摄像机主要用来摄取会场全景图像,或不同角度的部分场景镜头,或摄取白板上的内容。辅助摄像机主要由人工操作控制,属于手动方式。
图文摄像机一般固定在某一特定位置,用来摄取文件、图表等,其焦距已事先调整好。
录像机可播放事先录制好的活动和静止图像。
小型视频会议系统一般只采用主摄像机。
主摄像机镜头一般采用25万像素或30万像素的分辨率,体积较小,易于安装。辅助摄像机可以选择广角镜头、特殊监控镜头等。
②视频输出设备
视频输出设备包括监视器、投影机、电视墙、多画面、视频处理器等。监视器用于显示接收的图像;会议人数较多时,可采用投影机或电视墙。为了在监视器上既可以显示其他会议场点的图像,同时又可以显示本会议场点的画面,一般采用多窗口系统,每个会议场点的情况在屏幕上只表现为一个窗口,并且可以允许这种窗口随意放大缩小,而且不失真。
(2)音频输入/输出设备
音频输入/输出设备主要包括麦克风(话筒)、扬声器、调音设备以及提供语言激励、多麦克风混合、回声抑制器等附加的语音设备。具体会议对音频设备的配备情况主要由会议对音频质量的要求决定。
话筒和扬声器主要用于与会者的发言和收听其他会议场点的发言。
调音设备主要用于调节本会议场点话筒的音色和音量。
(3)视频编码解码器
视频编码解码器(Video Codec)是视频会议系统的心脏,主要功能有以下几点:
①将来自本地会议场点视频输入设备的模拟视频信号数字化后进行压缩编码处理,以适应窄带数字信道的传送。目前,已有许多数字式摄像头产品面世,这种摄像头输出的信号已经被数字化,视频编码解码器对此数字信号流直接进行压缩编码处理。
②将来自远地会议场点的已压缩视频信号解压缩后,送给相应的视频输出设备。
③可对不同电视制式的视频信号进行处理,以便不同电视制式的视频会议系统直接无缝互通,如PAL与NTSC间的互通。
④在多点视频会议通信的环境下,视频编码解码器应支持MCU进行多点切换控制。
(4)音频编码解码器
在视频会议系统中,音频编码解码器(Audio Codec)与视频编码解码器具有同等的核心地位,但由于音频数据量与视频数据量相比要小得多,因此,音频编码解码器在视频会议系统设计中并不会成为瓶颈问题。
音频编码解码器功能主要包括两个方面:
①对来自本地会议场点音频输入设备得模拟信号数字化,以PCM、ADPCM或LDCELP方式进行编码。这类模拟信号频率通常为50Hz~3.4kHz或50Hz~7kHz。编码后的数字音频信号的速率可为16,48,56,64bps四种。
②对来自远地会议场点已压缩的音频信号解压缩后,送到相应的音频输出设备。
(5)时延
由于视频编码解码器会引入一定的时延,造成发言人的语言与唇部的动作不协调,其口形与语音相比有一个延迟,因此在音频编码器中必须对编码的音频信号增加适当的时延,以便使解码器中的视频信号和音频信号同步,即所谓的唇同步问题。
(6)信息通信设备
信息通信设备是视觉的辅助设备,可增强视频通信功能。
信息通信设备包括白板、书写电话、传真机等。白板供本会议场点与会人员与对方会场人员进行讨论问题时写字画图用,通过辅助摄像机的摄取而输入编码器,传送到对端,在对方会场的监视器上显示。书写电话为书本大小的电子写字板,供与会人员将要说的话写在此板上,变换成电信号后输入到视频编码解码器,再传送到对方会场,并显示在监视器上。
(7)数据协议
数据协议是所有会议场点之间进行各种数据通信的基础,它必须支持电子白板、静止图像传输、文件交换及数据库存取等应用类型。
(8)控制协议和系统控制
控制协议提供各终端系统正确运行端到端信令,在系统之间进行能力交换、发送命令和指示信号,以及提供打开和描述逻辑信道的信息。
系统控制是利用控制协议的控制信令对系统进行控制。视频会议系统各终端系统之间的互通一般是依据一定的步骤和规程通过系统的控制来实现的。每进行一项步骤都由相关的信令信号完成。
(9)多路复用和解复用设备
该设备可将视频、音频、数据、信令等各种多媒体数字信号组合为64~1920kbps的数字码流,成为与用户/网络接口兼容的信号格式。同时,也可把接收到来自远地会议场点的比特流分解为各种多媒体信号。此外,其中包含的复用协议还具有能对图像序列进行编号、进行误差检测以及采用重传输的方式实现误差校正等功能。
(10)用户/网络接口
用户/网络接口是用户端的终端系统与通信网络信道的连接点,该连接点称为接口。该接口主要完成通信网络与多路复用和解复用模块的匹配问题。
其中有几点值得注意:
①终端系统结构中各模块并不是独立存在的,在实际设计时可能会将若干模块集成或镶嵌在一起协调工作,如时延电路模块就内嵌在音频编码解码器电路中。
②各模块并不是都由硬件实现。事实上,目前上市的产品中,除了视频、音频输入输出设备和用户/网络接口模块外,其余模块均可由软件实现。
2.3 组网结构
视频会议系统的组网结构随与会者参加方式的不同有所不同,从整体上看,有两种组网结构:点对点组网结构和多点会议组网结构。
2.3.1 点对点组网结构
点对点视频会议系统只涉及到两个会议终端系统,其组网结构非常简单,不需要MCU,也不需要增加额外的网络设备,只须在终端系统的系统控制模块中增加会议管理功能即可实现。其组网结构如图2-5所示,图中控制协议虚线实际上并不存在,其内容也是通过接口相互传递的。
接口 |
B |
控制协议 |
接口 |
A |
会议管理 |
会议终端 |
通信网络 |
会议管理 |
会议终端 |
图2-5 点对点组网结构
两个会议场点(终端系统)只须相互拨号呼叫对方并得到对方确认后便可召开视频会议。目前比较流行的可视电话的通信网络是PSTN,实际上这是点对点结构的一种特例。
2.3.2 多点会议组网结构
在多个会议场点进行多点会议时,必须设置一台或多台MCU(多点控制设备)。MCU是一个数字处理单元,通常设置在网络节点处,可供多个会议场点同时相互间的通信。MCU应在数字域中实现音频、视频、数据信令等数字信号的混合和切换(分配),但不得影响音频、视频等信号的质量。
多点会议组网结构比较复杂,根据MCU数目可分为两类:单MCU方式和多MCU方式。而多MCU方式一般又可分为两种:星型组网结构和层级组网结构。
(1)单MCU方式
在会议场点数目不多且地域分布比较集中时,可采用单MCU方式,其组网结构如图2-6所示。图中TA,,TB,…TF均为视频会议终端系统设备。
MCU |
TF |
TA |
TB |
TE |
TC |
TD |
图2-6 单MCU组网结构
各会议场点依次加入会议时,必须经过MCU确认并通知先于它加入会议的会议场点。
(2)星型组网结构
多MCU连接的星型组网结构如图2-7所示,其中VCT是视频会议终端Video Conference Terminal的缩写。
VCT |
VCT |
VCT |
VCT |
VCT |
VCT |
VCT |
VCT |
VCT |
VCT |
MCU |
MCU |
MCU |
MCU |
图2-7 多MCU连接的星型组网结构
这种星型结构对会议终端要求较低,增加新会议场点时易扩展。MCU功能类似于交换机,各MCU在这种组网结构中地位平等。由于该组网方式的会议场点数目较多,其会议控制模式宜采用主席控制模式。
(3)层级组网结构
多MCU连接的层级组网结构最适宜于布置在各会议场点地域上很分散的情况,可利用ISDN,B-ISDN或DDN(长途数字传输网)等通信网络。其组网结构如图2-8所示。
VCT |
三级 MCU |
二级 MCU |
一级 MCU |
VCT |
VCT |
VCT |
三级 MCU |
二级 MCU |
二级 MCU |
三级 MCU |
三级 MCU |
三级 MCU |
三级 MCU |
VCT |
VCT |
VCT |
VCT |
VCT |
VCT |
VCT |
VCT |
VCT |
VCT |
图2-8 多MCU连接的层级组网结构
这种层级结构覆盖的地域很广,也可以进行国际间视频会议,不仅易于扩充,而且更易于管理。多个MCU在组网结构中地位是不同的,有等级之分,下层的MCU受上层的MCU控制和制约。
这种结构将是未来发展中最理想的组网结构,其最理想的通信网络结构是现存的Internet,因为在分布式结构与分布式管理机制方面,二者有惊人的相似之处。但令人遗憾的是将Internet引入视频会议系统目前仍有许多无法克服的技术问题。
最适于这种结构的会议控制模式是声控模式和主席控制模式。
2.3.3 多点控制设备
多点控制设备(MCU:Mulitpoint control unit)是多点视频会议系统的关键设备,它的作用相当于一个交换机,但它又与一般电话网中的交换机不一样。前者是对数字信号进行切换,而后者是对模拟信号进行切换。MCU将来自各会议场点的信息流,经过同步分离后,抽取出音频、视频、数据等信息和信令,再将各会议场点的信息和信令,送入同一种处理模块,完成相应的音频混合或切换、视频混合或切换、数据广播和路由选择、定时和会议控制等过程,最后将各会议场点所需要的信息重新组合起来,送往各相应的终端系统设备。
MCU还有自动统一传输速率的功能,同一次会议的所有终端应该工作在同一速率上,如果与它连接的终端系统速率不一致,它会自动选择所有终端系统的最低速率位工作速率。
MCU主要处理以下三类数据:
1、 视频信号
主要由视频处理器完成。
MCU对视频信号一般采用直接分配的方式,若某会议场点有人发言,它的图像信号便会传送到MCU,MCU将其切换到与它连接的所有其他会议场点。
如果每个会议场点需要同时观看多个会议场点的图像(多窗口系统或多监视系统)时,MCU的视频处理器才对多路视频信号进行混合处理。
2、 音频信号
音频信号主要由音频处理器完成。
如果只有一个会议场点发言,MCU将其音频信号切换到其他会议场点;若同时有几个会议场点发言,MCU根据会议控制模式选出一个音频信号,将其切换到其他会议场点。
音频处理器由语音代码转换器和语音混合模块组成。前者从各个端口输入的数据流的帧结构中分离出各种语音信号,并进行译码,然后送入语音混合器进行线性叠加,最后送入编码器,形成合适的编码形式,插入到输出的数据流中。
3、 数据信号
数据信号主要由数据处理器完成。
MCU采用广播方式将某一会议场点的数据切换到其他会议场点,这主要用于主席控制模块。
此外,MCU结构中网络结构模块和控制处理器也是必不可少的。
其中,网络接口模块分输入、输出两方向,该模块校正输入数据流和输出数据流,并按本地系统的时钟定位输入的数据流。在接口模块的输出方向插入所需的各种信令和信息,形成信道帧,以便输出到通信网络数字信道。
控制处理器主要负责决定正确的路由选择,混合或切换音频、视频、数据信号,并对会议进行控制。
2.3.4 多点会议控制模式
在多点视频会议中,与会者既能看到其他会议场点的与会者,又能听到他们的讲话,但这个过程可能并不是同时发生的。那么,在某一时刻到底能看到谁呢?它由多点视频会议的控制模式来决定。
目前,业界已根据视频会议用户的各种不同需要开发出一系列控制模式,其中五种比较重要的控制模式是声控模式、发言人控制模式、主席控制模式、广播/自动扫描模式以及连接模式。
1、 声控模式
声控模式的使用极为普遍,是全自动工作模式,按照“谁发言显示谁”的原则,由声音信号控制图像的自动切换。
多点会议进行过程中,一般只有一方发言,其他会议场点显示发言者的会议图像。当同时有多个会议场点要求发言时,MCU从这些会议场点终端系统送来的数据流中抽取出音频信号,在语言处理器中进行电平比较,选出电平最高的音频信号,即与会者讲话声音最大的那个会议场点,将其图像与声音信号广播到其他的会议场点。
同时为防止由于咳嗽、噪声之类的短促干扰造成误切换,双方同时发言造成图像信息的重叠输出等问题,设置声音判决延迟电路,声音持续1~3s后,方能显示发言者的图像。无发言者时,输出主会场全景或其他图像。此外,在有人发言时应将该系统锁定,这样,由背景噪声等引起的干扰就不会将画面切换到其他场所,从而保证视频会议画面的稳定性。
声控模式对项目组会议是十分理想的,与会者可以自由发言。
该控制模式仅适于参加会议的会场数目不多的情况,一般控制在十几个会议场点之内。因为如果要比较的声音信号数目愈多,则背景噪声愈大,MCU的语言处理器将很难选出最高电平的语言信号。
2、 发言人控制模式
该控制模式一般与声控模式混合使用,与声控模式一样是全自动工作模式,也仅适用于参加会议的会场数目不多的情况。
当召开一次多点会议时,要发言的人通过编码译码器向MCU请求发言。此时如按桌上的按钮,编码译码器便给MCU一个请求信号,如MCU认可便将它的图像、语音信号播放到所有与MCU相连接的会议终端,同时MCU给发言人会议终端一个已“终端”的指示,使发言者知道它的图像、语音信号已被其他会议场点收到。当发言者讲话完毕时,MCU自动切换恢复到声控模式。
3、 主席控制模式
该控制模式将所有会议场点分为主会场(只有一个)和分会场两类,由主会场组织者(或称主席)行使会议的控制权,它根据会议进行情况和各分会场发言情况,决定在某个时刻人们会看到哪个会场,而不必考虑此刻是谁在发言。
主席可点名某分会场发言,并与之对话,其他会场收听它们的发言,收看发言人图像。分会场发言需向主席申请,但须经主席认可后发言有效,此时申请发言的会议图像才被传送到其他各分会场。
这种控制模式具有很大的主动性,控制效果比较好,避免了声控模式中频繁切换图像造成的混乱现象。
当然,主会场与分会场的地位在同一次会议中也可以动态变化。
4、 广播/自动扫描模式
该控制模式实际上是主席控制模式的一个变种。这种模式可以将画面设置为某个会场(这个会场被称为广播机构),而这个会场中的代表则可定时、轮流地看到其他各个分会场。这种模式按照事先设定好地扫描间隔自动地切换广播机构的画面,而不论此刻是谁在发言。
5、 连续模式
连续模式是一种最新发展的控制模式。这种模式通过将屏幕分割成若干窗口,而使与会者可以同时看到多个分会场的情况。
值得注意的是,控制模式是由应用程序所驱动的,当视频会议中出现新的应用需求时,就会产生新的控制模式来支持它们。
2.4 小结
本章从视频会议系统的整体结构入手,给出了系统结构、终端结构、组网结构三个部分。系统结构从逻辑和物理两个角度进行讨论;终端结构逐一介绍视频会议系统涉及到的各个硬件设备部分;组网结构从节点连接情况讨论了点对点会议组网和多点会议组网。
本章的重点是组网结构,重点讨论多点会议的组网结构,根据江苏省高法视频会议系统这个项目的需求,正好可以采用多点会议的组网结构,这些将在后面的章节中讨论。在组网结构这节引出了多点控制设备(MCU)这个关键设备,强调其在多点视频会议系统中的作用,在后面具体组网方案中MCU被广泛地使用。同时在组网成型后还需要辅助以控制模式,详细介绍了5种模式,特别是主席控制模式,非常适合于多点会议的主分会场形式。