对于 DTV 、移动电视、手机、网上广播来说,目前最主要的挑战是如何控制节目的格式、语言的可懂度和不同节目之间响度[在赛因网搜索更多结果>>]的一致性。现在广播电视的频道越来越多,所以对每个频道的处理需要更加有效率。这篇论文报告了最近 TC 与蒙特利尔的麦吉尔( McGill )大学 1 共同进行的响度[在赛因网搜索更多结果>>]研究结果,并且通过 ITU 和 EBU 的标准化工作的实施过程,去详细说明通用的、全球化、实时响度[在赛因网搜索更多结果>>],和峰值电平[在赛因网搜索更多结果>>]的测量标准 BS.1770 ,这个标准适用于单声道、立体声、 5.1 的信号及其相关的制作、外部导入和传输。我们会给出在世界范围内进行数字制作和播出中所采用的结构和工作流程。 BS.1770 在制作和传输、及含确定元数据传输方面的实时控制,以被证明比依靠需要时间处理动态元数据方式有更好的音质,更少失真。良好的电平[在赛因网搜索更多结果>>]控制功能会大大方便节目格式(高清电视 HDTV 、标清电视 SDTV 、手机电视和网络等)的联合播出。本篇论文适合于从事电台,电视台制作、安装及管理的专业人士阅读。主要提供用户和技术信息,不作为任何现有产品的推广使用。 介绍 数字电视( DTV )可以携带更加生机勃勃的音频信号,这意味着更多的通道, 更宽的动态范围和更好的频率响应。举个例子来说,放电影时,在音频和视频方面都不会有过多的损失,观众看到的影片基本上与录音棚里混音、剪辑完成的电影差不多。但是,当播放影片的环境发生变化时,就像视频需要色彩空间,频率和量化的纠正一样,音频也需要做一些优化处理。根据作者最近的研究,听众有一个适当定义的动态范围忍耐度, DRT 2 。当平均电平[在赛因网搜索更多结果>>]处于一定的范围内,句子或者音节(组成单词的声音)才会被听音者正确地识别,音乐中的主要乐器才会被听到;突发的干扰,例如过响的效果、失真或者其他不可预知的声音才不会发生。如果电平[在赛因网搜索更多结果>>]的波动范围经常超出这个可容忍的范围,那么听音者就会感觉到烦躁。 DRT 就被定义为被选定的平均范围加上峰值电平[在赛因网搜索更多结果>>]储备。 DRT 依赖于听众的听音环境,具体细节参看图表 1 。在有非常严重的背景噪声的情况下,例如在不同的交通工具中或者都市喧闹的环境中,再现有宽阔动态范围的信号——音乐或者语言节目,没有失真,不会损伤听音者耳朵,就成了一个挑战。需要注意的是,与限制过多得声音相比,听音者通常更加不接受过宽的动态范围。 看图表 1 ,电视节目的观众通常处于客厅或者厨房环境中。我们认为这种类型的素材有一个普通的广播动态范围特性。 商业广告和普通 CD 通常有一个更加苛刻的动态范围,因此在电视节目播出中,他们听起来响度[在赛因网搜索更多结果>>]更大,这是因为对这类节目的标准化控制只基于峰值电平[在赛因网搜索更多结果>>]。我们认为这种类型的节目有更“热”的动态范围特性相反,电影制作的目标是一个完全不同的听音环境,这个环境更加安静并且可以还放出较高的响度[在赛因网搜索更多结果>>]。这种宽动态范围的制作也包括古典音乐。我们认为这种自然的声音有“温和”的动态范围特性。
图 1. 不同听音环境下的听众动态范围容忍度 总结,广播节目制作需要寻求一个适合大多数消费者听音环境的最佳方法。在不同节目源之间,与电视节目消费者需求差别最大的就是电影素材。若想在家庭听音环境中播放电影,并且不损失过多的细节或者不让影片中较响的部分失真的话,我们需要将低电平[在赛因网搜索更多结果>>]信号提升 12-20dB ,峰值储备缩小 12-16dB 。 定义响度[在赛因网搜索更多结果>>] 与电平[在赛因网搜索更多结果>>]不同,响度[在赛因网搜索更多结果>>]是主观的。听音者对决定性因素——声压级、频率内容和持续性的衡量是不同的。因此,尽管在相似人群中,对声音响度[在赛因网搜索更多结果>>]的定义也呈现出一个不同听音者的差异性( BLV = Between Listener Variability )。同时,不同的年龄、性别、文化背景也会进一步的增加这种差异性。而且,同一个人对于响度[在赛因网搜索更多结果>>]评估也只是在一定程度上呈现出一致性,这要依赖于在一天中的某段时间,情绪和注意力等。这种差异性称为同一听音者的差异性( WLV = Within Listener Variability )。由于差异性的存在,通常的响度[在赛因网搜索更多结果>>]测量方法只有在以大量的主观参考测试和可靠统计为基础的情况下才有意义。多年来 ITU 一直都在以下几个方面进行研究: 1 )可以避免过载的表头特性; 2 )能指示主观响度[在赛因网搜索更多结果>>]的表头特性; 3 )能高效使用的表头显示特性; 4 )评估表头性能和显示特性的方法。
他们采用主观听音测试的办法,来找出 可以对不同音频片段能有最佳电平[在赛因网搜索更多结果>>]描述的响度[在赛因网搜索更多结果>>]模型。这样就使得设计出一种对于不同长度的音频片断只激发一个平均值单位的简单电平[在赛因网搜索更多结果>>]指示表成为可能。这个测试提出了一个接近 C 计权的相对简单的 Leq 测量方式,称其为“ Leq ( RLB )”,在一定的条件下,这是一个好的响度[在赛因网搜索更多结果>>]预测器 。 图 2. 这是一个使用了大范围广播音频素材对响度[在赛因网搜索更多结果>>]模型 ( 他们的名称在图表的底端 ) 进行的评估。图表左边的响度[在赛因网搜索更多结果>>]模型比图表右边的响度[在赛因网搜索更多结果>>]模型更贴近于人耳对响度[在赛因网搜索更多结果>>]的反应。在图表顶端的红色指示,代表测量出来差别高于 6dB 的音频片断的数目,数字越高代表响度[在赛因网搜索更多结果>>]模型的吻合度越低。
新的测试为评估不同的响度[在赛因网搜索更多结果>>]模型提供了一个坚实的基础。组合数据的使用,使在评价语言、音乐和效果的响度[在赛因网搜索更多结果>>]时采用不同模型成为可能,从而在一定程度上扩展了 ITU 测试的局限性(良好地控制语言)。测试结果的总结在图 2 中体现出来。这个评估测量法推荐将一组响度[在赛因网搜索更多结果>>]模型了分成多个级别。稍微令人吃惊的是,三种被广泛使用的响度[在赛因网搜索更多结果>>]测量方法, Zwicker 模型、 Leq(A) 和 Leq(M) ,不能被推荐作为一个标准,而且将被排除在任何一个等级之外。表现最差的模型就是 Leq(A) 和 Leq(M) ,这两个模型在一些声级计和信号分析仪中采用,并且应用于广播和影院响度[在赛因网搜索更多结果>>]测量。值得注意的是,上面提到的三种模型的表现都不如采用 PPM 表进行测量( IEC268-10 )来的准确。因此,我们找出了一个简单的 Leq ( RLB )最为一个基础测量方法,它可以成为未来标准响度[在赛因网搜索更多结果>>]模型的基础。 多声道的响度[在赛因网搜索更多结果>>] 以前的主观测试主要采用单声道的素材。写这篇报告的时候,我们只对真实世界的信号——多声道信号的响度[在赛因网搜索更多结果>>],进行过一些少量且仓促的实验。可惜的是,这个工作与早期的测试没有任何的连续性。对于多声道响度[在赛因网搜索更多结果>>]的测量,我们引进了新的 Leq 计权曲线,我们把它称为 Leq ( R2LB )。我们用复合的数据库评估 Leq ( R2LB )测量方法,一点也不出乎意料的是,这种方法揭示出了与采用 Leq ( RLB )不一样的结果。如果当节目素材和通道数目改变时,加权也要改变的话,那就比较不幸了。因此对多声道信号的响度[在赛因网搜索更多结果>>]需要进行更多的实质性研究。 需要解答的问题包括: 1 )找到基础的测量方法以及与以前测试的联系; 2 )指向性与听众听音定位; 3 )声道计权; 4 )短期与长期表现与相关性的分析。 短期和长期响度[在赛因网搜索更多结果>>] 长期响度[在赛因网搜索更多结果>>]测量适合于电平[在赛因网搜索更多结果>>]的补偿,收集响度[在赛因网搜索更多结果>>]数据或者用于收集元数据,但是忽略 相应的实时独表和控制的应用。作者已经参与到两个新型响度[在赛因网搜索更多结果>>]模型的开发工作中,他 们是“ LARM ”和“ HEIMDAL ”。主要的目的是制造出一个精确且动力十足的可评估 由语言和音乐组成的音频片断的响度[在赛因网搜索更多结果>>]测试仪。两个模型都可以通过调整分析窗口来分 别计算短期响度[在赛因网搜索更多结果>>]或者长期平均响度[在赛因网搜索更多结果>>] 图 3 展示了一个概念研究的实验抓屏, 在这张图上同时显示了短期和长期响度[在赛因网搜索更多结果>>] 的指示。外圈有角度的表头使得显示的 区域被缩小,因为我们没有必要去读那 个 LU 数值,这样可以显示在画面上。注意,这个表不是商业成品

图 3. 外围有“雷达视角”圈的响度[在赛因网搜索更多结果>>]表 电视台控制响度[在赛因网搜索更多结果>>]和音频格式的策略 在模拟电视的时代已经出现了不同节目和不同电台电视台之间电平[在赛因网搜索更多结果>>]的跳跃现象。当高清电视开始准备播出在动态方面有更大差异电影的时候,这个问题将更加突出。电影的动态范围要远远大于一般听众的听音环境的 DRT 。因此,我们必须对电视台或者用户接收端的动态范围加以限制。就像图 1 中指出的,动态范围的转化应该涉及到信号中过分轻柔和响度[在赛因网搜索更多结果>>]过高的部分。理想的状态是,应该在接收端进行动态范围的重组(意为控制信号将信号控制在所需的动态范围内),这样可以在最大程度上适应各种听音环境。元数据在这时会发生一定的作用,例如, Dolby AC3 就提供了一些这样的功能。但是,播出所需要的最佳的动态范围却超过了 AC3 解码器的动态范围处理能力。 AC3 编码器的动态范围控制是可以接受衰减或者提升最多 6dB 的动态范围,但是为广播电视播出电影需要的动态范围处理要远远高于这个范围(见图 1 )。如果这么大的一个动态范围纠正的工作只留给 AC3 解码器来处理的话,那么全频带范围内增益的改变将可以被观众听到,特别是它发生在被控制之前(因为在信号控制时有时间间隔)。同样,电影和音乐的动态范围纠正需要多段处理的结构,这样就不会牺牲节目语言的可懂度,或者为音乐增加过多的频谱互调失真。图 4 总结了 3 种在 DTV 节目制作的素材接收、制作和传输的过程中,进行控制响度[在赛因网搜索更多结果>>]、动态范围和音频格式的不同方法。 图 4. 在数字播出中采用的 3 种响度[在赛因网搜索更多结果>>]控制、多声道制作和元数据的处理方式
图 4 中的第 1 张系统图,接收门( i1 )用于对导入的节目进行标准化处理,使它满足电视台 DTV 传输的可允许动态范围。数据精简过的节目被转换为线性的音频,动态范围也被重组。在接收的下一级处理过程中,不需要处理元数据,这一部分的处理可以被放弃。 5.1 声道的节目可以独立地进行制作或者可以通过立体声节目上转的方式进行 5.1 节目的制作。如果在转播车或者其他现场制作中,需要进行数据压缩的话,那么,这一部分的制作可以处理为独立的编码 / 解码的过程。传输门( T1 )担当了节目之间结合的实时响度[在赛因网搜索更多结果>>]纠正器,并且为 ATV (模拟电视)、播客( Podcasts )和网络广播 , 进行近一步的动态范围和节目格式的处理。 DTV 的传输数据压缩要根据各地区的标准,并且同时传输只有改变音频格式时才会被改变的元数据(例如从立体声上转为 5.1 )。今后, DTV 将会上转为 5.1 声道的播出(例如体育和游戏节目等)图 4 中第 2 张系统图,接收门( i2 )用来对导入的节目进行数据压缩,并且检测信号的元数据。采集的下一级处理为,元数据必须随时都可以提供并且进行保存,这就意味着在以后的处理过程中将不会再出现数模转换器和采样频率转换器。在制作工作室中,元数据已经被加载到所有的节目中去了。传输门( T2 )作为 ATV 和网络广播的动态范围转换器。当涉及到响度[在赛因网搜索更多结果>>]控制和语言可懂度的控制时, DTV 的传输就只依靠元数据了。电视台内部的路径分配完全基于经过压缩的音频。数据的编码和解码器用于导出和监听。在系统设计时,需要特别注意音频和视频信号的同步问题。图 4 中第 3 张系统图,接收门( i3 )用来将导入的单声道和立体声信号规范到 DTV 传输所需要的动态范围。 5.1 的素材在传输到服务器之前就进行了数据压缩。接收到 5.1 素材将会被加入元数据(如果它还没有元数据的话)。接收的下一级处理过程中,元数据只应用于 5.1 信号的传输中。制作过程与图 1 一样。传输门( T3 )与 T1 是一样的,除了一些 5.1 的节目,例如电影,可能采用原始动态元数据进行传输,同时传输门为 ATV 和网络广播进行适当的格式和动态范围的转变。 动态范围的转换 动态范围转换和响度[在赛因网搜索更多结果>>]控制的主要工作应该在后期制作或是在电视台内完成,只剩下一小部分需要纠正的部分留给听众。这样,就保证了高质量高可懂度的音频信号,并且可以避免要求 AC3 解码器进行超出它本身能力的电平[在赛因网搜索更多结果>>]调整。 5.1 格式的电影的动态范围在接收和传输中可以用图 5 中提出的方式,进行优化。 与图 1 的 DRT 表格相比,与 4 个侧方声道相比,中央声道在低电平[在赛因网搜索更多结果>>]的时候有一定的优势。这样就保证了即使在有噪声的房间里,对白也可以被听到。侧方声道可以被连锁成 2 个声道一组的方式,或者全部连锁到一个组中。这个特别注意语言可懂度的独特转换曲线,已经成功地应用于许多电视台中 
图 5. 5.1 电影转换为家庭听音环境时的多段式动态范围重组的实例。黑色曲线:中央声道,橙色曲线: L, R, Ls,Rs. 注意 ,电影混音设备通常在数据压缩之前采用同样的动态范围处理技术,这样可以优 化与传递空间信息和避免出现错误等因素相关的表现。例如,由于由于过高的电平[在赛因网搜索更多结果>>]造 成的失真和带给观众的听觉疲劳。
从制作的角度来看,防止在信号下行过程中发生失真非常重要。由 AES SC-02-01 推荐的过采样表头和控制已经被 ITU 在 BS.1770 中采用,这在数字音频环境中十分必要,因为在信号分配中可能会有很多数据压缩编解码器。 结论
这个指导提供了解决由于电平[在赛因网搜索更多结果>>]的跳跃,缺乏语言可懂度和造成听音者听觉疲劳的失真的处理方法。用于数字电视和广播电台响度[在赛因网搜索更多结果>>]控制的指导理论是在接收或者结合最终听音者的 DRT 的时候需要对导入的素材进行动态范围的调整,同时在后期制作中对素材进行校准。在电台 / 电视台内,最终的自动响度[在赛因网搜索更多结果>>]控制响度[在赛因网搜索更多结果>>]控制根据 HDTV , SDTV , Podcast ,手机电视等不同平台的要求在传输,以及节目变化间进行平衡。从对 CD 和电影制作中电平[在赛因网搜索更多结果>>]的失控的教训中我们学会了如何测量数字音频的电平[在赛因网搜索更多结果>>]。我们可以比那些无意识的样值计数和随意的 Leq 测量方法做的更好。一个有良好基础的,全球化的,适合于各种类型声音的响度[在赛因网搜索更多结果>>]标准 BS.1770 可以为数字广播的制作和传输提供更好的控制,同时可以实现自动化。基于 BS.1770 的响度[在赛因网搜索更多结果>>]和峰值测量技术将很快进入后期制作间,与经过响度[在赛因网搜索更多结果>>]校准的扬声器监听系统相结合,实现在制作间之间的节目交换等功能。以元数据为基础的动态范围调整并不遵循听音者的 DRT 或者电视台间音频素材的传递。无论如何,好的音频处理结果,在不增加电视台工作量的情况下,可以采用为 AC3 数据压缩提供补充处理的方法。需要特别注意的是接收门和传输门,在这两个地方可以采用新的响度[在赛因网搜索更多结果>>]控制和表头技术,单声道和立体声可以作为数字电视和其他播出模式采用所有制作模式中的支柱。当需要进行多声道传输,却不能得到分轨的 5.1 混音节目时,好的 5.1 声道节目的传输就要来源于立体声节目了。 |