02 声音的本质 The Nature of Sound(第3页)
共振是室内声学领域的一个主要研究问题,也是大多数乐器的基础。如果乐器的一端是开放的(比如风琴管),开口的一端就是腹点,其基频的波长会是相同长度的封闭管波长的两倍(实际上波腹在管道的末端之外形成,需要进行末端校正,请参见框7)。
通常,最低共振频率是最强的。然而,如果给一个乐器提供大量的能量,它可能会产生一个八度共振,甚至更高到两个八度。例如,如果吹得足够用力(“超吹”),长笛就可以做到这一点。
共振在我们的生活中随处可见。当你敲击盘子、杯子或叉子的时候它们会发出声响,只要你别把它们握得太紧,否则声音会被抑制住(音叉在紧紧握住的时候仍然可以产生共鸣,是因为音叉有两个相同的尖头叉子且移动方向相反,这样共鸣就在把手处相互抵消,因而没有在把手那里产生振动)。利用共振,我们可以检查陶器是否有裂纹。如果没有裂纹,陶器材料中每一毫米的运动都会紧随相邻毫米的移动,让波通过,就像墨西哥人浪[6]一样,这表明陶器确实是完好无损的。但是,即使是一个非常细小的裂纹也会将相邻区域分开,此处的拖曵和摩擦也会抑制共振,产生反常的“叮当声”。
如果一个力以与该物体的共振频率相同的频率作用在物体上,耦合的效应就会非常明显,因此吉他弦会呼应房间另一端的拨弦声发出声音,或者电视机的一些部件伴随着节目声音突然发出恼人的嗡嗡声。
在声学的几个领域中,一个重要的效应是亥姆霍兹谐振(Helmholtzresonance),任何听过吹瓶口时产生的音调的人都很熟悉这种效应。只要是有开口的空心物体或腔体都可以作为亥姆霍兹谐振器(见框8)。如果一股气流从开口上吹过,一些空气会进入腔体,增大腔内的压力。压力又把空气推出去,就像钟摆一样,让这个空气“过度冲出去”,留下一个轻微的低压环境,这样就会吸入更多的空气,循环往复。这种有规律的循环包含了共振频率的声波。如果把这个频率的声波供给谐振器,它就会发出非常强的声音。
绘制声音
驻波是声波的一个小子集,大多数情况下,波中的高压区和低压区在空间中运动(这种波被称为前进波或行波)。如果你想“看到”行波,就必须记录气压随时间的变化。亚历山大·格雷厄姆·贝尔是第一个尝试这种方法的人。1874年,他设法从一具尸体上弄来一只耳朵,给它涂上油以保持其柔软,并在鼓膜上绑上一根细稻草。稻草的另一端可以在一块带着煤灰的玻璃上画一条线,这样一来,当有人对着这个耳朵大喊大叫时,玻璃就会随之移动。这条摇摆不定的线是声波的第一次记录,这个装置被称为人耳记音器。为了减轻那些需要制作这种装置的人的负担,后来的版本不再使用死人的耳朵,取而代之的是金属振动膜。
然而,记音器对于声波的实际测量并没有什么用处。实际的测量最终由在20世纪30年代开发的阴极射线示波器(cathoderayoscilloscope,CRO)实现。CRO可以设置不同的时基,这样高频的声音就可以在屏幕上传播,而低频的声音则被压缩,于是就可以看到它们的波形,由此可以读出它们的波长并确定它们的频率。
今天,CRO在计算机上被广泛使用。然而,二维图仍然只能显示声音的一些特征。大多数声波的频谱和压力变化都很快,只有在一种叫作声谱图的三维示意图上才能正确地同时显示出来。这种声谱图需要依靠计算机才能生成。在声谱图中,屏幕上方的高度通常代表频率,亮度或颜色代表声压(或强度)。在其他情况下,可以在屏幕上显示三维形状,结果通常类似山脉(见图11)。
图11 声谱图
解码声音
能够看到声音,意味着人们可以对很多与它相关的信息进行定性,也可以对显示结果进行粗略的测量,但是很多时候我们还需要声音的精确定量信息(例如为了消除噪声或改进乐器的设计)。为此,我们需要进行数学分析,这是最广泛和最基本的分析方法之一,是基于约瑟夫·傅里叶(JosephFourier)在19世纪所做的工作而产生的。
傅里叶意识到任何周期函数(以稳定速率重复的函数)都可以通过将一系列正弦波(现在称为傅里叶级数)加在一起来构造,他还想出了一种方法来确定这个级数的元素(项)是什么。从数学上讲,傅里叶级数是由一系列正弦和余弦组成的——考虑到余弦只是一个从最大值而不是从0开始的正弦波,所以我在这里只提到了正弦波。如图12所示,三个正弦波就可以近似一个方波。为了使后者的侧边更垂直,必须添加更高频率的音调。方波听起来像咔嚓声,傅里叶分析表明,突然(声级快速增加)的咔嚓声会包含一些非常高频的成分。
图12 用正弦波求和来近似一个方波
傅里叶的原始工作只适用于周期波,但它进一步发展为一种被称为傅里叶变换的方法,可以用来处理非周期波。快速傅里叶变换(fastFouriertransform,FFT)是一种计算信号正弦波分量的高效数学方法。当加入这样的波时,人们就必须考虑它们的相位。在一个波长内,声波的声压从零(与周围空气压力相等)上升到最大值,然后下降到最小值,然后又上升到零。这类似旋转的轮子边缘某一点的垂直运动轨迹,因而相位可以用角度的方式来描述,即从0°开始上升到最高相位的90°,再落回水平位置180°,接着降至最低位置270°,最后回到360°(与0°是一样的)。
所有真实的声音都会随着时间的推移而改变,所以转换成正弦波的过程必须频繁地重复。这种对声音的时变频率分析有许多应用。例如,组成一个人声音的声波的某些参数对那个人来说是独一无二的,因此,这些参数可以作为“声学指纹”(即声纹),并可以由机器进行自动语音识别。
相反,由于每个单词都有独特的发音(除了同音异义词,比如“sew”和“so”),无论由谁来说这个单词,理论上机器都可以自动识别出来。虽然不同的人有发声差异,但某些特定的因素只是略有不同,或者是可以预测的。这也是为什么(在一定条件下)不管说话者是谁,我们都能够识别一个单词的含意。
然而,自动语音识别离完美还有很长一段路要走,主要的问题在于判断一个单词的结尾和下一个单词的开始位置。这个问题很难,试着听自己说“面包和黄油”,你听到的可能是像“brembudder”这样的词[7],没有任何的停顿。人类之所以能够如此容易地识别单词,是因为我们听到的声音模式只是所说内容的表征之一,正如第4章将要解释的那样。
合成声音
由于任何声音都可以被拆分成正弦波,因此任何声音都可以从正弦波合成而来。从声音中生成语音的合成器已经问世多年,而且效果比识别器要好得多。然而,在实践中,通过将预先录制或预先生成的声音片段组合到一起来生成语音通常要容易得多,这是一种被称为语音编码的技术。
目前的电子系统几乎可以合成任何声音,不管它是否原本就存在于自然界中。比如怪异的谢泼德音调(Shepardtone),它是由逐渐降调又渐出的音调组合而成,其间会有更高的音调渐入,然后也开始下降,给人的印象是声音不断下降却又不会下降。然而,通常人们并不需要新的声音,而是需要现有声音的改进版本,例如一场没有噪声的音乐表演。在20世纪60年代,对流行音乐制作人来说最著名的电子产品就是电子琴,其加载的预录元素是流行音乐常用的非语言声音。这种乐器上加载的库中有录制在磁带上的小段声音,演奏者可以迅速用他们想要的频率和音量来播放任何片段。
选择声音:滤波器
最常见又最简单的修改声音的方法是过滤,即使用电子电路或软件删除或减少选定的频率范围。高通滤波器去除低频,低通滤波器处理高频,带通滤波器则同时去除低频和高频。曾经有一种很常见的可变滤波器是图形均衡器,它是高保真音响放大器上的一系列滑块(约七个),可以抑制选定的预置频率范围。简单的“音调”控制同样可以使高(高音)或低(低音)频率变得安静。
各式各样的其他功能也出现在电脑声音艺术家或工程师的工具箱中。例如,有些软件可以添加混响或回声,创造一个人造声景,或在用扬声器播放之前,用这种实时变化的频率改变之前预录的流行歌曲的声音。这是卡拉OK系统的基础,在卡拉OK系统中,歌曲的音调可以被升调或降调,以匹配用户认为最容易唱的方式。
[1] 牛顿摆(on'sCradle)是一种由5个紧贴的同样质量和大小的金属小球构成的玩具,当拉起一端的小球使其摆动撞击其他4个时,另一端的小球将会继续摆动,而中间的3个小球保持不动。
[2] 原文为decreasewithiemperature,疑有误。
[3] 当两个人贴墙站立时,即使一个人只是对着回廊壁窃窃私语,走廊另一端与他遥远相隔的人也可以清楚地听到。
[4] 这里Bel与物理学家贝尔(Bell)的名字谐音且拼写方式相近,故有致敬的含义。
[5] 原文为24厘米,疑有误。例如波长16厘米的声波,不能由文中的长杆生成,但其节点间距可达24厘米。
[6] 球迷在看台上有序地举手站起再坐下。
[7] 这里由于连读现象使得原来三个词的短语“Breadandbutter”听起来像一个词。在汉语中类似的例子有“这样子”,由于连读听起来像“酱紫”。