语音学及实验语音学两门课的期末实验。研究了北京话 j - zh 声母和 an - ang 韵母的感知问题。
一些术语
比如 jiǎng,j 是声母,iang 是韵母,上声/三声是声调。韵母又可以分为介音(i),韵腹(a),韵尾(ang)。
每一个音之间是连续变化的,连续段本文称作“音渡”。
为篇幅考虑,扔掉了一大堆没人会看的前人研究、实验设计、对照组之类的东西。
j - zh 实验
通常情况下,认为普通话的声母 j(音位 /tɕ/) 的实际音值是 [tɕ](龈腭清塞擦音, voiceless alveolo-palatal affricate),zh(音位 /tʂ/)的实际音值是 [tʂ](卷舌清塞擦音, voiceless retroflex affricate)。但北京话(北京话不 等于普通话)的卷舌音实际上不太卷,实际音值接近 [tʃ](没错,就是英语那个 check 的音,龈后清塞擦音, voiceless postalveolar affricate)。
方言学老师称,北京话的 j 和 zh 音值一样,根据介音 i 的有无,才被听成不同声母。这显然不怎么合理,但介音 i 究竟对声母的听辨有什么影响呢?
样本
合成语音采用拼接语音的方法。原始录音为 jia([tɕia]) 和 zhïa([tʃʅa])的朗读,声母(和介音)拖了长音,方便后面调整音长。zhïa 是什么?zh 声母拖长音,会变成 zhi 一样的音,所以写作 zhia 了。为了区分这个 i 和 jia 的 i,我们在这个 i 上面加两个点,变成了 zhïa。
(A 组是检验录音中 a 的一致性的,扔掉了)
B 组考察前音渡(声母-介音)的影响。一般认为,两个音直接的过渡段对前后两个音的听辨都有很大的影响。分别用 j、zh 声母和四种音长(0ms, 25ms, 50ms, 75ms)的 zh-ï, j-i 音渡组合(也就是对调),再拼上等长的韵腹,得到 8 个样本。
C 组考察介音对声母的影响。把音渡切掉,j zh 声母分别和 i ï 组合,音长取 12.5ms, 25ms, 50ms, ..., 125ms,最后拼上等长韵腹,得到 24 个样本。
拼接的时长如下图:
结果
横轴表示样本,纵轴表示被试。红色表示两次实验均选错,蓝色表示均选对,灰色表示一次选对一次选错。因为我统计学得太差了,样本量又太小,实际假设检验的时候把错一次和错两次一并处理了。检验水平均取 0.05。图里用的是国际音标:j: [tɕ], zh: [tʃ], i: [i], ï: [ʅ], a: [a]。
这是 B 组的结果,zh 组随着不相配的音渡音长增加,识别率下降,j 组反而上升,但卡方检验表示影响不显著。
此外,在没有音渡的情况下,大家基本上把 j 都听成 zh 了。
这是 C 组的结果。
首先考虑介音音长的影响。j 两组介音音长越长,显著地越准确,而 zh 两组统计上则没有明显的相关性,zhi 一组看起来似乎有些相关,zhï 一组基本上不相关。
其次考虑介音音色的影响。在同一声母条件下,取介音音长相同,介音分别为 i 和 ï 的两组用 Fisher 精确检验进行检验。结果是 j 一组没有显著差异,而 zh 一组直观上看有差异,但统计上不显著(样本量太少了,好想对数据进行一个优化😤)……猜想样本量提高以后,zh 组的差异应该是显著的。
最后观察介音相同条件下声母的感知。在介音等音长音色相同的情况下,取声母不同的六对样本,用 Fisher 检验,发现介音音长 25ms 或 50ms 时介音的音色对声母没有统计学上显著的影响。也就是说,北京话母语者在其他条件均相同的情况下可以区分出 j 和 zh 两个声母,那么 j 和 zh 也就不可能音值不同了。
直观上看,j 组介音音长越长,越准确,zh 组介音越短越准确;j 组介音音色对听辨没有明显影响,zh 组似乎有影响。
结论
是不是老北京看起来对 j-zh 的辨认没有影响,虽然老北京的舌头是真的打卷儿rrr,不是龈后的 [tʃ]。
北京话母语者无法仅通过声母判断声母的音值。因为 B-0 组所有被试基本上都把 ja 听成了 zha。介音在 j 声母判断中是必要的,甚至从 B 组来看,不匹配的音渡(配上 zh 到 ï 的音渡)也能提高判断准确度。
北京话母语者同样无法仅通过介音判断声母的音值。若仅通过介音可以判断声母音值,则存在介音且介音相同的情况下,应当混淆两个声母。但 C 组 25ms 和 50ms 下,介音音色相同,仍能区分出声母。另外所有被试基本上都问我为什么要在 zha 中间插一个 i 呢,所以这个实验不用做结果都很显然吧。
此外,介音对 j 和 zh 的影响不同。j 后插入无论 i 还是 ï,准确度提升都差不多,且随着介音变长,清晰度提升,准确度也上升。但介音的音色对 zh 的听辨还是有影响的,插入 i 介音以后(也就是 zhia [tʃia],类似吱呀的东西),容易听成 jia,且介音 i 增长,准确度下降也不明显,维持在低位。
基本上,北京话母语者对 j 和 zh 声母的感知和当前的音系分析是一致的,在 j 后面会期望有一个介音出现,而在 zh 后面会期望没有介音出现。只要不符合这种期望,听辨就更容易出错(这结论也太显然了吧,怪不得老师觉得我这个研究做得一头雾水)。
另外,既然北京话母语者有区分 j 和 zh 的能力,“音色听感上有差异”这个说法应该可以坐实了,这支持音系上即使没有结构主义式的对立,也划为不同的音位的处理。
an - ang 实验
北京话母语者可以区分前后鼻音,高傲已经尽数体现了。但在做听辨练习时,我发现我分辨不清其他汉语方言里的鼻音韵尾是前还是后😭。北京话韵母 an(音位 /an/)和 ang(音位 /aŋ/)实际上不止鼻音韵尾部分不同,韵腹也不同,前鼻音前的 a 偏前,后鼻音前的 a 偏后,分别记作 [a] 和 [ɑ]。
那么,北京话母语者究竟是通过元音韵腹,还是辅音韵尾本身来区分前后鼻音的呢?
样本
合成语音直接采用参数合成的办法,直接在提取的声带音上叠加一些无限冲激响应滤波器(IIR)增大频谱中的一些频率(制造共振峰,共振峰决定了元音和鼻辅音的音色):
其中 是输入, 是输出, 是系数; 是带宽,取 100 Hz; 是采样频率,取 10000 Hz。 是根据韵腹、韵尾的共振峰值经广义逻辑斯蒂函数(generalised logistic function,一种 S 型曲线)运算得到的频率向量,单位为 Hz,用于模拟韵腹韵尾之间的音征(也就是过渡段)。
广义逻辑斯蒂函数可以表示为:
滤波进行五次,即最终画出五条音征,参数是摸索出来的经验值,就不详细展开说了。左图是真实录音的三位频谱图,右图是合成出来的,还算比较像。
实验组设置四个。A 组模拟正常的发音,取 [a] 和 [ɑ] 两个音的长度为 5 的连续统(直接通过共振峰值线性插值),分别与 [n] 和 [ŋ] 两个韵腹组合,得到 10 个样本。
B 组模拟音渡变短,韵腹变长的情况,取 [a] [ɑ],[n] [ŋ] 以及韵尾 5 种音长的组合,得到 20 个样本。
C 组的韵腹和 B 组差不多长,但音渡大幅缩短,韵尾长度保持和 A 组相近,同样取 [a] 和 [ɑ] 两个音的长度为 5 的连续统分别与 [n] 和 [ŋ] 两个韵腹组合,得到 10 个样本。
D 组也是用比较长的韵腹,而韵尾段被切掉,保留音渡(由于音渡在,也能勉强听出来有鼻音),但同时把音渡的渐近线切掉。搭配 [an] [aŋ] [ɑn] [ɑŋ] 四个音节,得到 4 个样本。
各组韵腹、音渡、韵尾的音长关系,可以参考以下广义逻辑斯蒂函数图像:
结果
A 组,横轴从左到右韵腹音色从 [a] 过渡到 [ɑ],仍然是用卡方检验,发现在模拟正常发音的情况下,韵腹音色对听辨没有影响。
B 组,横轴从左至右韵尾音长递减,[an] [ɑŋ] 两组基本听辨正确,[aŋ] 一组基本正确,[ɑn] 一组在韵尾音长较短时,听辨出现困难,卡方检验证明这种差异是显著的。
按韵尾音长音色对齐,用 Fisher 精确检验检验韵腹音色的影响,验证了 [ɑn] 仅在韵尾音长较短时听辨效果比较差。
(横轴编号错了,emm 懒得改了)
C 组,横轴从左到右韵腹音色从 [a] 过渡到 [ɑ],直观上看 C 组比 A 组韵腹加长,后音渡缩短,准确率似乎下降了,但用 Fisher 检验发现并不显著。C 组内部,对比不同韵尾发现,[n] 组听辨似乎比 [ŋ] 要差,但统计上还是不显著🤬。
韵腹音色对听辨没有显著影响,这一点倒符合预期。
D 组,[an] 与 [ɑn],[ɑŋ] 与 [aŋ] 之间似存在明显的听辨正确率差异,但 Fisher 检验仅表明后者是显著的,前者边缘不显著🤬……
B-4 组和 D 组基本上只是音征渐近线有无的区别,B-4 组比 D 组准确率要好,因此该渐近线在感知中还是有一定作用的。
结论
在正常语音片段中(A 组),即音渡段完整且较长的情况下,鼻音韵尾前后的感知可以认为与韵腹无关。在音渡段稍短的情况下(B 组),感知则表现出受韵腹和韵尾干扰的特征。这侧面验证了音渡实际上在感知中是优先的(笑死,所有教科书都是这么写的)。
但音渡如果压缩了,就不一定了。
就 B 组结果来看,[n] 和 [ŋ] 两个部位在感知中并非对等,而是遵循着不同的感知规律。在韵腹韵尾搭配不自然的音节,也就是靠前的韵腹配后鼻音的 [aŋ],和靠后的韵腹配前鼻音 [ɑn],前者随着韵尾变短准确率几乎不变,而后者则准确率下降。所以推测,在 B 组的音渡长度下,已经没有办法根据音渡判断出 [n] 了(会倾向于选后鼻音 [ŋ]),必须结合韵尾本身判断。而韵尾较长时(B-0、B-1、B-2),正常的 [an] 和异常的 [ɑn] 准确率都不错,而韵尾变短时(B-3、B-4),正常的 [an] 准确率仍然不错,异常的 [ɑn] 准确率下降,说明当韵尾短到一定程度以后,韵腹的音色才会作为参考标准,用于判断韵尾的前后。
就 C 组结果来看,音渡比 A 组短得多,而韵尾长度差不多,[n] 组的听辨比 A 组稍差(不很显著),而 [ŋ] 组基本没有差异,也能说明 [n] 更依赖清晰的音渡。而 [n] 一组相比 B-3、B-4 组,韵腹音色对准确率没有影响,说明在 C 组的韵尾音长下,仍能通过直接听韵尾感知韵尾的前后,不需要参考韵腹。
就 D 组结果来看,由于音渡被破坏(但没有完全破坏,所以能感觉到似乎有一个模糊的鼻音,其实没有),也不存在鼻音韵尾,因此只能通过韵腹的音色判断,[ŋ] 的异常组合 [aŋ] 的准确率也变低了,而在前几组中则没有明显的变化。
就此提出一种北京话中鼻音韵尾可能的感知机制:
- 若存在足够清晰且完整的音渡,则音渡作为判断鼻音韵尾发音部位的最可靠且最优先的依据。
- 前鼻音 [n] 比后鼻音 [ŋ] 依赖更清晰的音渡进行判断。不同发音部位(也就是前后)的鼻音的判断机制不同,据 Recasens(1983) 说加泰罗尼亚语也是这样。
- 若音渡不足以判断鼻音的发音部位(前后),则先通过韵尾本身判断,若仍不能,则通过韵腹的音色推断。
考虑到语流是连续的,连续段作为人为划定的一小块离散单位的首要参考标准,好像也能理解。
一些暴论:济南、西安、昆明、南京、苏州都是前鼻音不同程度地脱落、演变为鼻化或者后鼻音,而后鼻音则基本稳定(可能演变为鼻化)。前鼻音这种“似乎没有后鼻音稳定”的表现,也许和感知机制上的差异有关系🤔?
参考文献
BibTeX 和正文一样长,还是省略了吧。