北京话语音学感知实验两项

语音学及实验语音学两门课的期末实验。研究了北京话 j - zh 声母和 an - ang 韵母的感知问题。

一些术语

比如 jiǎng，j 是声母，iang 是韵母，上声/三声是声调。韵母又可以分为介音（i），韵腹（a），韵尾（ang）。

每一个音之间是连续变化的，连续段本文称作“音渡”。

为篇幅考虑，~~扔掉了一大堆没人会看的前人研究、实验设计、对照组之类的东西~~。

j - zh 实验

通常情况下，认为普通话的声母 j（音位 /tɕ/) 的实际音值是 [tɕ]（龈腭清塞擦音, voiceless alveolo-palatal affricate），zh（音位 /tʂ/）的实际音值是 [tʂ]（卷舌清塞擦音, voiceless retroflex affricate）。但北京话（北京话不等于普通话）的卷舌音实际上不太卷，实际音值接近 [tʃ]（没错，就是英语那个 check 的音，龈后清塞擦音, voiceless postalveolar affricate）。

方言学老师称，北京话的 j 和 zh 音值一样，根据介音 i 的有无，才被听成不同声母。这显然不怎么合理，但介音 i 究竟对声母的听辨有什么影响呢？

样本

合成语音采用拼接语音的方法。原始录音为 jia（[tɕia]）和 zhïa（[tʃʅa]）的朗读，声母（和介音）拖了长音，方便后面调整音长。zhïa 是什么？zh 声母拖长音，会变成 zhi 一样的音，所以写作 zhia 了。为了区分这个 i 和 jia 的 i，我们在这个 i 上面加两个点，变成了 zhïa。

（A 组是检验录音中 a 的一致性的，扔掉了）

B 组考察前音渡（声母-介音）的影响。一般认为，两个音直接的过渡段对前后两个音的听辨都有很大的影响。分别用 j、zh 声母和四种音长（0ms, 25ms, 50ms, 75ms）的 zh-ï, j-i 音渡组合（也就是对调），再拼上等长的韵腹，得到 8 个样本。

C 组考察介音对声母的影响。把音渡切掉，j zh 声母分别和 i ï 组合，音长取 12.5ms, 25ms, 50ms, ..., 125ms，最后拼上等长韵腹，得到 24 个样本。

拼接的时长如下图：

exp-group

结果

横轴表示样本，纵轴表示被试。红色表示两次实验均选错，蓝色表示均选对，灰色表示一次选对一次选错。~~因为我统计学得太差了，样本量又太小，实际假设检验的时候把错一次和错两次一并处理了~~。检验水平均取 0.05。图里用的是国际音标：j: [tɕ], zh: [tʃ], i: [i], ï: [ʅ], a: [a]。

exp-heatmap-B

这是 B 组的结果，zh 组随着不相配的音渡音长增加，识别率下降，j 组反而上升，但卡方检验表示影响不显著。

此外，在没有音渡的情况下，大家基本上把 j 都听成 zh 了。

exp-heatmap-C

这是 C 组的结果。

首先考虑介音音长的影响。j 两组介音音长越长，显著地越准确，而 zh 两组统计上则没有明显的相关性，zhi 一组看起来似乎有些相关，zhï 一组基本上不相关。

其次考虑介音音色的影响。在同一声母条件下，取介音音长相同，介音分别为 i 和 ï 的两组用 Fisher 精确检验进行检验。结果是 j 一组没有显著差异，而 zh 一组直观上看有差异，但统计上不显著（样本量太少了，~~好想对数据进行一个优化~~😤）……猜想样本量提高以后，zh 组的差异应该是显著的。

最后观察介音相同条件下声母的感知。在介音等音长音色相同的情况下，取声母不同的六对样本，用 Fisher 检验，发现介音音长 25ms 或 50ms 时介音的音色对声母没有统计学上显著的影响。也就是说，北京话母语者在其他条件均相同的情况下可以区分出 j 和 zh 两个声母，那么 j 和 zh 也就不可能音值不同了。

直观上看，j 组介音音长越长，越准确，zh 组介音越短越准确；j 组介音音色对听辨没有明显影响，zh 组似乎有影响。

结论

是不是老北京看起来对 j-zh 的辨认没有影响，虽然老北京的舌头是真的打卷儿rrr，不是龈后的 [tʃ]。

北京话母语者无法仅通过声母判断声母的音值。因为 B-0 组所有被试基本上都把 ja 听成了 zha。介音在 j 声母判断中是必要的，甚至从 B 组来看，不匹配的音渡（配上 zh 到 ï 的音渡）也能提高判断准确度。

北京话母语者同样无法仅通过介音判断声母的音值。若仅通过介音可以判断声母音值，则存在介音且介音相同的情况下，应当混淆两个声母。但 C 组 25ms 和 50ms 下，介音音色相同，仍能区分出声母。~~另外所有被试基本上都问我为什么要在 zha 中间插一个 i 呢，所以这个实验不用做结果都很显然吧~~。

此外，介音对 j 和 zh 的影响不同。j 后插入无论 i 还是 ï，准确度提升都差不多，且随着介音变长，清晰度提升，准确度也上升。但介音的音色对 zh 的听辨还是有影响的，插入 i 介音以后（也就是 zhia [tʃia]，类似吱呀的东西），容易听成 jia，且介音 i 增长，准确度下降也不明显，维持在低位。

基本上，北京话母语者对 j 和 zh 声母的感知和当前的音系分析是一致的，在 j 后面会期望有一个介音出现，而在 zh 后面会期望没有介音出现。只要不符合这种期望，听辨就更容易出错（这结论也太显然了吧，怪不得老师觉得我这个研究做得一头雾水）。

另外，既然北京话母语者有区分 j 和 zh 的能力，“音色听感上有差异”这个说法应该可以坐实了，这支持音系上即使没有结构主义式的对立，也划为不同的音位的处理。

an - ang 实验

北京话母语者可以区分前后鼻音，~~高傲已经尽数体现了~~。但在做听辨练习时，我发现我分辨不清其他汉语方言里的鼻音韵尾是前还是后😭。北京话韵母 an（音位 /an/）和 ang（音位 /aŋ/）实际上不止鼻音韵尾部分不同，韵腹也不同，前鼻音前的 a 偏前，后鼻音前的 a 偏后，分别记作 [a] 和 [ɑ]。

那么，北京话母语者究竟是通过元音韵腹，还是辅音韵尾本身来区分前后鼻音的呢？

样本

合成语音直接采用参数合成的办法，直接在提取的声带音上叠加一些无限冲激响应滤波器（IIR）增大频谱中的一些频率（制造共振峰，共振峰决定了元音和鼻辅音的音色）：

y_{i} p q = {0, x_{i} - p_{i - 2} y_{i - 1} - q y_{i - 2}, i < 3 i \geq 3, i = 1, 2, \dots = - 2 e^{- πb f^{- 1}} cos (2 π f^{- 1} σ) = e^{- 2 πb f^{- 1}}

其中 $x$ 是输入， $y$ 是输出， $p, q$ 是系数； $b$ 是带宽，取 100 Hz； $f$ 是采样频率，取 10000 Hz。 $σ$ 是根据韵腹、韵尾的共振峰值经广义逻辑斯蒂函数（generalised logistic function，一种 S 型曲线）运算得到的频率向量，单位为 Hz，用于模拟韵腹韵尾之间的音征（也就是过渡段）。

广义逻辑斯蒂函数可以表示为：

$σ (x) = A + \frac{K - A}{( 1 + Q e ^{- B (x - M)} ) ^{1/ ν}}$

滤波进行五次，即最终画出五条音征，~~参数是摸索出来的经验值，就不详细展开说了~~。左图是真实录音的三位频谱图，右图是合成出来的，还算比较像。

实验组设置四个。A 组模拟正常的发音，取 [a] 和 [ɑ] 两个音的长度为 5 的连续统（直接通过共振峰值线性插值），分别与 [n] 和 [ŋ] 两个韵腹组合，得到 10 个样本。

B 组模拟音渡变短，韵腹变长的情况，取 [a] [ɑ]，[n] [ŋ] 以及韵尾 5 种音长的组合，得到 20 个样本。

C 组的韵腹和 B 组差不多长，但音渡大幅缩短，韵尾长度保持和 A 组相近，同样取 [a] 和 [ɑ] 两个音的长度为 5 的连续统分别与 [n] 和 [ŋ] 两个韵腹组合，得到 10 个样本。

D 组也是用比较长的韵腹，而韵尾段被切掉，保留音渡（由于音渡在，也能勉强听出来有鼻音），但同时把音渡的渐近线切掉。搭配 [an] [aŋ] [ɑn] [ɑŋ] 四个音节，得到 4 个样本。

各组韵腹、音渡、韵尾的音长关系，可以参考以下广义逻辑斯蒂函数图像：

phon-group

结果

phon-heatmap-A

A 组，横轴从左到右韵腹音色从 [a] 过渡到 [ɑ]，仍然是用卡方检验，发现在模拟正常发音的情况下，韵腹音色对听辨没有影响。

phon-heatmap-B

B 组，横轴从左至右韵尾音长递减，[an] [ɑŋ] 两组基本听辨正确，[aŋ] 一组基本正确，[ɑn] 一组在韵尾音长较短时，听辨出现困难，卡方检验证明这种差异是显著的。

按韵尾音长音色对齐，用 Fisher 精确检验检验韵腹音色的影响，验证了 [ɑn] 仅在韵尾音长较短时听辨效果比较差。

phon-heatmap-C

（横轴编号错了，emm 懒得改了）

C 组，横轴从左到右韵腹音色从 [a] 过渡到 [ɑ]，直观上看 C 组比 A 组韵腹加长，后音渡缩短，准确率似乎下降了，但用 Fisher 检验发现并不显著。C 组内部，对比不同韵尾发现，[n] 组听辨似乎比 [ŋ] 要差，但统计上还是不显著🤬。

韵腹音色对听辨没有显著影响，这一点倒符合预期。

phon-heatmap-D

D 组，[an] 与 [ɑn]，[ɑŋ] 与 [aŋ] 之间似存在明显的听辨正确率差异，但 Fisher 检验仅表明后者是显著的，前者边缘不显著🤬……

B-4 组和 D 组基本上只是音征渐近线有无的区别，B-4 组比 D 组准确率要好，因此该渐近线在感知中还是有一定作用的。

结论

在正常语音片段中（A 组），即音渡段完整且较长的情况下，鼻音韵尾前后的感知可以认为与韵腹无关。在音渡段稍短的情况下（B 组），感知则表现出受韵腹和韵尾干扰的特征。这侧面验证了音渡实际上在感知中是优先的（笑死，所有教科书都是这么写的）。

但音渡如果压缩了，就不一定了。

就 B 组结果来看，[n] 和 [ŋ] 两个部位在感知中并非对等，而是遵循着不同的感知规律。在韵腹韵尾搭配不自然的音节，也就是靠前的韵腹配后鼻音的 [aŋ]，和靠后的韵腹配前鼻音 [ɑn]，前者随着韵尾变短准确率几乎不变，而后者则准确率下降。所以推测，在 B 组的音渡长度下，已经没有办法根据音渡判断出 [n] 了（会倾向于选后鼻音 [ŋ]），必须结合韵尾本身判断。而韵尾较长时（B-0、B-1、B-2），正常的 [an] 和异常的 [ɑn] 准确率都不错，而韵尾变短时（B-3、B-4），正常的 [an] 准确率仍然不错，异常的 [ɑn] 准确率下降，说明当韵尾短到一定程度以后，韵腹的音色才会作为参考标准，用于判断韵尾的前后。

就 C 组结果来看，音渡比 A 组短得多，而韵尾长度差不多，[n] 组的听辨比 A 组稍差（不很显著），而 [ŋ] 组基本没有差异，也能说明 [n] 更依赖清晰的音渡。而 [n] 一组相比 B-3、B-4 组，韵腹音色对准确率没有影响，说明在 C 组的韵尾音长下，仍能通过直接听韵尾感知韵尾的前后，不需要参考韵腹。

就 D 组结果来看，由于音渡被破坏（但没有完全破坏，所以能感觉到似乎有一个模糊的鼻音，其实没有），也不存在鼻音韵尾，因此只能通过韵腹的音色判断，[ŋ] 的异常组合 [aŋ] 的准确率也变低了，而在前几组中则没有明显的变化。

就此提出一种北京话中鼻音韵尾可能的感知机制：

若存在足够清晰且完整的音渡，则音渡作为判断鼻音韵尾发音部位的最可靠且最优先的依据。
前鼻音 [n] 比后鼻音 [ŋ] 依赖更清晰的音渡进行判断。不同发音部位（也就是前后）的鼻音的判断机制不同，据 Recasens(1983) 说加泰罗尼亚语也是这样。
若音渡不足以判断鼻音的发音部位（前后），则先通过韵尾本身判断，若仍不能，则通过韵腹的音色推断。

考虑到语流是连续的，连续段作为人为划定的一小块离散单位的首要参考标准，好像也能理解。

一些暴论：济南、西安、昆明、南京、苏州都是前鼻音不同程度地脱落、演变为鼻化或者后鼻音，而后鼻音则基本稳定（可能演变为鼻化）。前鼻音这种“似乎没有后鼻音稳定”的表现，也许和感知机制上的差异有关系🤔？

参考文献

BibTeX 和正文一样长，~~还是省略了吧~~。