Basic Concepts and Frameworks

学习目标：
 语音识别入门
学习内容：
1.对语音识别的概念理解
2.语音合成
3.语音感知
4.现代语音识别

学习时间：
2020.6.24

学习产出：
1.语音识别概念理解
语音识别的范畴：
1.语音转为文本
2.让机器听清楚内容
3.解决同音词误听
4.解决“共性”问题：多人说话，每个人都能识别
不属于语音识别范畴的常见误区：
1.声纹识别：辨别说话人
2.语言情感识别与信息分析
3.语言理解

评估指标分两大类：accuracy，efficiency
Accuracy：
·音素错误率 (Phone Error Rate)
• 词错误率 (Word Error Rate, WER)
• 字错误率 (Character Error Rate, CER)
• 句错误率 (Sentence Error Rate, SER)
Efficiency：
·删除错误（deletion）：误删了重要词句
·替换错误（substitution）：将原词句替换为其他词句
·插入错误（insertion）：将词语的位置放入错位，或者插入额外的词语
Error rate=100（S+D+I）/words*
即，错误率是三种错误的数量综合除以文本总词数
注：错误率可能会超过100%

2.语音生成
• Speech Production: 大脑->神经肌肉命令->发音器官运动（气流从肺部到发音器官，口鼻发出）
https://img-blog.csdnimg.cn/bb4e1c5de0294aa0ba4789ac34f3dd22.png

• Source-Filter Model: 发音是由信号源(声门)，经过滤波器(口腔、鼻腔、 嘴型等)产生
• 浊音(Voiced sound): 声带振动引起，声音波形具有明显周期 性，声带震动的频率称为基音频率或基频(fundamental frequency, F0)，人们可以感受 到稳定的音高存在。
• 清音(Unvoiced sound): 声带不震动，波形类似白噪，人们无 法感受到稳定的音高存在
简单说，清浊音的区别在于声带是否震动。

音素（Phonemes）
一种语言中语音的“最小”单元(primitive sounds)
词/语素（morpheme）：一种语言中最小的具有语义的结构单元
扩展：
·Phone: 音素在声学上的实现
• Allophone（同位异音）: 音素的声学实现收到上下文影响，一个音素的不同实现
如：p in Spin 和 Pin； t in Bat 和 Batter；A in bat 和 bad
• IPA：国际音标，统一一套体系标注不同语种的音素（帮助区别同音映射）
·语音合成有G to P，即词素转音素

共振峰（formant）
在声音的频谱中能量相对集中的一些区域(语谱峰值)
特点：
1.音质的决定因素，反应了反映了声道(共振腔)的物理特征。
2.腔体起到滤波作用，会给声音强化/衰减的效果
3.能量分布不均导致了强化部分会像山峰，即共振峰
4.第一个和第二个共振峰是区分不同元音的重要条件

语音抄本（Phonetic Transcription）
一段语音对应的音素列表（带或不带时间边界，时间信息由人工标注或者自动对齐获得），服务于语音识别声学建模。
https://img-blog.csdnimg.cn/a817acc8728c4ddf86a8f8a705a62ea8.png
可以人工分割也可机器分割。

3.语音感知
物理量与听觉的关系映射
https://img-blog.csdnimg.cn/6f5a10b60de84933a08b2466771e04cb.png

新概念：声压级，响度，等响度曲线
声压级(Sound pressure level, SPL)， 单位：dB = 20 log10 P/P0(P0 为TOH)
因为用的是分贝的转换量，所以说是一个与响度有关的单位。

响度(loudness):
• 人主观感觉不同频率成分声音强弱的物理量，单位为方(phone)
• 人耳对不同频率声音的响应不是平坦的
• 闻阈:人耳刚好能听见声音时响度(下限)
• 痛阈:声音使人耳疼痛时的响度(上限)

衍生概念：等响度曲线(Equal loudness curves）
即下图的蓝线，在同一条蓝线上，人主观觉得这些声音大小相同，而最高和最低则是闻阈和痛阈
其中横轴为频率，纵轴为声压级
https://img-blog.csdnimg.cn/91762932255c43f4a989bc5314b95b69.png


音色
·由声音波形的谐波频谱和包络决定。
• 声音波形的基频所产生的听得最清楚的音称为基音，各次谐波的微小振动所产生的声音称泛音。
• 单一频率的音称为纯音，具有谐波的音称为复音。
• 每个基音都有固有的频率和不同响度的泛音，借此可以区别其它具有相同响度和音调的声音。
• 声音波形各次谐波的比例和随时间的衰减大小决定了各种声源的音色特征，其包络是每个周期波峰间的连线，包络的陡缓影响声音强度的瞬态特性。

音调
人耳对于频率的感知是非线性的，近似对数函数
• 主观上感觉音调的单位是美（Mel）标度
• 一个高于听阈40dB、频率为1kHz的纯音所产生的的音调定位1000Mel，如果一个纯音听起来比1000Mel的声音音调高出一倍，则其音调为2000Mel。
• 音调和频率之间的近似关系: Tmel = 2595log10(1+f/7000)
这个公式里mel是音高的计量单位

掩蔽效应
• 定义：一种心理声学现象，是由人耳对声音频率分辨机制决定的。是指一个较强声音的附近，相对较弱的声音不易被人耳察觉，即被强音所掩蔽。Auditory masking occurs when the perception of one sound is affected by the presence of another sound (Gelfand 2004).
• 同时掩蔽(频率掩蔽):一个强纯音会掩蔽其附近频率同时发声的弱纯音
• 异时掩蔽(时域掩蔽):在时间上 相邻的声音之间也有掩蔽现象
• 掩蔽阈值是时间、频率和声压级的 函数
简单说就是相当于提高了闻阈，比如红线部分

https://img-blog.csdnimg.cn/1f5e959bbba745a8b00b2dcf17150007.png