语音身份识别及其在犯罪的运用中

王希胜律师 · 发表于 2012-4-13 12:46:31

语音是人类发音器官发出来的，具有一定意义，能起社会交际作用的声音。通过说话人的语音分析其身份是司法语音及声学检验的一种技术，为司法语音及声学的一个组成部分，其检验方法称为语音人身分析。它是利用方音、方言、语调、词汇、语法、习惯语、口头语等对未知说话人的语音进行人身状况分析，从而推断未知案犯的性别、年龄、生活地域、职业和文化程度等。
社会语言学指出，一种语言在具有社会共同性的同时，由于地域、社会阶层、团体和个人等社会语言环境的影响会形成地区方言及不同阶层、团体的社会个体方言。方言学是地域方言研究的专门学科，现代语言学中的方言，通常指的是地区方言，就是地方话，它是全民语言的地域性变体，是语言分化的结果。语音学的研究还表明，语音中的音高、共振峰频率与性别、年龄具有相关性。以上学科都为司法语音人身分析提供了坚实的理论基础和具体的检验途径。
一、检材语音中说话人身份识别
说话人身份识别在司法检验鉴定实践中，一般是通过提取说话人的语音，利用语音人身分析方法，从性别、年龄段、方言、职业和文化程度等几个方面进行分析判断。
（一）性别识别
1．听辨。每个人声带的宽窄、厚薄和长短都不一样，成年男子声带长而厚，声音低而厚；成年女子声带比男人略短略薄一些，声音较之高而尖。方音男重女轻，女性向标准音靠拢比男性快。女性善于表达感情，使用语气词、叹词的频率比男性高，如“好高兴”、“美极了”、“讨厌”。男性多用粗鄙词语。在句法上男性多用双重或多重否定句，如“不要怪我不客气”、“我无论如何不能不对你说”，女性少用或不用。另外，男性善于推理，多用复杂结构的长句，而女性多用短句。
2．视图并检测。汉语语音的音节一般是由声母、韵母和声调组成的，声母中清辅音是噪音，元音是乐音，它们都是复合音。组成复合音的各个纯音振幅不同，频率也不同，其中频率最低、振幅最大的叫基音，基音的频率称为基频。
元音是声带振动，经声道共鸣和唇辐射形成的。理想元音频谱是分离的线状谱，各谐波频率是基频（用Fo表示）的整数倍，频谱包络曲线上的各个峰，称为共振峰。共振峰一般有多个，按其频率（单位：Hz）数值由小到大，分别称为第一、第二、第三等共振峰，其分别用符号F1、F2、F3等来表示，共振峰值女比男高。
元音的共振峰频率与基频之间并没有相互依存的关系。基频由声带颤动的频率决定，共振峰频率取决于声腔的形状，两种频率的变化是彼此独立的。男子说话时基频一般在80—200HZ之问，而女子则可以高达400HZ。声调是由元音（浊音）的基频随时间变化形成的。一个音节的基频曲线即该音节的声调（tone）曲线，横坐标表示时间，纵坐标表示基频的数值，可利用光标进行测定。提取8一12秒的同一人说活声，语图上女性平均声调220HZ（170—290HZ），男性平均声调146HZ（90一190，其中150HZ以下占60一70％）。
（二）年龄段识别
1．听辨。人声音生理变化分三个阶段，分别为童年期、成年期和老年期。童年期孩子的声带短而薄，因此声音又高又尖，形成独特的稚脆童音；成年男子的喉腔比小时候增大一倍，声带也随之变厚变长，声音比原来降低约八度；女子的喉腔只比小时候增大三分之一，声带也比男人略短略薄一些，声音只比原来降低约三度；到了老年，声带和喉头的肌肉都变得相当松弛．无论男女，声音都要比成年时期更低一些。成年人由于器官发育成熟，受教育和生活经验影响，思维与记忆等都是人一生中的黄金时期，故其言语速率、节奏、语音清晰度、流畅度、响亮度和表达能力均为最佳状态，说话语速较快、有节奏感、吐字清楚且流畅、声音宏亮。
不同年龄的人言语习惯、言语内容不同。每个人都生活在一定的时间内，其言语习惯打下时间的烙印，表现出所处时代的语言特点。如文革时期的词语“红卫兵”、“忠字舞”、“臭老九”，改革开放以来的词语“两个文明”、“开发区”、“有限公司”。由于每个人年龄不同，经历的时代不同，意识观念的时代性决定了说话人意识观念的时代差别。年龄可以分为四个阶段：少年：十二至十八岁；青年：十八至三十五岁：中年：三十五至五十岁；老年：五十岁以上。说活内容的年龄特征主要表现为：
（1）少年思想不成熟，简单幼稚，内容不多，不涉及重大社会问题，崇拜各种“星”，常常索要钱物。（2）青年思想活跃，喜欢辩论，言语多涉及人生价值、民主科学、婚姻恋爱、理想、前途等问题，有时伴有粗鄙的漫骂。（3）中年思想、阅历丰富，内容涉及对重大社会（政治、经济、政策）问题和待遇（工资、职称、住房）的不满，往往有伪装。（4）老年思维定势，顺固守旧，不容易接受新事物，言语不是留恋过去，就是对现实重大问题的不满。
通过反复辨听，在排除生理性变嗓和病理性嗓音（如感冒嗓音发哑、咽喉部肿瘤、声带病变等等）外在情况下，结合其说话内容的年龄特征，判断说话人为三个阶段中的那一期。
2．视图并检测。不同年龄段发音器官的变化，其音高、音强、共振峰频率、说话的流畅度、节奏、抑扬顿挫、声渊模式在三维语图（宽带语图）、光标问功率谱、能量曲线图谱（韵律特征图）等语图上有所不同。
（三）方言识别
由于我国地域辽阔，历史悠久，曾有多次民族交汇、融合和迁徙，形成了一个庞大而复杂的汉语方言体系。现代汉语的代表是以北京语音为标准音、以北方话为基础方言、以典范的现代白话文著作为语法规范的普通话，是世界上使用人口最多的一种语言，方言最初是指地区差异形成的语言变体。汉语有七大方言以及许多次方言和众多的土语群。其中七大方言是：（1）北方方言（官话）：北京、济南、西安、太原、武汉、成都、合肥、扬州。使用地区和人口都约占汉语区和人口的70％左右。（2）吴方言：苏州、温州。（3）湘方言：长沙、双峰。（4）赣方言：南昌。（5）客家方言：梅县。（6）粤方言：广州、阳江。（7）闽方言：夏门、潮洲、福州、建瓯。
一般说来，方言之间的差异表现在语音、词汇和语法上，人们最容易感觉到的是语音和词汇。汉语方言的差异首先表现在语音，因为人们接触方言时首先感觉到的正是语音差异，至于词汇，如果是书面语，现代政治经济生活中的用语，确实差异不大，但在日常生活用语则差异甚大。如“我们认识后的第二天晨早……”，“晨早”即“早晨”，粤方言词。至于语法，从近几年的研究材料看，差异也不小，特别是最常用的虚词，各方言分歧很大。
方言语音即方音，其差别表现在字音（即音节）的差别，体现在声母、韵母、声调的差异上。北方方言由于韵母比较接近，辨听不会有很大困难，但南方的许多方言，声、韵、调差异很大。
语音研究的第一步，就是必须准确无误地、毫无遗漏地记录所有的语音现象；语音研究的第二步，就是归纳音位，即从全部语音现象中把具有“区别性特征”的音位罗列出来，全面地、系统地加以描写。对送来的检材录音通过反复辨听．找出关递点（带口音的字和词），用国际音标标写字音的声母和韵母，用五度标凋法标记调值，用四声分阴阳的方法标记调类。然后对照《汉语方音字汇》或《汉语方言词汇》字母表去查找相应的方言。同时在语图上观察各方言的特点，如北京话的儿化韵在宽带语图的F3向下斜。最后根据七种方言的言语和语音特点。通过反复辨听进行综合判断是其中的那一种。
（四）职业识别
俗语说“三句话不离本行”，“卖什么吆喝什么”。在言语交谈中，必然不同程度地反映出与职业有关联的各种言语信息。这就为识别说话人的职业提供了根据。每个人都处存一个特定的职业集团中．受语言职业变体的制约，必然表现出他所在职业的语言特点——行活（行业语）、术语、隐语。如行话：如工业用语：加工、模具、产值等；术语：如数学术语：方程、积分、几何、负数等；隐语：如黄货（黄金）、雷子（警察）、天窗（上衣兜）。
（五）文化程度的识别
文化水平与职业有一定的联系。在判断说话人职业时，应综合看二者是否一致，通过反复辨听找出与职业有关联的各种言语信息，推断其可能从事的职业。文化程度通常从语言特征即语言要素和语言手段判断。（1）词语特征：如用词是否准确、鲜明、生动、丰富、成语和典故的运用、连词的运用、科技术语的运用、方言词的多少等等。（2）语法特征：如病句（词语搭配、语序、句子是否完整通顺）、句式（变化、多样还是单一）、文言句法。（3）修辞特征：是否使语言表达更准确、鲜明、生动、有力，文化程度高运用多种修辞方式。
通过反复辨听，了解其运用语言的能力、运用文字的能力和言语内容，综合分析从而推断其文化水平。
二、聘请专家会检
我国幅员辽阔、民族众多，方言口音千差万别，而对方言知识的研究甚微，听辨方言能力的局限，在语音人身识别检验中遇疑难、复杂或产生重大分歧意见时，通常须聘请语音学、方言学或语言学方面的专家参加“会检”。浙江、海南曾经办理的两起涉嫌受贿案件，要求做语音同一认定，送检人均为本省人，但对送检的录音里的方言还是不能完全听懂，无法准确录制语音样本（进行语音同一认定需相同语句或词汇比对检测分析），鉴定没法进行。在聘请方言学专家会检后，听辨为浙江省台州话和海南三亚活，同时对检材录音的内容给予翻译，从而使该类语音同一认定的检验鉴定顺利完成。
三、语音身份识别在犯罪侦查中的应用
语音人身识别技术在刑事犯罪中可以确定侦查方向和缩小嫌疑人范围，尤其在绑架、敲诈勒索、诈骗、恐吓和骚扰、慌报火警等刑事及治安案件中得到有效的运用。通过对说话人语音的听辨、视谱和检测，分析说活人的性别、年龄范围、在何处生活、职业以及文化程度等可以相对便捷地确定犯罪嫌疑人。如2007年北方某市医院院长连续几天接到匿名恐吓电话，威胁其近期做事要小心点，否则其孩子会有交通事故。因对此声音不熟悉和害怕，该院长对电话进行了录音，并在报案时提交了录音材料。接案后按照上述办法对恐吓说话人进行了语音身份识别：（1）性别及年龄段识别；通过对该说话人反复听辨、视谱和检测．发现此说话人声调较高（186Hz一234Hz），符合成年女性平均声调范围（170—290HZ）；（2）方言识别；该说话人讲普通话，其中部分音节（“当时”、“均分”、“就花了”、“后阶段”）的声母、韵母和声调符合天津方吉发音特点；（3）职业识别：电话中出现“活检病理”、“检验登记本”、“病理检验”、“医院”等词语。经过分析认为：录音中打恐吓电话的说话人为成年女性；说普通话带有天津口音（天津人的可能性大）；反映出有医疗机构从事化验类工作的语言特点。最后侦查部门结合受害人提供的具备以上条件的人员，发现有一个曾经在该医院工作过，现做药品生意40多岁的女性李某，一年前其曾给医院推销某某药。李某过去是本院职工，与业务科室的医务人员较熟并给了相关人员一些好处，但在医院院务会讨论进药时该院院长反对用该药。于是发生了上述案情。
又如1996年的北方某市发生的绑架勒索案告破，也是通过对说话人的语音身份分析，识别其身份而确立了侦查方向，缩小了嫌疑人的范围，最终通过说话人语音同一认定找出了嫌疑人。
作者：王宁敏最高人民检察院检察技术信息研究中心
来源：《人民检察》2009年第8期（总第548期）

账号		自动登录	找回密码
密码			注册