说话人日志生成方法、装置、计算机设备及可读存储介质与流程-ag尊龙凯时

文档序号:29949870发布日期:2022-05-07 17:46来源:国知局


1.本发明涉及语音检测领域,具体而言,涉及一种说话人日志生成方法、装置、计算机设备及可读存储介质。


背景技术:

2.说话人日志是语音检测领域中的一个常见任务,与语音识别任务的判断

when says what’不同,说话人日志任务需要判断

who says when’。说话人日志将一段语音信号中的多个说话人的说话片段进行区分,它的精度是很多语音检测领域的任务是否能够成功进行的前提。例如单通道的客服/客户录音质检任务,首先需要识别出客服的语音片段,然后对语音片段的内容进行识别,最后再进行违规判断。现有的说话人日志生成技术是直接对基于语音信号生成的相似度矩阵进行聚类来获取说话人标签,再利用说话人标签对语音信号进行分割,得到相应的说话人日志,受背景噪音以及“未知说话人数量”情况的影响,通过聚类得到的说话人标签的准确度较差,进而影响说话人日志的精度。


技术实现要素:

3.为了克服现有技术的不足,本发明实施例提供了一种说话人日志生成方法、装置、计算机设备及可读存储介质,具体方案如下:
4.第一方面,本发明实施例提供了一种说明人日志生成方法,所述方法包括:
5.获取语音信号对应的相似度矩阵;
6.根据第一预设参数和所述相似度矩阵,确定目标聚类矩阵和说话人数量,其中,所述目标聚类矩阵由所述相似度矩阵经锐化处理得到,所述第一预设参数约束锐化处理的过程,在所述第一预设参数的约束下得到的所述目标聚类矩阵满足预设聚类条件;
7.根据所述说话人数量对所述目标聚类矩阵进行聚类,得到说话人标签;
8.根据所述说话人标签对所述语音信号进行分割,生成说话人日志。
9.在一种可能的实现方式中,所述获取语音信号对应的相似度矩阵的步骤包括:
10.将所述语音信号划分为多个语音片段;
11.将每一所述语音片段输入声纹检测模型,得到每一所述语音片段对应的说话人特征向量;
12.根据所有所述说话人特征向量,得到所述语言信号对应的相似度矩阵。
13.在一种可能的实现方式中,所述根据所有所述说话人特征向量,得到所述语言信号对应的相似度矩阵的步骤包括:
14.计算每一所述说话人特征向量与其他所述说话人特征向量之间的相似性系数;
15.根据所有所述相似性系数,得到所述语言信号对应的相似度矩阵。
16.在一种可能的实现方式中,所述根据第一预设参数和所述相似度矩阵,确定目标聚类矩阵和说话人数量的步骤包括:
17.利用多个第二预设参数分别约束所述相似度矩阵的锐化处理过程,得到多个待定
聚类矩阵,所述第二预设参数由所述相似度矩阵的维度确定;
18.根据经二值化和对称化处理后的每一所述待定聚类矩阵对应的拉普拉斯矩阵的特征值,从多个所述待定聚类矩阵中确定目标聚类矩阵,并将所述目标聚类矩阵对应的第二预设参数作为所述第一预设参数;
19.根据经二值化和对称化处理后的所述目标聚类矩阵对应的拉普拉斯矩阵的特征值,确定所述说话人数量。
20.在一种可能的实现方式中,所述根据经二值化和对称化处理后的每一所述待定聚类矩阵对应的拉普拉斯矩阵的特征值,从所有所述待定聚类矩阵中确定目标聚类矩阵的步骤包括:
21.针对每一所述待定聚类矩阵,对由其确定的特征值进行差分处理,得到该待定聚类矩阵对应的最大特征值差值,所述最大特征值差值表征该待定聚类矩阵的聚类容易度;
22.根据每一所述待定聚类矩阵对应的第二预设参数和最大特征值差值,从多个所述待定聚类矩阵中确定目标聚类矩阵。
23.在一种可能的实现方式中,所述根据每一所述待定聚类矩阵对应的第二预设参数和最大特征值差值,从多个所述待定聚类矩阵中确定目标聚类矩阵的步骤包括:
24.针对每一所述待定聚类矩阵,计算其对应的所述第二预设参数与所述最大特征值差值的比值;
25.将具有最小比值的所述待定聚类矩阵作为所述目标聚类矩阵。
26.在一种可能的实现方式中,所述根据所述说话人标签对所述语音信号进行分割,生成说话人日志的步骤包括:
27.根据所述说话人标签训练说话人识别模型;
28.将所述语音信号输入所述说话人识别模型,得到所述说话人日志。
29.第二方面,本发明实施例提供了一种说明人日志生成装置,所述装置包括:
30.获取模块,用于获取语音信号对应的相似度矩阵;
31.确定模块,根据第一预设参数和所述相似度矩阵,确定目标聚类矩阵和说话人数量,其中,所述目标聚类矩阵由所述相似度矩阵经锐化处理得到,所述第一预设参数约束锐化处理的过程,在所述第一预设参数的约束下得到的所述目标聚类矩阵满足预设聚类条件;
32.聚类模块,用于根据所述说话人数量对所述目标聚类矩阵进行聚类,得到说话人标签;
33.生成模块,用于根据所述说话人标签对所述语音信号进行分割,生成说话人日志。
34.第三方面,本发明实施例提供了一种计算机设备,该计算机设备包括:存储器和处理器,所述存储器用于存储计算机程序;所述处理器用于在调用所述计算机程序时执行如第一方面所述的说话人日志生成方法。
35.第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的说话人日志生成方法。
36.相较于现有技术,本发明实施例提供的一种说话人日志生成方法、装置、计算机设备及可读存储介质,首先,获取语音信号对应的相似度矩阵;然后,根据第一预设参数和相似度矩阵,确定目标聚类矩阵和说话人数量,其中,目标聚类矩阵由相似度矩阵经锐化处理
得到,第一预设参数约束锐化处理的过程,在第一预设参数的约束下得到的目标聚类矩阵满足预设聚类条件;接着,根据说话人数量对目标聚类矩阵进行聚类,得到说话人标签;最后,根据说话人标签对语音信号进行分割,生成说话人日志。由于本发明实施例利用第一预设参数对相似度矩阵的锐化处理过程进行约束,得到满足预设聚类条件的目标聚类矩阵,再对目标聚类矩阵进行聚类,从而避免了背景噪音以及“未知说话人数量”的情况影响聚类得到的说话人标签的准确度,进而提高了说话人日志的精度。
附图说明
37.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
38.图1为本发明实施例提供的一种说话人日志实例示意图;
39.图2为本发明实施例提供的一种说话人日志生成方法的流程示意图;
40.图3为本发明实施例提供的一种获取语音信号对应的相似度矩阵的方法的流程示意图;
41.图4为本发明实施例提供的另一种获取语音信号对应的相似度矩阵的方法的流程示意图;
42.图5为本发明实施例提供的一种确定目标聚类矩阵和说话人数量的方法的流程示意图;
43.图6为本发明实施例提供的另一种确定目标聚类矩阵和说话人数量的方法的流程示意图;
44.图7为本发明实施例提供的一种基于说话人标签生成说话人日志的方法的流程示意图;
45.图8为本发明实施例提供的一种说话人日志生成装置的方框示意图;
46.图9为本发明实施例提供的一种计算机设备的结构示意框图。
47.图标:200-说话人日志生成装置;201-获取模块;202-确定模块;203-聚类模块;204-生成模块;300-计算机设备;310-存储器;320-处理器。
具体实施方式
48.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
49.因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
50.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一
个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
51.此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
52.需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
53.说话人日志(speaker diarization)也叫说话人分离,声纹分割聚类,如图1所示,它是从一个连续的多人说话的语音信号中检测出不同说话人发言的起止时间点,切分出各说话人的片段,解决“谁在什么时候说话”(who says when)的问题。基于说话人日志可以完成对音频数据流的结构化管理,具有广泛的应用价值。
54.在一种可能的实现方式中,说话人日志生成技术是直接对基于语音信号生成的相似度矩阵进行聚类来获取说话人标签,再利用说话人标签对语音信号进行分割,得到相应的说话人日志。由于语音信号存在背景噪音,以及未知说话人数量的情况,相似度矩阵的聚类效果较差,聚类得到的说话人标签的准确度不高,进而影响了说话人日志的精度。
55.有鉴于此,本发明实施例提供了一种说话人日志生成方法、装置、计算机设备及可读存储介质,以避免背景噪音以及“未知说话人数量”的情况影响聚类得到的说话人标签的准确度,进而提高了说话人日志的精度,下面将对其进行详细描述。
56.请参照图2,图2为本发明实施例提供的一种说话人日志生成方法的流程示意图,本发明实施例描述的说话人日志生成方法包括步骤s101至s104。
57.s101,获取语音信号对应的相似度矩阵。
58.在本发明实施例中,语音信号可以是从记录多个说话人在进行交替发言的发言内容的音频数据(例如,电话会议的录音等)中提取的,一般是将音频数据输入语音检测模型(voice activity detection,vad),将vad模型的所有输出进行拼接,得到语音信号,其中,vad模型能够对音频数据进行语音活动检测,将音频数据逐帧分为有人说话语音和无人说话语音两个类别,无人说话语音包括但不限于纯静音、环境音、音乐等,语音信号属于有人说话语音。
59.可以将语音信号看作由多个语音片段组成,语音信号对应的相似度矩阵中的任一元素的值则表征两个语音片段来自同一说话人的可能性,理想情况下,当两个语音片段来自同一说话人时,相似度矩阵中对应元素的值为1,当两个语音片段不是来自同一说话人时,相似度矩阵中对应元素的值为0,但由于背景噪音的存在,相似度矩阵中元素的值分布在(0,1)区间内。
60.s102,根据第一预设参数和相似度矩阵,确定目标聚类矩阵和说话人数量。
61.其中,目标聚类矩阵由相似度矩阵经锐化处理得到,第一预设参数约束锐化处理的过程,在第一预设参数的约束下得到的目标聚类矩阵满足预设聚类条件。
62.在本发明实施例中,锐化处理相似度矩阵是指将矩阵中若干元素的值保留,其余元素的值设置为0,实现方式可以是将相似度矩阵的每行元素中较大的若干个元素的值保留,其余元素的值设置为0,可以理解地,锐化处理相似度矩阵的结果不是唯一的,例如,对相似度矩阵进行锐化处理,可以得到
三种结果,它们分别对应“每行元素中较大的1个元素的值保留,其余元素的值设值为0”、“每行元素中较大的2个元素的值保留,其余元素的值设值为0”以及“每行元素中较大的3个元素的值保留,其余元素的值设值为0”。
63.由于锐化处理后的相似度矩阵中部分元素的值为0,可以直接根据这些值为0的元素获知不来自同一说话人的语音片段,即锐化处理相似度矩阵的过程可以视作去除背景噪音干扰的过程,但不同的锐化处理结果对应的聚类精度和聚类容易度不同,表现为相似度矩阵的每行元素中值被保留的元素越少,值被设置为0的元素越多,对应的聚类数越大,由于聚类数与聚类精度成正比,与聚类容易度成反比,需要将能同时保证聚类精度和聚类容易度的锐化处理结果作为目标聚类矩阵。
64.第一预设参数是指目标聚类矩阵的每行元素中值被保留的元素的个数,利用第一预设参数对锐化处理相似度矩阵的过程进行约束,得到目标聚类矩阵,再基于目标聚类矩阵确定说话人数量。
65.s103,根据说话人数量对目标聚类矩阵进行聚类,得到说话人标签。
66.在本发明实施例中,可以选用k-means聚类算法来对目标聚类矩阵的进行聚类,并且在使用k-means聚类算法时,根据说话人数量选取初始聚类中心点,经多次迭代,将来自不同说话人的语音片段归类至对应的说话人,并标记对应的说话人身份,得到说话人标签,即根据语音片段的说话人标签,可获知该语音片段对应的说话人。
67.s104,根据说话人标签对语音信号进行分割,生成说话人日志。
68.在本发明实施例中,执行步骤s101至s103相当于对语音信息进行了一次分割,但分割结果在分割线附近可能存在歧义,需要根据第一次分割的结果对语音信号进行更精细化的切分,根据说话人标签从语音信号中获取训练样本数据,再利用基于训练样本数据得到的模型对语音信号进行二次分割,得到歧义更小的分割结果来作为说话人日志。
69.上述本发明实施例提供的方法,其有益效果在于,利用第一预设参数对相似度矩阵的锐化处理过程进行约束,得到满足预设聚类条件的目标聚类矩阵,再对目标聚类矩阵进行聚类,从而避免了背景噪音影响聚类得到的说话人标签的准确度,进而提高了说话人日志的精度。
70.基于图2,本发明实施例提供了一种获取语音信号对应的相似度矩阵的具体实现方式,请参照图3,图3为本发明实施例提供的一种获取语音信号对应的相似度矩阵的方法的流程示意图,步骤s101包括子步骤s101-1至s101-3。
71.s101-1,将语音信号划分为多个语音片段。
72.在本发明实施例中,可以按照固定的分割时长将语音信号进行分割,得到多个语音片段,并且语音片段间存在重叠部分,例如,分割时长可以为1.5秒,即每个语音片段的长度为1.5秒,相邻两语音片段的重叠部分为0.5s。
73.s101-2,将每一语音片段输入声纹检测模型,得到每一语音片段对应的说话人特征向量。
74.在本发明实施例中,不同说话人的声音可以在声纹图谱上基于声音的物理属性
(如音质、音长、音强和音高等)呈现不同的声纹特征,说话人特征向量是指可以表征说话人声音的声纹特征的向量。
75.声纹检测模型可以是指用于提取语音片段中说话人特征向量的模型,具体地,可以包括但不限于i-vector模型和x-vector模型。
76.s101-3,根据所有说话人特征向量,得到语言信号对应的相似度矩阵。
77.在本发明实施例中,通过量化各语音片段对应的说话人特征向量所表征的声纹特征的相似程度,得到相似度矩阵中各元素的值,例如一语音信号被划分为语音片段1、语音片段2和语音片段3,其中,量化语音片段1与语音片段3对应的说话人特征向量所表征的声纹特征的相似程度,量化值为0.6,则相似度矩阵中第一行第三列的元素的值为0.6,即语音片段1和语音片段3有60%的可能性来自同一说话人。
78.基于图3,本发明实施例提供了一种根据说话人特征向量确定语言信号对应的相似度矩阵的具体实现方式,请参照图4,图4为本发明实施例提供的另一种获取语音信号对应的相似度矩阵的方法的流程示意图,子步骤s101-3包括子步骤s101-3-1至s101-3-2。
79.s101-3-1,计算每一说话人特征向量与其他说话人特征向量之间的相似性系数。
80.在本发明实施例中,可以通过计算每一说话人特征向量与其他说话人特征向量之间的相似性系数来量化各说话人特征向量所表征的声纹特征的相似程度,其中,相似度系数的计算方法包括线性概率判断分析法(probabilistic linear discriminant analysis,plda)和余弦距离法。
81.s101-3-2,根据所有相似性系数,得到语言信号对应的相似度矩阵。
82.在本发明实施例中,相似度矩阵为一n阶矩阵,维度n由语音片段的数量决定,例如一语音信号被划分为语音片段1、语音片段2和语音片段3,则该语音信号对应的相似度矩阵为一3阶矩阵,其中,第一行第二列元素的值为语音片段1对应的说话人特征向量与语音片段2对应的说话人特征向量的相似度系数,第二行第三列元素的值语音片段2对应的说话人特征向量与语音片段2对应的说话人特征向量的相似度系数。
83.基于图2,本发明实施例提供了一种确定目标聚类矩阵和说话人数量的具体实现方式,请参照图5,图5为本发明实施例提供的一种确定目标聚类矩阵和说话人数量的方法的流程示意图,步骤s102包括子步骤s102-1至s102-3。
84.s102-1,利用多个第二预设参数分别约束相似度矩阵的锐化处理过程,得到多个待定聚类矩阵,第二预设参数由相似度矩阵的维度确定。
85.在本发明实施例中,第二预设参数是指锐化处理相似度矩阵时,矩阵每行元素中值被保留的元素的个数,根据相似度矩阵的维度,可以确定有多少个第二预设参数,并且第二预设参数是大于1,小于相似度矩阵的维度。例如,相似度矩阵为一5阶矩阵,即维度为5,则第二预设参数为2、3和4,分别利用不同的第二预设参数约束锐化处理相似度矩阵的过程,得到多个待定聚类矩阵,不同的待定聚类矩阵中值被保留和值为0的元素不同,对应的聚类精度和聚类容易度也不同。
86.s102-2,根据经二值化和对称化处理后的每一待定聚类矩阵对应的拉普拉斯矩阵的特征值,从多个待定聚类矩阵中确定目标聚类矩阵,并将目标聚类矩阵对应的第二预设参数作为第一预设参数。
87.在本发明实施例中,需要从多个待定聚类矩阵中选取能同时保证聚类精度和聚类
容易度的待定聚类矩阵作为目标聚类矩阵,可以通过求取经二值化和对称化处理后的每一待定聚类矩阵对应的拉普拉斯矩阵的特征值,来判断该待定聚类矩阵的聚类精度和聚类容易度,例如,由相似度矩阵经锐化处理得到的一个待定聚类矩阵为对该待定聚类矩阵进行二值化和对称化处理,得到的结果为该结果对应的拉普拉斯矩阵为再根据该拉普拉斯矩阵的三个特征值-1、-0.36和1.36判断该待定聚类矩阵的聚类精度和聚类容易度,遍历相似度矩阵对应的所有的待定聚类矩阵,确定每一待定聚类矩阵的聚类精度和聚类容易度,并且将被选为目标聚类矩阵的待定聚类矩阵对应的第二预设参数作为所述第一预设参数。
88.s102-3,根据经二值化和对称化处理后的目标聚类矩阵对应的拉普拉斯矩阵的特征值,确定说话人数量。
89.在本发明实施例中,由于在使用k-means聚类方法获取说话人标签时,需要根据说话人数量来选取初始聚类中心点,若“说话人数量“未知,可以通过求取经二值化和对称化处理后的目标聚类矩阵对应的拉普拉斯矩阵的特征值,来确定说话人数量,具体地,可以根据特征值间的最大差值来实现,例如,目标聚类矩阵为由目标聚类矩阵经二值化和对称化处理后的结果对应的拉普拉斯矩阵确定的特征值由小到大排列为(-1,-0.36,1.36),将它们归一化处理后作差值,得到的结果为(0.47,1.26),可知特征值间的最大差值为1.26,它是第二特征值和第三特征值之间的差值,所以可以确定说话人数量为2。
90.基于图5,本发明实施例提供了一种从多个待定聚类矩阵中确定目标聚类矩阵的具体实现方式,请参照图6,图6为本发明实施例提供的另一种确定目标聚类矩阵和说话人数量的方法的流程示意图,子步骤s102-2包括子步骤s102-2-1至s102-2-2。
91.s102-2-1,针对每一待定聚类矩阵,对由其确定的特征值进行差分处理,得到该待定聚类矩阵对应的最大特征值差值,最大特征值差值表征该待定聚类矩阵的聚类容易度。
92.在本发明实施例中,最大特征值差值是指经二值化和对称化处理后的待定聚类矩阵对应的拉普拉斯矩阵的特征值间的最大差值,最大特征值差值的值与待定聚类矩阵的聚类容易度成正比,待定聚类矩阵的聚类容易度越大。
93.s102-2-2,根据每一待定聚类矩阵对应的第二预设参数和最大特征值差值,从多个待定聚类矩阵中确定目标聚类矩阵。
94.在本发明实施例中,由于锐化处理相似度矩阵时,相似度矩阵的每行元素中值被保留的元素越少,值被设置为0的元素越多,对应的聚类数越大,而聚类数与聚类精度成正比,可以理解地,第二预设参数与待定聚类矩阵的聚类精度成反比,可以根据每一待定聚类矩阵对应的第二预设参数和最大特征值差值,来确定出能同时保证聚类精度和聚类容易度的待定聚类矩阵作为目标聚类矩阵。
95.具体地,子步骤s102-2-2的实现过程如下:
96.首先,针对每一待定聚类矩阵,计算其对应的第二预设参数与最大特征值差值的比值。
97.然后,将具有最小比值的待定聚类矩阵作为目标聚类矩阵。
98.在本发明实施例中,由于第二预设参数与待定聚类矩阵的聚类精度成反比,最大特征值差值与聚类容易度成正比,而待定聚类矩阵的聚类效果受聚类精度和聚类容易度的影响,可以将第二预设参数作为分子,最大特征值差值作为分母,计算第二预设参数与最大特征值差值的比值来作为评价待定聚类矩阵的聚类效果的指标,指标值越小代表聚类效果越好,因此,将聚类效果最好(即具有最小指标值)的待定聚类矩阵作为目标聚类矩阵,例如,根据相似度矩阵的维度确定的第二预设参数的取值为2和3,当第二预设参数为2时,对应的待定聚类矩阵的最大特征值差值为1.26,第二预设参数与最大特征值差值的比值为1.58,当第二预设参数为3时,对应的待定聚类矩阵的最大特征值差值为1.5,第二预设参数与最大特征值差值的比值为2,由于1.58小于2,所以可以将第二预设参数为2时对应的待定聚类矩阵作为目标聚类矩阵。
99.基于图2,本发明实施例提供了一种根据说话人标签对语音信号进行分割以生成说话人日志的具体实现方式,请参照图7,图7为本发明实施例提供的一种基于说话人标签生成说话人日志的方法的流程示意图,步骤s104包括子步骤s104-1至s104-2。
100.s104-1,根据说话人标签训练说话人识别模型。
101.在本发明实施例中,可以根据说话人标签从语音信号中获取训练样本数据,一般是按较子步骤s101-1中更小的分割时长从语音信号中提取若干个语音片段,并确定各语音片段的说话人标签,从而得到训练样本数据,再将训练样本数据输入深度学习网络进行训练,得到说话人识别模型。
102.s104-2,将语音信号输入说话人识别模型,得到说话人日志。
103.在本发明实施例中,通过说话人识别模型对语音信号进行二次分割,得到说话人日志。
104.为了执行上述实施例及各个可能的实施方式中的相应步骤,下面给出一种说话人日志生成装置200的实现方式。请参照图8,图8示出了本发明实施例提供的说话人日志生成装置200的方框示意图。需要说明的是,本发明实施例提供的说话人日志生成装置200,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本发明实施例部分未提及指出。
105.说话人日志生成装置200包括获取模块201、确定模块202、聚类模块203以及生成模块204。
106.获取模块201,用于获取语音信号对应的相似度矩阵。
107.确定模块202,根据第一预设参数和相似度矩阵,确定目标聚类矩阵和说话人数量,其中,目标聚类矩阵由相似度矩阵经锐化处理得到,第一预设参数约束锐化处理的过
程,在第一预设参数的约束下得到的目标聚类矩阵满足预设聚类条件。
108.聚类模块203,用于根据说话人数量对目标聚类矩阵进行聚类,得到说话人标签。
109.生成模块204,用于根据说话人标签对语音信号进行分割,生成说话人日志。
110.作为一种实现方式,获取模块201具体用于将语音信号划分为多个语音片段;将每一语音片段输入声纹检测模型,得到每一语音片段对应的说话人特征向量;根据所有说话人特征向量,得到语言信号对应的相似度矩阵。
111.作为一种实现方式,获取模块201在用于根据所有说话人特征向量,得到语言信号对应的相似度矩阵时,还具体用于计算每一说话人特征向量与其他说话人特征向量之间的相似性系数;根据所有相似性系数,得到语言信号对应的相似度矩阵。
112.作为一种实现方式,确定模块202具体用于利用多个第二预设参数分别约束相似度矩阵的锐化处理过程,得到多个待定聚类矩阵,第二预设参数由相似度矩阵的维度确定;根据经二值化和对称化处理后的每一待定聚类矩阵对应的拉普拉斯矩阵的特征值,从多个待定聚类矩阵中确定目标聚类矩阵,并将目标聚类矩阵对应的第二预设参数作为第一预设参数;根据经二值化和对称化处理后的目标聚类矩阵对应的拉普拉斯矩阵的特征值,确定说话人数量。
113.作为一种实现方式,确定模块202在用于根据经二值化和对称化处理后的每一待定聚类矩阵对应的拉普拉斯矩阵的特征值,从多个待定聚类矩阵中确定目标聚类矩阵时,还具体用于针对每一待定聚类矩阵,对由其确定的特征值进行差分处理,得到该待定聚类矩阵对应的最大特征值差值,最大特征值差值表征该待定聚类矩阵的聚类容易度;根据每一待定聚类矩阵对应的第二预设参数和最大特征值差值,从多个待定聚类矩阵中确定目标聚类矩阵。
114.作为一种实现方式,确定模块202在用于根据每一待定聚类矩阵对应的第二预设参数和最大特征值差值,从多个待定聚类矩阵中确定目标聚类矩阵时,还具体用于针对每一待定聚类矩阵,计算其对应的第二预设参数与最大特征值差值的比值;将具有最小比值的待定聚类矩阵作为目标聚类矩阵。
115.作为一种实现方式,生成模块204具体用于根据说话人标签训练说话人识别模型;将语音信号输入说话人识别模型,得到说话人日志。
116.进一步地,请参照图9,图9为本发明实施例提供的一种计算机设备300的结构示意框图,该计算机设备300可以包括存储器310和处理器320。
117.其中,处理器320可以是一个通用的中央处理器(central processing unit,cpu),微处理器,特定应用集成电路(application-specific integrated circuit,asic),或一个或多个用于控制上述方法实施例提供的说话人日志生成方法的程序执行的集成电路。
118.存储器310可以是rom或可存储静态信息和指令的其它类型的静态存储设备,ram或者可存储信息和指令的其它类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmabler-only memory,eeprom)、只读光盘(compactdisc read-only memory,cd-rom)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质,但不限于
此。存储器310可以是独立存在,通过通信总线与处理器320相连接。存储器310也可以和处理器320集成在一起。其中,存储器310用于存储执行本技术方案的机器可执行指令。处理器320用于执行存储器310中存储的机器可执行指令,以实现前述的方法实施例。
119.由于本发明实施例提供的计算机设备300是前述的方法实施例提供的说话人日志生成方法的另一种实现形式,因此其所能获得的技术效果可参考上述方法实施例,在此不再赘述。
120.本发明实施例还提供一种包含计算机可执行指令的可读存储介质,计算机可执行指令在被执行时可以用于执行前述的方法实施例提供的说话人日志生成方法中的相关操作。
121.综上,本发明实施例提供的一种说话人日志生成方法、装置、计算机设备及可读存储介质,首先,获取语音信号对应的相似度矩阵;然后,根据第一预设参数和相似度矩阵,确定目标聚类矩阵和说话人数量,其中,目标聚类矩阵由相似度矩阵经锐化处理得到,第一预设参数约束锐化处理的过程,在第一预设参数的约束下得到的目标聚类矩阵满足预设聚类条件;接着,根据说话人数量对目标聚类矩阵进行聚类,得到说话人标签;最后,根据说话人标签对语音信号进行分割,生成说话人日志。由于本发明实施例利用第一预设参数对相似度矩阵的锐化处理过程进行约束,得到满足预设聚类条件的目标聚类矩阵,再对目标聚类矩阵进行聚类,从而避免了背景噪音影响聚类得到的说话人标签的准确度,进而提高了说话人日志的精度。
122.以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
当前第1页1  
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
网站地图