本说明书涉及人工智能,尤其涉及一种数据处理方法和系统,用于确定对目标对象进行有效描述的属性数据。
背景技术:
1、在相关技术中,训练系统可以训练得到神经网络模型,预测系统可以基于该神经网络模型对目标对象的目标描述符值进行预测。
2、其中,在训练系统用于训练神经网络模型的输入数据为样本数据,样本数据为包括全量描述符的描述符集。
3、然而,本公开的发明人发现,在训练系统采用全量的描述符对神经网络模型进行训练的情况下,尤其是在全量的描述符的数量较多的情况下,训练系统的训练的时间较长、效率较低,且全量的描述符中可能对训练的贡献相当少,即缺少该部分的描述符对训练效果并不会产生很大的影响,反而会降低训练的效率,因此,如何从全量的描述符中确定相对数量的有效描述符,即如何确定对目标对象进行有效描述的属性数据成了亟待解决的问题。
4、值得说明的是,上述相关技术的内容仅仅是发明人个人所知晓的信息,并不代表上述信息在本公开申请日之前已经进入公共领域,也不代表其可以成为本公开的现有技术。
技术实现思路
1、本公开提供一种数据处理方法和系统,用于确定对目标对象进行有效描述的属性数据,用以避免上述技术问题。
2、第一方面,本公开提供一种数据处理方法,用于确定对目标对象进行有效描述的属性数据,包括:
3、获得描述目标对象的属性的描述符集,所述描述符集包括k个描述符;以及
4、对所述描述符集进行多次降维迭代以减少所述描述符集中的描述符数量,直至所述多次降维迭代满足预设停止信息,其中所述预设停止信息包括所述多次降维迭代的准确性达到第一预设值、并且所述描述符集中所述描述符的数量变化趋近于不变的有效数量值n,所述准确性用于表征预设的目标模型的预测值与真实值之间的一致性,所述k和所述n均为大于1的整数;
5、从所述多次降维迭代所获得的描述符中,将出现频率满足预设条件的描述符确定为核心描述符;以及
6、将所述核心描述符和所述n作为所述属性数据输出。
7、在一些实施例中,所述预设条件是指所述核心描述符中描述符的最小出现频率与其余描述符中描述符的最大出现频率之间的差异大于预设差异阈值。
8、在一些实施例中,所述目标模型是基于所述核心描述符和所述n对所述目标对象进行目标描述符值预测的人工智能模型;
9、所述目标对象是目标材料,所述描述符集中的描述符是所述目标材料已知的描述符;
10、所述降维迭代是针对所述目标模型的迭代。
11、在一些实施例中,所述对所述描述符集进行多次降维迭代以减少所述描述符集中的描述符数量,直至所述多次降维迭代满足预设停止信息,包括:
12、采用遗传算法对所述描述符集进行多次降维迭代以减少所述描述符集中的描述符数量,直至所述多次降维迭代满足所述预设停止信息。
13、在一些实施例中,所述采用遗传算法对所述描述符集进行多次降维迭代以减少所述描述符集中的描述符数量,直至所述多次降维迭代满足预设停止信息,包括:
14、在第一次降维迭代的情况下,根据所述描述符集生成初始种群,所述初始种群中包括p个个体,其中所述p为大于1的整数,每一个体为所述描述符集中的多个描述符组成的向量、并且每一个体表征组成该个体的多个描述符中每一描述符被选中或未被选中参与所述多次降维迭代的信息,不同个体中的描述符不完全相同;以及,
15、在所述初始种群不满足预设停止信息的情况下,对所述p个个体进行遗传操作,得到新种群,并基于所述新种群进入第二次降维迭代,直至得到使得所述多次降维迭代满足所述预设停止信息的目标种群。
16、在一些实施例中,所述对所述p个个体进行遗传操作,得到新种群,包括:
17、从所述p个个体中,获得以两个个体为一组的个体组;
18、针对每一个体组中的每一个体,计算该个体中的描述符的适应度值,其中适应度值用于表征所述目标模型基于个体进行预测的准确程度值;
19、根据各适应度值对所述初始种群进行更新,得到所述新种群。
20、在一些实施例中,所述根据各适应度值对所述初始种群进行更新,得到所述新种群,包括:
21、对每一个体组中适应度值大的个体进行交叉和/或变异,以对所述初始种群进行更新,得到所述新种群;
22、其中,所述变异是指针对各个体组中适应度值大的至少一个个体,将所述至少一个个体中的至少一个描述符的参与所述多次降维迭代的状态进行调整;
23、所述交叉是指针对各个体组中适应度值大的两个个体,将所述两个个体中的任意位置的描述符进行互换。
24、在一些实施例中,所述从所述多次降维迭代的每次降维迭代所获得的描述符中,将出现频率满足预设条件的描述符确定为核心描述符,包括:
25、计算参与所述多次降维迭代的种群中的各描述符各自对应的出现频率;
26、根据各出现频率确定所述核心描述符。
27、在一些实施例中,所述根据各出现频率确定所述核心描述符,包括:
28、对各出现频率进行降序排列;
29、在所述降序排列中,第一次相邻两个出现频率之间的差异大于预设差异阈值的情况下,将所述降序排列中第一出现频率的描述符直至第二出现频率的描述符确定为所述核心描述符;
30、其中,所述第二出现频率为所述相邻两个出现频率中大的出现频率。
31、第二方面,本公开提供一种数据处理系统,用于确定对目标对象进行有效描述的属性数据,包括:
32、至少一个存储器,所述存储器包括至少一组指令来推送信息;
33、至少一个处理器,同所述至少一个存储器进行通讯;
34、其中,当所述至少一个处理器执行所述至少一组指令时,实施如第一方面任一项所述的方法。
35、第三方面,本公开提供一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使所述处理器执行第一方面任一项所述的方法。
36、第四方面,本公开提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
37、所述存储器存储计算机执行指令;
38、所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面任一项所述的方法。
39、第五方面,本公开提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面。
40、本公开提供一种数据处理方法和系统,用于确定对目标对象进行有效描述的属性数据,包括:获得描述目标对象的属性的描述符集,描述符集包括k个描述符,对描述符集进行多次降维迭代以减少描述符集中的描述符数量,直至多次降维迭代满足预设停止信息,预设停止信息包括多次降维迭代的准确性达到第一预设值、并且描述符集中描述符的数量变化趋近于不变的有效数量值n,准确性用于表征预设的目标模型的预测值与真实值之间的一致性,k和n均为大于1的整数,从多次降维迭代所获得的描述符中,将出现频率满足预设条件的描述符确定为核心描述符,将核心描述符和n作为属性数据输出,在本实施例中,确定系统通过对描述符集的降维迭代,可以得到在描述符集中描述符的数量基本保持不变、且使得目标模型的预测性能相对较好的有效的描述符数量(即n),并且确定系统通过对参与降维迭代的描述符的出现频率的统计,可以得到出现频率相对较多且对目标模型的预测性能影响较强的描述符(即核心描述符),相应的,确定系统可以将n和核心描述符作为目标对象的属性数据,以提高用于对目标对象进行描述的属性数据的有效性和可靠性。