为了提高鲁棒性,连续特征在输入模型前,通常会通过“等频”离散化算子将连续特征转化成离散特征。“等频”离散化的定义如下:
A=[1, 1, 2, 2], K=2,则[1, 1],[2, 2] 是满足定义的划分(子集[1, 1]和[2, 2]之间没有重复元素),且方差为0、最小。 划分的平均长度E为(2+2)/2=2, 划分子集长度的方差为( (2-E)^2 + (2-E)^2 ) / 2 = ( (2-2)^2 + (2-2)^2 ) / 2 = 0。
A=[1, 1, 1, 2, 2 , 4, 5, 5], K=3, 侧可能的子集间没有重复元素的划分有: (1)[1, 1, 1], [2, 2, 4], [5, 5] (2)[1, 1, 1], [2, 2], [4, 5, 5] (3)[1, 1, 1, 2, 2], [4], [5, 5] 其中(1)和(2)均是满足定义的划分,且方差为0.22、最小。以[1, 1, 1], [2, 2, 4], [5, 5]为例: 划分的平均长度E为(3+3+2)/3=8/3, 划分子集长度的方差为( (3-8/3)^2 + (3-8/3)^2 + (2-8/3)^2 ) / 3 = 0.22。