摘要:在分析传统方法的基础上,将GA与神经网络相结合,提出了一种特征变换的新方法,二者优势互补,通过与传统的特征选择方法比较,用实例验证了该方法的正确性和可信性。 关键词:GA 神经网络 特征选择 特征变换 在机器学习和KDD领域,事物的属性和属性取值反映了事物的本质和度量,为了描述一致,统称为模式特征。在传统文献中,模式特征一般分为物理特征、结构特征和数学特征[1-2]。 物理特征和结构特征容易被人类感官所接受,便于直接识别对象。在人工智能领域,物理特征和结构特征以数学特征的形式表现出来,特征提取主要指特征数据的处理方法和过程。广义上的特征提取按属性数据的处理方式分为特征直接提 取和间接提取,又称为特征选择和特征变换。 (1)直接提取(特征选择):设原始特征集合为Un={A1,A2…,An},直接提取即从Un中挑选出有利于分类的特征子集:Tc:Un→Ud 其中,d(2)间接提取(特征变换):通过映射或变换的方法,把高维空间Un的高维特征转化为低维空间Ud的低维特征:Tc:Un→Ud 其中,d≤n,在特征空间变换过程中,特征维数得到了压缩,但是压缩的前提是保证样本的分类性质保持不变。Te可以采用线性或者非线性变换模型。 特征选择的主要算法包括枚举法、分支定界搜索法、逐个特征比较法等启发式方法[3]。在实际运算时,启发式算法无论采用深度优先或者广度优先,过程控制都非常复杂,且对噪音的处理非常不方便。从本质上讲,任何启发式算法都是一种局部寻优方法,所获得的解通常不是最优解,同时难于发现多个最优解或满意解[4-5]。另外,启发式算法的求解结果对噪音比较敏感,影响了特征子集的鲁棒性和适应性。 在概念学习或者更为广泛的模式识别领域,特征提取是一个非常复杂的问题,所表示的模型求解基本上是NP类问题[6-7],一般需要综合考虑分类错误、特征简单性和计算时间资源等因素。 传统的特征提取方法通常采用线性变换,使得判别准则函数最大或者最小(熵函数和类内类间距离函数是经常采用的两个准则函数,[1]),即 Y=A*X 其中,A*为d |