支持矢量机(SVM)是一项特别适合于广泛数据集的分类和回归技术。广泛数据集包含大量预测变量,例如可能会在生物信息学领域遇到(对生物化学数据和生物学数据应用信息技术)的预测变量。本文研究了一个包含大量人体细胞样本的特征的数据集,这些样本是从被认为可能会患上癌症的患者身上提取的。对原始数据的分析表明,良性样本与恶性样本之间的很多特征显著不同。目的在于开发一个SVM模型,使该模型可以使用其他患者样本中的这些细胞特征值尽早发现他们的样本是良性还是恶性。
△△△△△本文为个人项目练习,仅供参考,如有不足欢迎讨论 △△△△△
一、样本描述
本示例基于可以从UCI Machine Learning Repository 公开获取的数据集。数据集由数百条人体细胞样本记录组成,每条记录都包含一组细胞特征的值。每条记录中包含的字段包括:
标识字段包含患者的标识。来自每位患者的细胞样本特征包含在从Clump到Mit的字段中。