跳到主要内容

一种新的基因选择方法,用于癌症类型分类任务的基因表达数据

抽象的

癌症是具有不同突变谱的每种癌症型癌症疾病。基因组数据可用于检测这些谱并诊断和分化癌症类型。变体调用提供突变信息。基因表达数据揭示了细胞行为改变的。突变和表达信息的组合可以导致对不同癌症类型的准确辨别。在本研究中,我们利用并转移了用于基因表达数据的新型基因选择方法的现有突变的信息。我们测试了所提出的方法,以便诊断和分化癌症类型。它是一种疾病特异性方法,因为根据所选择的癌症类型过滤突变和表达。我们的实验结果表明,与经典特征选择方法和愈合基因集相比,所提出的基因选择方法导致相似或改善的性能指标。

背景

癌症是全世界死亡的主要原因中[德赢vwin ]。它是一组疾病,每种癌症类型由癌细胞产生的身体的主要区域标记。不同的因果基因导致每种癌症类型,并且这种疾病从这些基因的各种突变的组合出现[德赢vwin ]。根据驾驶突变计划癌症治疗。这些突变的未知或错误分析导致治疗不正确,这是癌症患者的主要问题之一。基因组数据可用于诊断疾病并识别不同类型。基因组测试揭示了可能导致癌症行为的基因突变。此信息可帮助医生在决定患者的个人待遇时[德赢vwin ]。

通过对基因组数据进行详细分析,驾驶突变定位。全基因组序列和变体呼叫用于突变分析[德赢vwin -德赢vwin ]。分析DNA的编码和非编码区域,用于发现癌症类型的突变签名。

除了综合统计分析外,机器学习算法可能有助于检测驱动突变。癌症分类的常用数据类型是基因表达数据。许多研究利用基因表达数据并解决了癌症类型的分类[德赢vwin -德赢vwin ]。使用基因表达数据的主要挑战是具有高维度的小样本尺寸。每种样品中可能存在成千上万的基因,但只有其中一些是对目标疾病有效的,而大多数是无关的[德赢vwin ]。基因选择方法通常在分类之前应用以克服高维度问题[德赢vwin 德赢vwin ]。Hovewer,特征选择步骤可以消除一般对疾病产生的轻微影响的基因,同时对一些患者的特定癌症类型诊断仍然很重要。此外,不相关的基因增加了噪音并降低了机器学习方法的分类器性能[德赢vwin 德赢vwin ]。

在本研究中,我们提出了一种靶向基因表达数据的新型基因选择方法,用于癌症类型分类任务。在以前的研究中[德赢vwin [我们利用变体呼叫格式(VCF)的突变信息[德赢vwin 文件。鉴定了歧视癌症类型中最有效的基因。在该研究中,VCF数据中的这些最有效的基因用于基因表达数据的基因选择。将该方法与基于计算和手动策划的基因签名列表进行比较。该方法中最重要的方面是每一步都是疾病特异性,可以适应任何基因组疾病。

我们的工作带来了以下贡献:

  1. 1

    提出并测试了一种新的和疾病/性状的特异性基因选择方法。

  2. 2

    转移DNA突变中的有价值的信息并与基因表达数据一起使用。

  3. 3.

    与基于计算和手动策划的方法相比,实现了类似且略微改善的分类结果。

  4. 4.

    该系统可以应用于任何基因组疾病或特征。

方法

数据集

我们利用FPKM(每千千万百万的碎片)格式的基因表达文件以及Camda 2019中列出的样本的VCF文件Hi-Res癌症数据集成挑战[德赢vwin ]。所有文件都从癌症基因组Atlas项目(TCGA)下载[德赢vwin ]。挑战包括三种癌症类型的样品:乳腺癌,肺腺癌(肺)和肾肾透明细胞癌(肾)。我们选择具有FPKM和VCF文件的样本。表中提供了癌症类型列表和每种癌症类型的样品计数德赢vwin

表1我们数据集中的癌症类型和样本计数列表

基因表达的特征选择

对于基线,我们在基因表达文件中使用了整个基因列表。全基因表达集中存在60,483个不同的基因。对于特征选择,我们从Scikit-Searn库中应用了SelectKbest [德赢vwin ],具有Pymrmr库的最小冗余最大相关性(MRMR)[德赢vwin ]和威尔救济[德赢vwin 德赢vwin ]。SelectSkbest是一个特征选择方法,根据所选评分功能的最高分数选择功能。Scikit-Searn库中的Mutual_info_classif用作评分函数。它根据其相互依赖项分数。MRMR是一个特征选择方法,它通过考虑相关性和冗余之间的权衡来选择特征子集。浮雕是一种特征选择方法,其基于相关性返回特征子集。我们使用不同数量的功能应用了这些方法;1,000,5,000和10,000,适用于MRMR的1,000,5,000和5,000人。

另一个特征选择方法是使用基因签名列表。Hallmark Gene集合[德赢vwin [混合方法是由手动专家策策结合自动计算过程的混合方法生成的。它由多个基因组组成,并在多个测试数据集中显示识别行为。为了从所有源数据集中受益信息,我们将所有符号基因集的联盟设置为特征列表。这导致4,266个基因特征。

本研究的最后一个特征选择方法是我们提出的。在我们以前的研究中[德赢vwin ],我们雇用了VCF文件进行癌症类型分类。该研究的令人印象深刻的产出是决策中最有效基因的列表。发现大多数这些基因被提出为文献中的靶基因。对于新颖的特征选择方法,我们将最有效的基因组合在我们以前的三种癌症类型的研究中。我们为每种癌症类型选择了3,000和3,500个最有效的基因,并将它们结合起来策划代表所有三种癌症类型的特征集。对于3,000个最有效的基因,最终基因列表具有6,752个基因。对于3,500个最有效的基因,最终基因列表具有7,741个基因。

机器学习方法和实验设计的实现

所有实验都是用Python和Weka实施的。对于机器学习算法,使用Scikit-rement和Pymrmr库。我们在策划数据集上应用了Logistic回归(LR)。每个测试都以5倍交叉验证应用。报告的结果是应用交叉验证折叠上的微平均分数和标准偏差。使用精度,F分,假阳性率(FPR),接收器操作曲线(Roc-AUC)和马修斯相关系数(MCC)的面积作为性能测量。

结果和讨论

与前一项研究的比较

对于基线,FPKM文件中设置的整个基因用于分类任务。为了与另一种数据类型进行比较,我们使用了我们以前的研究,以便在VCF数据上运行,以对癌症类型进行分类。我们应用并比较了该研究的许多统计表示方法。最好的表达方法是BM25-TF-RF。因此,我们在此问题上应用了此模型。表中提供了FPKM和VCF数据集的LR实验结果德赢vwin

表2基因表达和VCF数据的机器学习实验测试结果

FPKM DataSet中的功能数量是VCF数据集的四倍。尽管额外的成本这些功能对于分类模型而导致,但该数据集可以提高性能指标。FPKM数据集的准确性结果为99.46而它是93.70对于VCF数据集。FPKM DataSet的F分数结果也为99.46而它是93.62对于VCF数据集。当我们考虑FPR和MCC结果时,两个数据集之间的差异更清楚地观察到。FPKM数据集的FPR值为0.40而它是3.60对于VCF数据集。FPKM数据集的MCC结果为99.09而这是89.31对于VCF数据集。根据这些结果,我们将利用FPKM文件进行进一步的实验。

基因选择结果

所有基因的使用导致分类任务的良好结果。但它也提高了计算成本。因此,我们应用了许多基因选择方法,以便创建基于FPKM的数据集。使用这些数据集的LR实验结果显示在表中德赢vwin

表3机器学习实验基因表达数据的测试结果

当我们用10,000个功能应用SelectEcest时,精度和F分数略微增加到99.57与所有功能相比。但是当我们用较少的特征应用相同的特征选择方法时,随着特征的数量减小,分类性能会降低。MRMR算法的效果较低的精确结果,精度和F分数值为98.98有5,000个功能。与SelectCelbest相比相反的趋势,浮雕导致具有更少的特征来改善分类性能。准确性和F分数为99.46通过浮雕方法实现,具有1,000个特征。当我们比较这三个特征选择算法时,具有10,000个功能的SelectSkbest优于其他两种方法。

我们采用了另一个特征选择方法,以减少特征数量的特征。当我们考虑所有Hallmark基因集的组合时,实验结果表明,使用10,000的选择可以实现类似的性能。但功能的数量小于一半。

Hallmark Gene集是已知的并且现在使用多年。它们依赖于先前治疗的基因集。我们进一步尝试创建一个只取决于数据本身的基因选择方法。因此,我们从我们以前的研究中选择了三种癌症类型的最有效基因,从而雇用了VCF文件。通过该方法,将突变中隐藏的信息转移到基因表达数据。当我们为每种癌症类型选择3,000个基因并利用它们的联合时,所产生的数据集会导致与Hallmark Gene集分类相似的性能。当我们为每种癌症类型选择3,500个基因并使用它们的联合时,性能结果略有改善。由此产生的准确性和F分数为99.68MCC值为99.46。FPR略微降至0.24。根据这些结果,当调整最有效基因的数量时,所提出的基于VCF的基因选择方法导致相似或改善的性能。由于疾病是由DNA中的突变引起的,使用这些突变是合理的,以选择有效基因并进一步分析它们的表达水平。我们的实验结果支持这个想法。

可以在图2中更详细地观察F分数值和特征计数的比较。德赢vwin 。最有效的方法可以作为99.5以上的F刻度值。这些是使用10,000个功能,符号和基于VCF的方法选择的。尽管基于VCF的基因选择方法具有3,500个基因的基因选择方法不提供最小特征计数,但与本研究中最成功的方法相比,F分数产生略有改善。

图。1
图1

F分和特征计数实验结果比较

结论

DNA改变细胞行为和引起基因组疾病。结果发生了不同的突变分布。除了存在基因突变之外,还可以通过基因的表达水平分析其效果。在这项研究中,我们提供了突变基因存在和表达水平信息的联合,并提出了一种新的基因选择方法。我们利用DNA中的突变信息来选择基因表达数据中的相关基因。

基于我们以前的研究[德赢vwin [我们选择了表达数据中的基因特征,借助于每个癌症类型的最有效的基因突变。通过这种方法,变体调用文件中的有价值的信息被传送并与不同的基因组数据类型一起使用。尽管该研究的样本数量非常有限,但是这种新的基因选择方法与经典特征选择方法相比,与SelectKbest,MRMR,浮雕和策序基因作为标志相比,相似且略微改善的分类结果。所提出的特征选择方法特异于目标疾病,因为相应地决定了有效基因。因此,该系统可以适应和应用于任何基因组疾病或特征。

可用性数据和材料

本研究中使用的数据由Camda 2019 Hi-Res癌症数据集成挑战提供[德赢vwin ]。

缩写

BM25-TF-RF:

输入表示模型

Camda:

大规模数据分析的关键仲裁

FPKM:

每公斤百万零件

FPR:

假阳性率

标志:

分子签名数据库Hallmark Gene集合

LR:

物流回归

MCC:

Matthews相关系数

MRMR:

最小冗余最大相关性

宽慰:

特征选择方法

ROC-AUC:

接收器运行曲线下的区域

SelectKbest:

来自Phyton Scikit-Learn Library的特征选择方法

TCGA:

癌症基因组图集

VCF:

变体呼叫格式

Weka:

机器学习工具

参考

  1. 1

    国家癌症研究所。https://www.cancer.gov.

  2. 2

    美国癌症治疗中心(CTCA)遗传和基因组检测。https://www.cancercenter.com/diagnosing-cancer/Genetic-AndiCiriting.

  3. 3.

    Alexandrov L,Kim J,Haradhvala N,Huang M,NG A,Wu Y,Boot A,Covington K,Gordenin D,Bergstrom E,Islam S,López-bigas n,Klimczak L,Mcpherson J,Morganella S,Sabarinathan R,Wheeler D,Mustonen V,等人。人类癌症中突变签名的曲目。自然。2020;578:94-101。

    CAS.文章谷歌学术

  4. 4.

    Rheinbay E,Nielsen M,Abascal F,Wala J,Shapira O,Tiao G,HornshøjH,Hess J,Juul R,Lin Z,et al.Analyses在2,658名癌症全基因组中的非编码体制司机。自然。2020;578:102-11。

    CAS.文章谷歌学术

  5. 5.

    普瑞斯特利P,Baber J,Lolkema M,Steeghs N,De Bruijn E,Shale C,Duyvesteyn K,Haidari S,Van Hoock A,Onstenk W,Roepman P,Vod M,Bloemendal H,Tjan-Heijnen V,Van Herpen C,Lapots M,Wittepen P,Smit E,Somijer S,Voest E,Cuppen E.泛癌全基因组分析转移性实体肿瘤。自然。2019年;575:210-6。

    CAS.文章谷歌学术

  6. 6.

    Nguyen D,rocke D.通过与基因表达谱的局部最小二乘性的多级癌症分类。生物形象。2002;18:1216-26。

    CAS.文章谷歌学术

  7. 7.

    Tan A,Gilbert D.集成机器学习基因表达数据进行癌症分类。申请生物形象。2003;2:75-83。

    谷歌学术

  8. 8.

    Statnikov A,Wang L,Aliferis C.全面比较了基于微阵列的癌症分类的随机森林和支持向量机。BMC Bioinforma。2008;9:319。

    文章谷歌学术

  9. 9.

    刘继,王X,程y,张L.肿瘤基因表达数据分类通过示例扩展的深度学习。oncotarget。2017年;8:109646-60。

    文章谷歌学术

  10. 10.

    萧y,wub j,linc z,zhao x。基于深度学习的多模型集合方法用于癌症预测。elestwier计算方法Prog Biomed。2018;153:1-9。

    文章谷歌学术

  11. 11.

    Wang Y,Miller D,Clarke R.在高维数据空间中工作的方法:基因表达微阵列。br j acc。2008;98:1023-8。

    CAS.文章谷歌学术

  12. 12.

    王Z。使用基因表达数据进行多级铰接方法和应用于癌症类型的分类。方法INF MED。2012;51:162-7。

    CAS.文章谷歌学术

  13. 13.

    GAO L,YE M,Lu X,Huang D.基于信息增益的混合方法和支持癌症分类基因选择的杂种方法。Elsevier基因组蛋白质组学生物素菊属。2017年;15:389-95。

    文章谷歌学术

  14. 14.

    梁y,刘c,栾x-z,梁k-s,chan t-m,xu z,张h。稀疏的逻辑回归L.1/2癌症分类中基因选择的惩罚。BMC生物信息学。2012;14:198。

    文章谷歌学术

  15. 15.

    杨Z-y,梁y,张h,柴h,张b,彭c。强大的稀疏逻辑回归L.问:(0 <问:<1)使用基因表达数据的特征选择正常化。IEEE访问。2018;6:68586-95。

    文章谷歌学术

  16. 16.

    şi̇mşekn,Özgüra,gürgenf.基因组数据中的突变信息的统计表示模型。BMC Bioinforma。2019年;20:324。

    文章谷歌学术

  17. 17.

    VCF规范。2017年。https://samtools.github.io/htsspecs/vcfv4.2.pdf.

  18. 18.

    Camda 2019 Hi-Res CancerData Integration Challenge。http://camda2019.camda.info.

  19. 19.

    癌症基因组图集。https://cancergenome.nih.gov.

  20. 20.

    Pedregosa f,Varoquaux g,gramfort a,michel v,ripion b,grisel o,blondel m,prettenhofer p,weiss r,dubourg v,vanderplas j,passos a,cournavea d,brucher m,perrot m,duchesnay e。scikit-学习:Python的机器学习。J Mach Learn Res。2011;12:2825-30。

    谷歌学术

  21. 21.

    PENG H,LONG F,DING C.特征选择基于MAX依赖性,最大相关性和最小冗余的相互信息标准。IEEE Trans Pattern Ang Mach Intell。2005;27:1226-38。

    文章谷歌学术

  22. 22.

    Kira K,Rendell L.一种特色选择的实用方法。Mach学习Proc。1992年;:249-56。

  23. 23.

    Witten I,Frank E,Hall M,Pal C.数据挖掘:实用机器学习工具和技术,第4版.Morgan Kaufmann;2016年。

  24. 24.

    Liberzon A,Birger C,Thorvaldsdóttirh,Ghandi M,Mesirov J,Tamayo P.分子签名数据库(MSIGDB)Hallmark Gene集合集合。细胞系统。2015;16:417-25。

    文章谷歌学术

下载参考

致谢

这项工作得到了Bogazici University Research基金赠款号码13242的支持。我们要感谢Olcay TanerYıldız,TungaGüngör对我们的学习提供了宝贵的时间和评论。我们进一步感谢Camda 2019委员会。

资金

这项研究得到了波高动大学研究基金补助金额13242的支持。资金机构在研究和收集,分析和诠释的设计中没有发挥任何作用以及编写稿件。

作者信息

隶属关系

作者

贡献

noos:设计和实现算法,评估结果并起草稿件。AO:算法设计,评估结果并起草稿件。FG:评估结果。所有作者阅读并认可的终稿。

相应的作者

对应于ArzucanÖzgür.或者FikretGürgen.

伦理宣言

伦理批准和同意参与

不适用。

同意出版物

不适用。

利益争夺

提交人声明他们没有竞争利益。

附加信息

出版商的注意事项

www.v66088.comSpringer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

权利和权限

开放访问本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/。Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

Özcanşi̇mşek,N.Ö.,Özgür,A.&Gürgen,F.一种新型基因选择方法,用于癌症类型分类任务的基因表达数据。Biol Direct.16,7(2021)。https://doi.org/10.1186/s13062-020-00290-3

下载引用

关键词

  • 疾病分类
  • 癌症研究
  • 基因表达
  • DNA突变
  • 基因加权
  • 信息检索
  • 机器学习