特拉维夫大学的研究发现对基因表达数据的广泛误解
研究数据的可重复性是实验生物学的主要挑战。随着由基因组规模技术产生的数据的复杂性增加,这种担忧变得越来越令人担忧。
RNA-seq是现代分子生物学中使用最广泛的方法之一,可以在一次测试中同时测量给定样品中所有基因的表达水平。特拉维夫大学小组的一项新研究发现,RNA-seq技术产生的数据经常出现技术偏见,这通常会导致错误的结果。
该研究由TAU萨克勒医学院和乔治·怀斯生命科学学院的Shir Mandelbaum博士,Zohar Manber博士,Orna Elroy-Stein博士和Ran Elkon博士进行,并于11月12日发表在PLOS Biology上。
这项研究的主要作者埃尔康博士说:“近几年来,人们对生物学研究中错误结果(有时被称为可再现性危机)的警觉性越来越高。”“这项研究强调了对数据进行适当的统计处理以减少误导性发现的数量的重要性。”
RNA-seq实验的主要目标是表征响应不同条件而被激活或抑制的生物学过程。研究人员分析了数十个公开可用的RNA-seq数据集,以分析细胞对多种压力的反应。
在研究过程中,科学家们注意到,一组特别短或长的基因反复显示出表达水平的变化,该水平由给定基因的RNA转录本的表观数量来衡量。对于这种反复发生的模式感到困惑,研究小组想知道它是否反映了不同触发因素共同的普遍生物反应,还是源于某种实验条件。
为了解决这个问题,他们比较了相同生物学条件下的重复样本。复制品之间基因表达的差异可以反映与实验的生物学目的无关的技术效果。出乎意料的是,在重复之间的这些比较中观察到显示表达水平变化的特别短或长基因的相同模式。研究人员说,这种模式是技术偏见的结果,这种偏见似乎与基因长度有关。
重要的是,TAU研究人员能够证明他们在许多RNA-seq数据集中检测到的长度偏差如何导致错误识别特定的生物学功能,作为对测试条件的细胞反应。
“对数据的这种误解可能导致完全误导性的结论,”埃尔康博士总结说。“实际上,这项研究还显示了如何从数据中消除这种偏见,从而滤除了错误的结果,同时保留了生物学上相关的结果。”