如何制作生物信息,学会发表SCI文章
这里和大家分享两篇文章,谈谈一些高级的文章思路。一篇发表在我们的老朋友《Oncotarget》上,另一篇发表在《蛋白质组研究杂志》(if = 4.1)。
先看Oncotarget的文章《基于生物信息学分析的红发色个体和黑发色个体皮肤细胞的基因组表达差异》。本文是对具有两种不同黑色素瘤表型的个体的差异基因的可信度分析。
摘要据说基因MC1R的突变会导致两种不同表现型的RHC,癌症发病率高,其中RHC表现型会增加皮肤癌的发病率。那么MC1R的突变影响了哪些基因呢?通过PPI网络分析,分别比较分析了正常皮肤细胞和两种不同表型(RHC和六六六)癌细胞中的差异基因。结果显示,癌细胞对比没有差异,但从正常皮肤细胞中筛选出23个hub基因,其中8个基因表达异常。这一结果表明,这8个基因的异常表达可能是RHC表型癌症风险增加的重要原因。
本文利用三个数据包进行综合分析,得出了新颖的结论。本文利用GSE44805中的差异基因构建PPI网络筛选枢纽基因,然后利用其他数据包中的测序结果验证这些基因确实存在异常表达,证明了置信度分析的结果是可靠的。虽然作者根本没做什么实验,但从数据量和可靠性来说,可能比努力做小样本测序更靠谱。
本文中的分析方法(差异基因分析和PPI分析)是我们非常熟悉的。筛选出差异基因,分别为上调基因和下调基因构建PPI网络,得到本文的四张图(无论如何,这张图的面值都比上一个套路分析的文章高很多)。
这张图的构造方法这里就不描述了。
总结
本文的方法完全可以借鉴和复制。难点在于找到足够相似和可比的数据结果,找到合适的切入点,得出相对于小说的结论。
我们来看《蛋白质组研究杂志》上的文章《额颞叶痴呆的加权蛋白质相互作用网络分析》。
我一看这个流程图,就觉得这篇文章是信用专业的人写的。在这个宫里上学的时候,感觉我们生活学院的学生都是码农,生物信息学、生物医学工程、生物科学专业的人天天都在编码,根本感受不到生物专业的气息。)
这篇文章是关于什么的?首先选取13个种子基因,然后根据PPI数据库中的蛋白质相互作用构建这13个种子基因的第一层网络结构。
然后以第一层网络为种子构建第二层网络结构(然后电脑死机)。
然后分析第二层网络的拓扑结构,筛选出枢纽基因(图中绿点代表原来的13种子基因,蓝点代表第一层的基因)。在构建过程中,随着基因数量的不断增加,最初选择的13种子基因可能不是后来的枢纽基因。还设立了对照组,并对这13个种子基因的筛选方法进行了详细的描述。因为整个分析过程是基于对原始信息的分析,完全是开销,所以整个研究过程非常注重逻辑的严密性。
总结
之所以给大家介绍这篇文章,是因为这个思路可以在《生活信析》这篇文章中借鉴。种子基因的选择可以通过临床疾病中基因突变的概率进行筛选,然后构建两层PPI网络进行GO和KEGG分析,从而预测新的未知疾病相关基因。如果能从其他数据包或临床样本中验证表达,整篇文章的内容会更加丰富。
局限性:其实PPI数据库中的很多蛋白质相互作用结果是没有意义的,因为很多蛋白质相互作用在实际生物中是不可能发生的,只有在人为干预的情况下才会发生。