SCI文章复现 | GEO文章套路,数据下载和批次效应处理
发布网友
发布时间:2024-10-16 23:07
我来回答
共1个回答
热心网友
时间:2024-11-01 18:27
「英文标题:」Construction of a neural network diagnostic model for renal fibrosis and investigation of immune infiltration characteristics「翻译标题:」肾纤维化神经网络诊断模型的建立及免疫浸润特性的研究
「Background:」 近年来,世界范围内肾纤维化的发病率不断上升,极大地增加了社会负担。然而,该疾病的诊断和治疗工具不足,因此需要筛选潜在的生物标志物来预测肾纤维化。
「Methods:」 利用基因表达综合数据库(Gene Expression Omnibus, GEO),我们获得了来自肾纤维化患者和健康个体的两个基因阵列数据集(GSE76882和GSE22459)。我们鉴定了肾纤维化和正常组织之间的差异表达基因(DEGs),并使用机器学习分析了可能的诊断生物标志物。采用受试者工作特征(ROC)曲线评价候选标志物的诊断效果,并采用逆转录定量聚合酶链反应(RT-qPCR)验证其表达。采用CIBERSORT算法测定肾纤维化患者中22种免疫细胞的比例,研究生物标志物表达与免疫细胞比例的相关性。最后,我们建立了肾脏纤维化的人工神经网络模型。
「Results:」 DOCK2、SLC1A3、SOX9和TARP 4个候选基因被确定为肾纤维化的生物标志物,其ROC曲线下面积(AUC)值均大于0.75。接下来,我们通过RT-qPCR验证这些基因的表达。随后,我们通过CIBERSORT分析揭示了肾纤维化组免疫细胞的潜在紊乱,发现免疫细胞与候选标记物的表达高度相关。
「Conclusion:」 DOCK2、SLC1A3、SOX9和TARP被鉴定为肾纤维化的潜在诊断基因,并鉴定出最相关的免疫细胞。我们的发现为肾纤维化的诊断提供了潜在的生物标志物。
「Fig. 1A Flowchart of the research以及把整篇文章的框架以及罗列出来,基本思路比较清晰的。
「可能不会获得与作者一样的结果」(不同的人来做,获得结果不一样)。「但是,我们的确保按照作者的思路完成文章重要的部分。也帮助大家根据我们的教程,可以做相关的分析,对于我们来来,这就够了」。学到自己需要的即可。
「Figure 1」 Identification of renal fibrosis-related DEGs. (A) Flowchart of the research. (B) Heat map of differentially expressed genes between renal fibrosis samples and healthy samples. (C) Volcano plot of differentially expressed genes between renal fibrosis samples and healthy samples. (D) weighted correlation network analysis of train cohort. (E) Correlation between blue mole and renal fibrosis. (F) Venn of DEGs and WGCNA.
「Figure 2」 Enrichment analisis of renal fibrosis-related DEGs. (A) PPI network of renal fibrosis-related DEGs. (B) The number of connection nodes of hub genes. (C, D) Correlations between top 20 hub genes. (E) The top 10 most significantly enriched GO terms. (F) The top 30 most significantly enriched KEGG pathways.
「Figure 3」 Identification of diagnostic markers for renal fibrosis. (A, B) Tuning feature screening in the LASSO model. (C, D) A plot of biological marker screening via the SVM-RFE arithmetic. (E) Venn graph displaying 4 diagnosis biomarkers shared by LASSO and SVM-RFE.
「Figure 4」 The ROC curve and expression of candidate biomarkers. (A) The ROC curve of DOCK2, SOX9, SLC1A3 and TARP. (B) The expression of DOCK2, SOX9, SLC1A3 and TARP in GSE76882. (C) RT-qPCR of DOCK2, SOX9, SLC1A3 and TARP in HK-2 cells with or without TGF-β. (D) The expression of DOCK2, SOX9, SLC1A3 and TARP in patients with renal fibrosis and healthy indivials.
「Figure 5」 Immune cell infiltration in renal fibrosis samples and control samples. (A) Comparison of 22 immune cell types in renal fibrosis samples and control samples. (B–K) Correlation between candidate biomarkers and neutrophils, macrophages M1, activated mast cells.
「Figure 6」 Correlation between four candidate biomarkers and immune cells. (A) DOCK2. (B) SLC1A3. (C) SOX9. (D) TARP. Correlation between four candidate biomarkers and immune related genes. (E) Chemokine. (F) MHC. (G) Receptor. (H) Immune checkpoint.
「Figure 7」 Gene set enrichment analysis (GSEA) identifies signaling pathways involved in the candidate biomarkers. (A) DOCK2. (B) SLC1A3. (C) SOX9. (D) TARP.
「自己理解错误地方」:对我们理解不同的就是,数据上的不同。我原以为是GSE76882和GSE22459都是用来做的训练集的。但是根据Methods的描述,只有GSE76882作为训练集,GSE22459做验证集。OK,这就是我们需要看Methods的作用。
「数据下载」: 分别下载GSE76882和GSE22459,我们可以在NCBI中查看GEO数据集的分析。
「下载数据集方法」: 需要在GEO数据集中下载Soft formatted family file文件,并进行解压。运行以下代码即可,注意需要更改你对应的数据号。转换Gene symbol,若需要归一化请进行归一化。
「获得最终的数据集」: 数据去重是做GEO数据必做的步骤。使用下载数据的代码,已经做过去重的步骤了。我们这里给出一套去重的代码,供给有写数据无法使用我们的代码下载时进行去重处理。
「标准化处理」: 使用scale()函数或log2(df01+1)的标准化处理。我们这里对其进行log2(data+1)的标准化处理。需对数据集进行合并去批次效应处理。
「差异分析」: 将进行差异分析,以便筛选出肾纤维化相关的差异表达基因。