临床糖蛋白质组学研究方法综述
2.1 临床糖蛋白质组学方法的基础原理和逻辑基础
糖基化后,产生功能性糖蛋白,在生物体系中发挥着关键作用。然而,这种修饰过程有时可能导致特定糖蛋白的异常产生,这些糖蛋白的糖位点和/或糖链以病理方式异常改变,从而导致一系列功能变化。糖蛋白质组学的方法涉及几个关键步骤:临床样本选择、样本处理(蛋白质提取、酶消化、IGP富集)、LC–MS/MS分析、生物信息学分析和结果验证(图2)。糖蛋白质组学分析的第一个关键步骤是确保临床样本的质量,因为它直接影响最终结果。复杂性更高、异质性和糖蛋白浓度较低的临床样本在分析上提出了重大挑战。在样本处理之后,隔离和/或富集糖蛋白和/或IGP是关键步骤,因为糖基化的丰度有限。IGP富集的偏好可能存在于不同的富集材料或策略中。这种IGP富集过程通常与LC–MS/MS技术结合使用,已成为糖蛋白质组研究中深入识别IGP的重要工具。选择质谱仪和碎裂模式是至关重要的,因为肽链和糖链碎裂需要不同的碎裂能量。这个选择直接影响IGP识别的准确性和/或深度。注释IGP MS/MS谱图是一个具有挑战性的任务,涉及正确分配肽载体、糖位点和附着的糖链。已经开发了许多软件程序和算法(Byonic、MSFraggerGlyco、pGlyco系列、StrucGP等),用于糖蛋白质组学的识别和定量分析。尽管糖蛋白质组学存在生物信息学障碍,但一些工具已经显示出卓越的性能和巨大潜力,提供了更敏感、准确和全面的糖基化信息。此外,基于LC–MS/MS的糖蛋白质组学发现应通过额外的方法进行验证,如小规模生化实验和大规模队列验证。至关重要的是,应通过细胞和动物实验确认糖蛋白的功能作用。总之,糖蛋白质组学的复杂性强调了解码糖蛋白及其生物重要性的谜题所需的复杂性和准确性。
2.2 临床样本选择
在进行临床糖蛋白质组学之前,必须仔细考虑研究的每个方面,包括实验设计、临床样本、设备和软件。值得注意的是,临床样本(人体组织和体液)的选择显著影响实验结果的可信度(图2A)。特别是,应考虑以下方面:疾病亚型和阶段、临床数据、样本类型、样本分类、样本量、收集程序、预处理方法、存储条件、运输物流等。例如,Cao等人对胰腺导管腺癌(PDAC)和正常邻近组织的胰腺组织样本进行了糖蛋白质组学分析。他们收集了临床数据,并考虑了不同的组织来源和国家。对组织样本的收集、预处理、存储和运输应用了标准化。在临床糖蛋白质组学中,通过穿刺和手术获得的生理和病理组织样本,以及通过临床检查获得的体液(如血液、尿液、精液、眼泪、唾液和CSF)是最常见的来源(图2A)。因此,实验设计应包括适当的对照组和实验组,确保每个组中的病例数量足够(通常超过30个),样本量足够(通常确保至少提取100 µg蛋白质),并最小化不必要的污染。此外,建立标准化的样本收集、预处理、存储和运输协议对于有效进行后续实验至关重要。必须严格遵守这些程序,以确保结果的可靠性和可重复性。
2.3 样本处理
2.3.1 蛋白质提取
临床样本处理是糖蛋白质组学分析的一个重要瓶颈。为了减少实验中的干扰,建立一个针对实验目标和样本类型的标准化流程至关重要。临床样本处理的第一步是蛋白质提取(图2B)。根据实验目的,必须决定是提取所有蛋白质还是针对特定的糖蛋白(如高丰度的免疫球蛋白[Ig]和尿调节蛋白)进行提取。为了有效权衡各种提取策略的优缺点,我们提出了一个全面的方法。首先,人们应该仔细优化和比较几种糖蛋白质组学提取技术,重点关注提取试剂和所采用的方法。随后,选择在大规模临床样本中提取糖蛋白质组最有效的方法。最后阶段,基于对特定感兴趣糖蛋白的识别,可以针对这些目标糖蛋白定制提取过程。这种策略确保了在提取过程中平衡效率和特异性,有助于更精确和深入地分析糖蛋白质组。此外,提取溶剂和方法的选择应与样本类型相匹配。例如,在处理最常用的临床样本人类血浆时,去除高丰度蛋白(HAPs)很重要。HAPs占人类血浆总蛋白质组的85%,血浆蛋白的浓度跨越了超过10个数量级的动态范围。这些HAPs可能导致质谱信号抑制,限制了低丰度蛋白(LAPs)的检测。已经开发了许多方法来简化和标准化血浆样本。免疫基础的耗竭技术,如针对最丰富的两种或十四种蛋白质,以及组合肽配体库的使用,在蛋白质组学研究中常用。
近几十年来,基于纳米技术样本处理策略已成为进行自动化血浆处理和深入蛋白质组分析的高效方法。磁性纳米粒子(MNs)体积小,比表面积大,亲和力位点丰富,允许特异性或非特异性富集蛋白质或PTMs(质谱前处理试剂盒_生物磁珠专家)。当MNs进入血浆时,最初吸附HAPs在纳米-血浆界面形成蛋白质冠。这些HAPs随后被具有更高亲和力的LAPs所取代。尿液样本以其临床收集的便利性、无创性以及能够提供大量和可持续的数量而闻名。然而,尿液蛋白质组受到变异性和稀释的影响,需要在数据分析中仔细考虑标准化程序。许多研究表明,尿液可以作为一系列疾病早期生物标志物的宝贵来源。组织样本通过手术或穿刺获得,是探索疾病进展分子机制的重要资源。蛋白质提取过程中的均质化非常重要,因为任何不完全的均质化都可能导致关键信息的丢失,从而影响发现的准确性和精确性。组织样本提取的常用方法包括研磨、均质化和超声处理等。基本原理围绕最小化蛋白质降解,防止污染,并在低温和裂解液保存的受控环境中进行。
除了分析复杂临床样本的蛋白质组外,通过抗体亲和力和凝集素亲和力对目标糖蛋白进行深入糖基化分析,对识别疾病生物标志物至关重要。例如,我们通过固定化蛋白A/G琼脂糖从人血浆中分离出IgG,并检查其在各种慢性肾脏疾病(CKDs)中的N-糖基化。此外,我们使用硅藻土粉末从人尿液中提取尿调节蛋白,并分析其在IgA肾病(IgAN)中的N-糖基化。总之,在选择蛋白质提取方法时,重要的是要考虑实验目的和样本类型,并遵循上述概述的基本原则。
2.3.2 酶消化
对于复杂临床样本中IGP的分析,通常不需要特殊的酶消化要求。通过自下而上的射击蛋白质组学(Figure 2B)进行IGP分析时,胰蛋白酶是主要使用的酶。然而,当分析特定的糖蛋白时,需要进行糖位点预测,以选择适当的酶或酶的组合。例如,重组的严重急性呼吸综合征冠状病毒-2(SARS-CoV-2)刺突蛋白含有22个潜在的N-糖基化位点。对酶切位点的理论分析表明,仅使用胰蛋白酶不能产生足够长的肽段以覆盖所有潜在的N-糖基化位点。为了解决这个问题,引入了内蛋白酶Glu-C来识别缺失的N-糖基化位点。
同样,Watanabe等人分别用胰蛋白酶、糜蛋白酶或α-溶细胞蛋白酶消化刺突蛋白,以覆盖所有潜在的N-糖基化位点。肽N-糖苷酶F(PNGase F)是一种来自Elizabethkingia miricola的酶,通过大肠杆菌重组技术生产。它可以通过裂解几乎所有类型的N-糖链(包括高甘露糖型、混合型和复杂型糖链)连接处的内层N-乙酰葡萄糖胺(GlcNAc)和天冬酰胺残基,有效地移除N-糖链。因此,PNGase F通常用于识别N-糖链和N-糖基化位点。此外,当需要O-糖基化分析时,使用PNGase F消除N-糖链,以最小化对O-糖链检测的干扰。缺乏明确的蛋白质序列一致性对于O-糖基化位点的识别是一个挑战。然而,最近发现一种多功能的O-糖蛋白酶,称为免疫调节金属蛋白酶来自铜绿假单胞菌。这种酶可以特异性识别并切割O-糖基化丝氨酸或苏氨酸残基附近的糖蛋白,有助于准确识别每个O-糖基化位点的O-糖链结构。利用这种创新酶,研究人员在小鼠大脑中识别了近100个O-糖蛋白。除了上述特定的蛋白酶外,非特异性蛋白酶也可用于检测特定的糖基化。例如,使用非特异性丝氨酸蛋白酶蛋白酶K对整体蛋白质消化很有价值。使用各种酶及其组合将增强糖位点和糖链的全面识别。
2.3.3 IGP富集
在临床样本中,糖蛋白和IGP的丰度低,加上MS分析期间原生IGP的离子抑制和复杂的位点特异性异质性,为准确检测带来了挑战。为了解决这些挑战,已经开发了各种富集方法来提高MS分析期间IGP的可检测性和灵敏度。这些方法包括使用特定凝集素进行捕获、基于水合硼酸的捕获技术和亲和分离策略。最常用的糖蛋白或IGP富集技术包括凝集素亲和色谱法(LAC)、水合硼酸化学、亲水作用液相色谱(HILIC)和水合肼化学。这些方法已经迅速发展,以提高糖蛋白或IGP的富集效率。表1概述了每种富集方法的优点和缺点。LAC已广泛用于研究具有特殊糖链的糖蛋白。凝集素源自植物或动物,具有独特的结合位点,能够识别特定的糖链。这一特性使它们成为科学界几十年来宝贵的工具,特别是在识别新的疾病相关生物标志物方面。水合硼酸化学方法是以其与具有顺式1,2和1,3二醇的糖链的可逆反应而闻名,在碱性条件下形成环酯,在酸性条件下释放糖链,同时保持其结构。HILIC方法作为一种新兴的分离和富集方法,在糖蛋白质组学中表现出色,因为它擅长分离IGP和糖链。这种技术利用离子、亲水性IGP和相对疏水的非糖基化肽之间的对比电性质。这种独特的配置使HILIC能够有效地在色谱柱上结合IGP,促进非糖基化肽的去除。水合肼化学方法用于氧化糖链通过水合肼试剂的修饰。它包括氧化、链接形成、蛋白水解、同位素标记、释放和随后分析等一系列步骤。这种高效的方法是探索糖位点的强大手段。
功能化的MNP方法已被用于富集糖蛋白,扩大了磁性纳米材料的应用范围。各种纳米粒子作为胶囊绑定糖蛋白或IGP。例如,一种名为Fe3O4@mSiO2@G6P的亲水性纳米材料被特别设计用于从辣根过氧化物酶和IgG消化物中捕获IGP。此外,一种超亲水的介孔二氧化硅磁性纳米球体,称为Fe3O4–CG@mSiO2,以其出色的吸附能力、灵敏度、尺寸排除功能、稳定性和回收效率而表现出色。这使得它在提取血清外泌体方面非常有效。因此,根据特定研究要求仔细选择合适的富集技术至关重要,确保灵敏度、特异性和通量之间的平衡。每种方法都提供了独特的特点,解决了糖蛋白分析的各个方面,从糖蛋白捕获的准确性到糖肽回收的有效性。随着该领域的发展,这些技术的改进对于提高我们对糖蛋白功能及其在多样生物场景中重要性的理解至关重要。富集技术在推进糖蛋白质组学方面发挥了关键作用,显著促进了对糖蛋白和IGP的理解和分析。然而,必须承认一个关键问题:富集过程不可避免地导致糖蛋白或IGP的部分结构或组成完整性的损失,这是由于每种方法的偏好。这种损失在一定程度上可能影响糖蛋白质组学分析的结果。为了应对这一挑战,最近的进步集中在开发联合方法上,以更完整或互补的形式分离糖蛋白或IGP,目标是提高IGP分析的准确性和可靠性。
2.4 LC–MS/MS分析
在开始实验程序之前,选择适当的分析方法(质谱仪、碎裂策略或质谱采集方法)对于获得有意义的结果至关重要(图2C)。重要的是,质谱仪的分辨率和灵敏度在准确识别IGP中起着关键作用。利用不同直径的色谱柱的色谱技术在这一努力中起着基础性作用。流速可能受到柱内颗粒大小和柱直径的影响。通常,使用较小直径的柱子并降低流速可以显著提高IGP的分离效率。使用与质谱兼容的溶剂可以同时启动超高效或高性能液相色谱(UPLC/HPLC)与质谱。此外,反相高效液相色谱(RP-HPLC)技术因其与电喷雾离子化兼容而得到广泛应用。这种兼容性不仅促进了卓越的分离能力,还确保了一致和可重复结果的产生。RP-HPLC的独特优势,包括其出色的分离效率和可靠性,强调了其在分析化学领域的关键作用。
质谱发展之旅既复杂又迷人,标志着科学仪器领域的重要里程碑。在出现的各种技术中,基质辅助激光解吸电离(MALDI)质谱因其能够分析糖链组成而脱颖而出。这种技术因其高通量和高效率而受到赞誉,成为糖组学领域的基石。另一方面,LC–MS/MS在检测IGP方面具有更多优势,具有高分辨率和更丰富的糖基化信息。这种复杂的质谱分析过程通过三个关键步骤展开:电离(将物质转化为离子)、质量分析(质量-电荷比(m/z))和检测(质量分析器和探测器),每个步骤在从样本到洞察的旅程中都起着至关重要的作用。在最近的进展中,飞行时间(TOF)和(Orbitrap)质谱仪已成为临床糖蛋白质组分析的领跑者。这些技术提供了增强的灵敏度和精确度,使它们成为解开临床样本中复杂蛋白质和糖链组成的最佳选择。
临床糖蛋白质组学领域的最新进展导致了各种串联MS/MS碎裂技术和质谱采集方法(如数据非依赖采集[DIA]、数据依赖采集[DDA]等)的出现,每种方法都因其产生的不同光谱信息和复杂性而提供了对糖蛋白复杂世界的独特见解。在这些方法中,逐步碰撞能量/高能量碰撞解离(sceHCD)、电子转移/高能量碰撞解离(EThcD)以及EThcD和sceHCD(EThcD–sceHCD)的组合方法代表了临床糖蛋白质组学中特别有价值的方法。sceHCD,作为N-糖蛋白质组学中最常用的技术,能够从单一光谱分析中产生来自完整N-糖肽的糖链和肽链的丰富片段离子。然而,当单个序列中存在多个N-糖基化位点时,其在提供识别N-糖基化位点确切位置和N-糖链特定组成的清晰光谱证据方面的能力是有限的。此外,sceHCD不是分析O-糖蛋白质组学的首选方法。相比之下,EThcD已成为一种更有效的完整O-糖肽碎裂方法,因为它能够产生与糖链相连的c/z离子,这不仅有助于鉴定肽链,还有助于推断糖基化位点的位置及其糖链组成。这种尖端方法显著提高了识别O-糖基化位点的精度,这一点通过检测到的片段离子的多样性和数量的增加得到了证明。尽管技术进步,但在提高EThcD的效率以更广泛地应用于糖蛋白质组学方面仍存在挑战。在我们最近的研究中,我们引入了一种创新的混合解离方法,EThcD–sceHCD,它结合了EThcD和sceHCD的优势。这种整合在糖蛋白质组工作流程中形成了一个强大的工具,利用两种技术的独特优势。 我们的发现表明,EThcD–sceHCD显著增强了对临床样本中复杂糖蛋白的分析,如高度糖基化的人类免疫缺陷病毒(HIV)-1 gp120蛋白和Ig。与传统方法相比,仅依赖EThcD或sceHCD,这种混合方法表现出更优越的性能。它提供了更高质量的光谱数据,产生了更详细的片段离子信息,并识别了更多的完整N/O-糖肽。这些进展强调了EThcD–sceHCD推动糖蛋白质组研究边界的潜力,为临床样本中的糖蛋白提供了更全面和深入的分析。
多样的碎裂技术在推进我们对健康和疾病中涉及的功能性糖蛋白的理解中发挥了关键作用。这种多样性使研究人员能够发现统一方法无法提供的深入见解。随着我们深入研究这些MS/MS技术的能力,它们对临床糖蛋白质组学的显著贡献预计将丰富我们的理解和为新的研究和临床应用铺平道路。尽管如此,数据处理,特别是完整N/O-糖肽MS/MS数据的注释,仍然是一个巨大的挑战。这包括准确识别糖链组成和结构、糖位点和肽链骨架。因此,开发专门的软件和生物信息学工具非常重要。
2.5 生物信息学分析
精确的分析软件致力于解码质谱数据,利用先进的算法。这些算法专门设计用于分析IGP的独特特征,重点关注提高计算速度和效率。目前,这些软件工具主要关注分析完整的N/O-糖肽,这与不同疾病的发生和发展密切相关。基于核心算法的变化,这些软件工具主要分为肽优先搜索(如Byonic、MSFraggerGlyco等)和糖链优先搜索(pGlyco系列)。对他们的进展、原理和独特特征进行了全面的综述。Byonic被广泛认为是分析IGP质谱数据的商业软件。该软件配备了N-糖链和O-糖链库以及目标蛋白质数据库,可以自动搜索以识别糖蛋白、糖位点和糖链组成。该软件已有效用于分析HeLa细胞中表达的单个糖蛋白的独特N-糖基化模式,以及尿液糖蛋白质组的O-糖基化谱。
MSFragger-Glyco首次引入了开放和质量偏移搜索策略。该软件能够通过区分复杂情况下糖肽片段的能量水平来评估混合糖蛋白的能量。因此,它可以分析目标糖肽(能量更高),而忽略糖链片段(能量更低),从而减少错误。MSFragger-Glyco在解码多种复杂的N-糖蛋白质组和O-糖蛋白质组方面表现出色。O-Pair搜索是为分析O-糖基化数据而设计的第一个算法。该方法最初使用离子索引的开放搜索与HCD谱图快速识别肽和O-糖链质量的配对。61图形理论方法基于EThcD谱图中存在的离子定义位点特异性O-糖链定位,然后通过磷酸化RS算法的扩展进行定位概率计算。这个算法主要用于定位磷酸化位点,确定假发现率(FDR),并识别未修饰的肽链。GlycoPeptide Finder(GP Finder)专门开发用于识别广泛的糖位点。通过分析非特异性蛋白酶消化产生的N-和O-糖肽数据,可以在保持5% FDR的同时计算消化后肽序列的总体概率。这个工具不仅能够分析单个蛋白质和单个糖位点,还能够分析未知蛋白质混合物。StrucGP专注于识别完整的N-糖肽。它首先通过N-糖链的Y离子模式识别肽链组分,然后努力通过预定义的子结构模板解释糖链结构。此外,它在糖链识别后还包括糖链级别的质量控制措施。
pGlyco系列软件作为第一个能够在糖链、肽链和IGP水平进行质量控制的搜索引擎,显著提高了准确性并加快了IGP匹配。上述提到的软件工具大大提高了识别完整N-糖肽和O-糖肽的精度。然而,IGP定量分析的软件工具仍然存在差距。pGlycoQuant通过使用深度学习模型来最小化缺失值,在IGP匹配方面取得了显著进展。PANDA软件采用多项式展开技术计算肽元素的自然分布,从而推导出同位素峰的理论相对丰度。随后,通过在用户定义的误差容忍度内匹配同位素峰的理论位置,从MS1谱图中提取观察到的同位素强度。
上述进展显著增强了流行的搜索引擎如pGlyco3、Byonic和MSFraggerGlyco的定量能力。然而,这些软件工具仍然面临许多需要解决的挑战。理想的软件应与各种质谱采集方法、不同的碎裂模式、N-和O-糖链库以及不同物种的蛋白质库兼容。开发能够有效解码新糖链的糖链数据库独立工具至关重要。能够同时对多个来源的IGP进行定性和定量分析的软件的创建,将极大地增强临床应用和临床糖蛋白质组学的转化。总的来说,当前的软件工具正在朝着实现更全面的IGP分析、提高准确性和灵活性的方向发展。
2.6 结果验证
基于质谱的糖蛋白质组学使我们能够在疾病和对照样本中发现数千种差异表达的糖蛋白、IGP、糖位点和糖链。然而,很少有候选糖生物标志物在临床研究中得到测试。这种现象可以归因于糖蛋白质组学方法的不成熟、缺乏质量控制、假阳性检测、小的临床样本量、缺乏定量和验证实验,以及在验证和临床应用中的挑战。因此,研究人员应逐渐开始通过必要的结果验证实验来验证临床糖蛋白质组学发现,类似于临床蛋白质组学,尽管存在挑战。如图2E所示,验证实验包括分子、细胞和动物实验。通过这些实验,可以详细了解蛋白质和糖链的结构和功能。此外,糖蛋白生物标志物的验证应该进行回顾性和前瞻性,采用多中心独立样本验证方法。验证结果的无偏见性是最终评估糖蛋白生物标志物性能的关键。
总的来说,临床糖蛋白质组学的方法包括上述几个程序(临床样本选择、样本处理、LC–MS/MS分析、生物信息学分析和结果验证)。这些方法不断改进,以提高结果的质量,使我们能够更深入地理解疾病的糖蛋白质组学病理生理学。然而,需要注意的是,这些方法仍然面临挑战,如无意中选择不适当的样本、手动实验过程、不适当的MS方法、有限的生物信息学工具和不确定的验证结果。重要的是,只有高质量的样本、标准化的样本处理以及可靠的测量和分析,才对确保实验的可重复性和可靠性有价值。通过解决这些障碍,临床糖蛋白质组学可以继续为我们理解疾病做出重要贡献。
图2:糖蛋白组学分析的基本流程
- 上一篇:糖肽和糖蛋白分离富集方法精要必看 2024/11/9
- 下一篇:磷酸化蛋白/磷酸化肽段富集与分离方法研究最新进展 2024/11/9