La bibliothèque de peptides quantifiables comble l'écart pour la découverte et la validation de biomarqueurs basés sur la protéomique sur le cancer du sein

Rapports scientifiques volume 13, Numéro d'article : 8991 (2023) Citer cet article

267 accès

3 Altmétrique

Détails des métriques

La protéomique basée sur la spectrométrie de masse (MS) est largement utilisée pour la découverte de biomarqueurs. Cependant, souvent, la plupart des candidats biomarqueurs issus de la découverte sont rejetés lors des processus de validation. De tels écarts entre la découverte et la validation de biomarqueurs sont causés par plusieurs facteurs, principalement dus aux différences de méthodologie analytique et de conditions expérimentales. Ici, nous avons généré une bibliothèque de peptides qui permet la découverte de biomarqueurs dans les mêmes paramètres que le processus de validation, rendant ainsi la transition de la découverte à la validation plus robuste et efficace. La bibliothèque de peptides a démarré avec une liste de 3393 protéines détectables dans le sang à partir de bases de données publiques. Pour chaque protéine, des peptides de substitution favorables à la détection en spectrométrie de masse ont été sélectionnés et synthétisés. Un total de 4683 peptides synthétisés ont été enrichis dans des échantillons de sérum et de plasma purs pour vérifier leur quantifiabilité dans un temps d'exécution de chromatographie liquide-MS/MS de 10 min. Cela a conduit à la bibliothèque PepQuant, qui est composée de 852 peptides quantifiables qui couvrent 452 protéines du sang humain. À l'aide de la bibliothèque PepQuant, nous avons découvert 30 biomarqueurs candidats pour le cancer du sein. Parmi les 30 candidats, neuf biomarqueurs, FN1, VWF, PRG4, MMP9, CLU, PRDX6, PPBP, APOC1 et CHL1 ont été validés. En combinant les valeurs de quantification de ces marqueurs, nous avons généré un modèle d'apprentissage automatique prédisant le cancer du sein, montrant une aire moyenne sous la courbe de 0,9105 pour la courbe caractéristique de fonctionnement du récepteur.

Les protéines sanguines sont des analytes précieux pour le diagnostic et le pronostic de diverses maladies1. En particulier, l'application des plateformes protéomiques aux protéines sanguines a reçu une attention croissante de la part des universitaires et des industries cliniques2. Avec le développement technologique de la spectrométrie de masse et des méthodes d'analyse des données, les plateformes de protéomique basées sur la SEP ont gagné en profondeur et en force quantitative pour identifier et quantifier les protéines3. En conséquence, des études ont utilisé des méthodes basées sur l'étiquette de masse en tandem (TMT), des méthodes de quantification sans étiquette et des méthodes d'acquisition indépendantes des données (DIA) pour quantifier un grand nombre de protéines à partir d'échantillons complexes afin d'identifier les protéines et les isoformes exprimées de manière différentielle comme candidats potentiels pour nouveaux biomarqueurs3,4,5. Cependant, seul un faible pourcentage des biomarqueurs candidats a été identifié comme efficace lors de la phase de validation1. Cela a également été observé dans le nombre de biomarqueurs approuvés et utilisés en clinique. Comparativement aux plus de 4 300 protéines plasmatiques identifiées, seulement une centaine de biomarqueurs ont été approuvés ou autorisés par la FDA, malgré de nombreuses études de découverte2,6,7. L'écart entre les phases de découverte et de validation peut être dû à des différences dans la taille, le type et le nombre d'échantillons, le protocole de préparation et l'équipement1,8. Parmi les processus entre les phases de découverte et de validation, la taille, le type et le nombre d'échantillons peuvent être mieux contrôlés au stade de la conception expérimentale. Cependant, les différences dans les méthodes de préparation pour différents équipements ne peuvent pas être résolues par la conception expérimentale. Pour un processus de découverte typique, une approche protéomique de fusil de chasse non ciblée utilisant la spectrométrie de masse à haute résolution avec un épuisement abondant des protéines, une préfractionnement et une longue durée de fonctionnement en gradient (1 à 3 h) est utilisée pour maximiser le nombre de protéines profilées. En revanche, le pipeline de validation est basé sur une approche ciblée sur sérum ou plasma pur via chromatographie liquide-SM triple quadripôle tandem (LC-MS/MS), qui est davantage axée sur la mesure quantitative9. Les différences entre les processus de découverte et de validation augmentent le temps et les coûts pour la découverte de biomarqueurs cliniquement utilisables.

Pour surmonter ce problème, des études antérieures ont suggéré d'utiliser des protocoles permettant une analyse reproductible dans différents types d'équipements, tels que le nanoflow et le microflow LC9,10. Ces études se sont davantage concentrées sur la génération d'un candidat biomarqueur approprié dans une configuration de découverte typique utilisant une approche non ciblée. Cela peut raccourcir la durée de la phase de découverte ; cependant, cela ne réduit pas l'écart entre la découverte et la validation.

Pour combler le fossé entre la découverte et la validation, nous avons généré une bibliothèque PepQuant, qui permet la découverte de biomarqueurs dans le cadre d'un processus de validation. Pour construire cette bibliothèque, une liste de peptides a d'abord été générée et sélectionnée parmi les protéines connues pour exister ou sécrétées dans le sang à partir de bases de données et d'articles publics. Les peptides qu'il est avantageux d'être détectés par MS/MS ont été sélectionnés, synthétisés chimiquement et quantifiés dans un gradient de 10 min avec un mode de surveillance de réactions multiples (MRM) pour du sérum ou du plasma pur (protéine non appauvrie en abondance). Cette banque est donc composée de peptides issus de la protéine sanguine, détectables en un temps de gradient très court avec le mode MRM ciblé. Nous avons ensuite appliqué la bibliothèque PepQuant pour la découverte et la validation de biomarqueurs du cancer du sein, ce qui a abouti à neuf biomarqueurs finaux. Un algorithme d'apprentissage automatique (ML) formé avec les candidats biomarqueurs identifiés a fait la distinction entre les patientes atteintes d'un cancer du sein et les témoins sains avec une aire moyenne sous la courbe (AUC) pour la valeur de la courbe caractéristique de fonctionnement du récepteur (ROC) de 0,9105.

Pour générer la bibliothèque PepQuant, nous avons d'abord sélectionné des protéines susceptibles d'exister ou d'être sécrétées dans le sang à l'aide de la base de données du sécrétome humain et de Blood Atlas11,12. Nous avons également ajouté 235 protéines liées à la maladie, soit un total de 3393 (Fig. 1a). Nous avons créé une liste de peptides tryptiques pour chaque protéine de cette liste, dans laquelle la longueur, l'hydrophobicité, les modifications et la charge du peptide ont été utilisées pour la sélection (Fig. 1b). Les critères de sélection ont identifié des peptides plus susceptibles d'être détectables dans le sang dans les conditions difficiles d'un temps de gradient court et dans des conditions pures, c'est-à-dire du sérum ou du plasma utilisé sans épuisement des protéines très abondantes. Les candidats de la bibliothèque initiale se composaient de 4683 peptides couvrant 3393 protéines.

Génération de bibliothèque Pep-Quant. ( a ) Diagramme schématique montrant le processus de génération de bibliothèque Pep-Quant. ( b ) Diagramme schématique montrant le processus de génération de candidats peptides in silico à partir d'une liste de protéines dans le sang. ( c ) Un diagramme de Venn montrant le nombre de protéines quantifiées à l'aide de la génération de bibliothèque Pep-Quant à partir de sérum et de plasma.

Pour trouver des peptides quantifiables parmi les 4683 peptides candidats, nous avons d'abord préparé un mélange de 40 échantillons de cancer du sein, 20 du pancréas, 20 de la thyroïde, 20 de l'ovaire, 18 du poumon et 20 du cancer colorectal, ainsi que 30 échantillons sans maladie collectés dans différents hôpitaux pour augmenter la diversité des échantillons de sang. Nous avons ensuite analysé le chromatogramme MS pour chaque peptide candidat, en comparant le temps de rétention (RT) de l'ion précurseur et les trois premiers pics d'ion y produit entre le peptide synthétique standard et le peptide endogène dans le mélange. Parmi les 4683 peptides, 852 peptides couvrant 452 protéines étaient quantifiables avec un rapport signal sur bruit (SNR) supérieur à 3, et 95,60% avaient un SNR supérieur à 10 (Données supplémentaires 1). Nous avons également constaté qu'environ 75, 22% des protéines étaient quantifiables à la fois dans le plasma et le sérum, ce qui indique que la bibliothèque peut être appliquée à la fois au sérum et au plasma (Fig. 1c).

La bibliothèque PepQuant a été conçue pour contenir des peptides de 6 à 16 acides aminés de long, qui sont avantageux pour la détection lors des analyses LC-MS/MS (Fig. 2a, b)13. Seuls 12 peptides de la bibliothèque avaient une longueur supérieure à 16 ou inférieure à six acides aminés, car d'autres peptides au sein de la même protéine n'existaient pas ou n'étaient pas détectés dans les séries MRM. Nous avons analysé les intensités maximales dans le plasma et le sérum (Fig. 2c, d) pour confirmer la plage dynamique des peptides sélectionnés, qui était d'environ 103 à 108 nm d'intensité (Fig. 2c, d). Nous avons ensuite comparé les valeurs d'intensité de chaque peptide avec la concentration connue de la protéine, qui n'a pas montré de corrélation élevée (Fig. 2e). Cependant, cela était attendu car la concentration de chaque protéine dans le mélange à l'étude différait de celle de l'Atlas sanguin. De plus, une telle différence peut se produire en raison de différentes protéoformes, modifications post-traductionnelles et isoformes14.

Caractéristiques de la bibliothèque Pep-Quant. Graphique à barres montrant la distribution de (a) la longueur du peptide et (b) la charge du peptide. Dot plots montrant l'intensité des peptides dans le rang d'abondance pour (c) le sérum et (d) le plasma. ( e ) Graphique en points montrant la comparaison entre la concentration en protéines de l'atlas sanguin et leur intensité réciproque en mode MRM. ( f ) Diagramme de Venn montrant le nombre de protéines couramment trouvées dans la bibliothèque Pep-Quant, l'exécution du profil DIA et l'exécution DDA de Geyer et al.17. ( g ) Réseau d'enrichissement fonctionnel GO de la bibliothèque Pep-Quant qui satisfait un test hypergéométrique avec une correction du taux de fausse découverte de P <0, 05. La couleur bleue plus foncée indique un enrichissement plus élevé en protéines pour fonctionner. Seules les principales fonctions ou composants cellulaires sont indiqués par des acronymes; les noms GO complets sont indiqués dans la figure supplémentaire S1. Cytoplasmique CY, membrane MEM, lumière Lum, vésicule VS, granule GR, plasma PL, lipoprotéine LP, ET extracellulaire.

Pour vérifier la couverture de la bibliothèque PepQuant, nous avons comparé les protéines à celles identifiées via l'approche non ciblée par la méthode d'acquisition indépendante des données (DIA) en utilisant les mêmes échantillons concoctés utilisés pour générer la bibliothèque PepQuant. Parmi les 850 à 900 protéines identifiées, 271 étaient quantifiables par analyse DIA ; parmi lesquelles, 186 protéines ont également été trouvées dans la bibliothèque PepQuant (Fig. 2f). Ces données suggèrent que la bibliothèque PepQuant couvre un nombre similaire de protéines dans le sang humain, par rapport à l'équipement à plus haute résolution (orbitrap), qui utilise la méthode DIA. Ensuite, nous avons comparé les protéines de la bibliothèque PepQuant à celles identifiées par Geyer et al.15, où un équipement à plus haute résolution a été utilisé pour quantifier des échantillons de sang pur. Les protéines de la bibliothèque PepQuant et du profilage étaient également similaires à celles trouvées par Geyer et al. malgré la différence d'échantillon, de méthodologie et d'équipement15. Ces résultats indiquent que la bibliothèque PepQuant permet la quantification des peptides dans le sang avec un niveau de performance similaire à celui de l'équipement à plus haute résolution.

Ensuite, nous avons étudié l'enrichissement fonctionnel de la bibliothèque PepQuant à l'aide de l'ontologie des gènes (GO). Les protéines de la bibliothèque PepQuant ont été enrichies pour les régions du sécrétome et extracellulaire, comme le montrent les réseaux groupés représentant des vésicules, des granules, des lipoprotéines et des membranes (Fig. 2g et Fig. S1 supplémentaire). Nous n'avons pas trouvé d'enrichissement pour un seul type de cancer ou de maladie, ce qui était attendu car les protéines de la bibliothèque PepQuant visent à détecter autant de protéines quantifiables dans le sang que possible sans biais pour une maladie spécifique.

Pour confirmer que la bibliothèque PepQuant a permis la découverte rapide de biomarqueurs, nous avons analysé la bibliothèque contre 50 échantillons de cancer du sein et 50 échantillons de sérum normal. Il en est résulté 30 peptides présentant un changement d'au moins 1,20 fois avec une valeur P inférieure à 0,05 (Fig. 3 et tableau supplémentaire S1). Nous avons ensuite validé les niveaux d'expression des 30 candidats à l'aide de LC-MS/MS avec une échelle séparée et plus grande de 96 autres échantillons de cancer du sein et 95 échantillons normaux. Seize biomarqueurs ont reproduit les seuils de changement de pli à plus grande échelle et ont donc été soumis à d'autres tests (tableau supplémentaire S2). Pour tester l'utilisabilité des peptides en tant que biomarqueurs dans des tests cliniques, nous avons procédé à une évaluation des performances analytiques, testant leur précision, leur stabilité et leur reproductibilité dans différentes conditions. Parmi les 16 peptides candidats, neuf ont montré des résultats de quantification reproductibles pour tous les tests effectués (tableau supplémentaire S3). L'ensemble final de biomarqueurs sélectionnés comprenait FN1, VWF, PRG4, MMP9, CLU, PRDX6, PPBP, CHL1 et APOC1 (tableau 1).

Analyse de la bibliothèque PepQuant d'échantillons de cancer du sein. Carte thermique montrant les valeurs de score z et de changement de pli de 30 peptides montrant un changement d'au moins 1,2 fois avec une valeur P inférieure à 0,05 pour le test de somme de rang Wilcoxon pour 50 échantillons de cancer du sein et 50 échantillons normaux. Les trois premières séquences d'acides aminés de chaque peptide sont présentées.

Nous avons ensuite tenté de générer un modèle ML pour la prédiction du cancer du sein en utilisant les neuf biomarqueurs découverts. Les échantillons utilisés pour la formation comprenaient 187 témoins sains et 215 échantillons de cancer du sein. Au total, 402 échantillons ont été utilisés pour entraîner plusieurs modèles d'apprentissage automatique ; 70 % des échantillons regroupés ont été utilisés pour la formation et 30 % ont été mis de côté pour être utilisés comme données de test. Pour éviter les biais, les échantillons ont été mesurés dans des mélanges aléatoires avec deux répétitions techniques (Fig. S2 supplémentaire). Tous les algorithmes ont été entraînés et évalués cinq fois à l'aide de la méthode de retenue (Fig. S3 supplémentaire). Quel que soit le type d'algorithme ML, la valeur moyenne de l'ASC de la prédiction dépassait 0,88, ce qui est supérieur à la précision des tests de diagnostic moléculaires de CA15-3 et de l'antigène carcinoembryonnaire16. Il n'y avait pas de différence significative de performance entre les modèles ML, ce qui indique que les biomarqueurs distinguaient de manière adéquate les échantillons de cancer du sein et de contrôle sains. Parmi les modèles ML, le modèle d'apprentissage en profondeur a montré une performance légèrement supérieure, avec une AUC moyenne de 0,9000 (Fig. S3 supplémentaire).

Nous avons développé davantage le modèle d'apprentissage en profondeur en ajoutant 98 autres échantillons de cancer aux données d'entraînement et de test d'origine (tableau supplémentaire S4). La valeur moyenne de l'ASC du modèle entraîné pour la détection du cancer du sein était de 0,9105, similaire à celle du modèle entraîné sans autres données sur le cancer (Fig. 4a). Ces données suggèrent que le modèle formé fait la distinction entre les témoins normaux et les échantillons de cancer du sein à partir de données mélangées à d'autres échantillons de cancer. Pour évaluer davantage le modèle, nous avons tracé la distribution de la probabilité prédite des données de test pour différents stades du cancer du sein. Le modèle a prédit les stades précoces du cancer du sein selon un schéma similaire aux stades ultérieurs (Fig. 4b). Dans l'ensemble, ces données indiquent que les biomarqueurs découverts et le modèle formé ont montré de hautes performances pour distinguer le cancer du sein des échantillons de contrôle normaux.

Précision de la prédiction du cancer du sein. ( a ) Graphique des caractéristiques de fonctionnement du récepteur (ROC) de l'aire sous la courbe (AUC) pour l'apprentissage en profondeur. ( b ) Diagramme en boîte montrant la distribution de probabilité prédite des échantillons de cancer du sein pour le cancer normal, d'autres cancers et le cancer du sein à différents stades.

La bibliothèque PepQuant a été conçue pour accélérer le processus de validation et augmenter le nombre de candidats biomarqueurs validés dès la découverte. Ceci a été réalisé en générant une bibliothèque composée de peptides qui ont déjà été confirmés comme étant quantifiables à partir du sang dans un sérum ou un plasma pur en 10 minutes en mode MRM. La bibliothèque PepQuant permet ainsi le processus de découverte de biomarqueurs dans le même cadre expérimental que la validation de biomarqueurs, ce qui réduit considérablement le temps et le coût nécessaires pour valider chaque biomarqueur candidat dès la découverte. Dans une étude typique de découverte et de validation de biomarqueurs, le nombre de biomarqueurs candidats découverts peut atteindre 50 à 100. Pour valider ces candidats, il faudrait d'abord la synthèse de normes peptidiques et l'optimisation de la méthode pour au moins 50 à 100 candidats, ce qui peut prendre jusqu'à six mois (Fig. 5a)11. Deuxièmement, les peptides détectables et quantifiables devraient être quantifiés à nouveau dans une cohorte plus importante pour confirmer la reproductibilité. Cependant, la bibliothèque PepQuant permet de sauter la première étape car l'optimisation de la méthode n'est pas requise et permet de passer directement à l'étape de confirmation de la reproductibilité (Fig. 5b). De plus, la liste des peptides de la bibliothèque PepQuant peut bénéficier à de futures recherches en fournissant une liste de peptides détectables dans une condition de validation (Fig. 5c).

Diagramme schématique montrant le processus de découverte et de validation des biomarqueurs pour (a) le processus typique et (b) l'utilisation de la bibliothèque PepQuant. ( c ) Diagramme schématique montrant le flux de biomarqueurs candidats à partir d'expériences et de données publiques filtrées par la bibliothèque PepQuant.

Dans cette étude, neuf biomarqueurs potentiels du cancer du sein ont été découverts à l'aide de la bibliothèque PepQuant. Les neuf biomarqueurs candidats (FN117, VWF18, PRG419, APOC120, CHL120, CLU21, PRDX622, PPBP23 et MMP924,25) sont connus pour être associés aux cellules tumorales et à leurs changements micro-environnementaux. MMP9 est une métalloprotéinase connue pour dégrader les protéines de la matrice extracellulaire, qui est également connue pour être une étape de l'invasion des cellules cancéreuses. Il a été rapporté qu'il était régulé positivement dans les cellules tumorales et facilitait l'EMT (transition épithéliale-mésenchymateuse) ou la migration des cellules tumorales dans la progression du cancer du sein26,27. La surexpression de MMP9 a également été retrouvée dans le cancer du sein HER2-positif, triple négatif ainsi que dans les ganglions lymphatiques métastatiques28. CLU est une glycoprotéine présente en abondance dans le liquide extracellulaire. Il a des propriétés de type chaperon et joue un rôle dans divers processus cellulaires tels que la mort cellulaire, l'inflammation et le remodelage tissulaire. Une étude a été menée sur la CLU sécrétoire par surexpression sur la lignée cellulaire MCF-729. Les résultats de la surexpression ont montré que la croissance des cellules tumorales augmentait rapidement et métastasait dans les poumons, suggérant que le rôle important de CLU est la croissance tumorale29. Le rôle de VWF, PRG4 et PPBP sur le cancer du sein devrait être sur la progression tumorale et les métastases. Bien que ces trois protéines aient des fonctions différentes, les trois protéines interagissent avec les intégrines, ce qui conduit à l'activation des voies de signalisation PI3K/AKT et MAPK qui induisent la prolifération cellulaire18,19,23,30,31,32. Alternativement, PPBP, également connu sous le nom de chimiokine (motif CXC) ligand 7 agit sur l'activation de FAK et la métalloprotéinase matricielle favorisant la migration et l'invasion23. Une autre étude a également montré que l'expression recombinante de PRG4 entraînait la suppression de la tumeur en inhibant le facteur de croissance transformant bêta (TGFβ), ce qui entraînait une diminution du groupe de différenciation 44 (CD44) de la surface cellulaire de l'hyaluronane (HA) 33 . FN1 interagit avec différents récepteurs du facteur de croissance tels que les récepteurs tyrosine kinases et lorsqu'il est surexprimé, il conduit à un pronostic défavorable pour le cancer du sein34. APOC1 et CHL1 ont été trouvés dans une étude précédente en tant que biomarqueurs d'un cancer du sein dans le sérum, ce qui est en corrélation avec la découverte et la validation de biomarqueurs du cancer du sein de la bibliothèque PepQuant20.

Les neuf candidats biomarqueurs du cancer du sein sont connus pour être localisés dans plusieurs composants cellulaires, y compris la région extracellulaire telle que les membranes, les vésicules, les granules et les liposomes (tableau supplémentaire S5). On suppose qu'ils sont sécrétés dans les régions extracellulaires par la voie de sécrétion canonique via la voie du réticulum endoplasmique (RE)-Golgi. Étant donné que la localisation et les rôles fonctionnels des neuf candidats biomarqueurs se produisent dans les régions extracellulaires, ils sont détectés dans le sérum du groupe normal ainsi que dans le groupe cancer du sein, mais exprimés de manière différentielle. Malgré la sécrétion et la localisation étudiées des biomarqueurs candidats, seuls quelques marqueurs ont été précédemment signalés comme étant des biomarqueurs potentiels du cancer du sein détectables dans du sérum pur. Parmi eux, trois biomarqueurs du cancer du sein (APOC1, CA1 et CHL1) ont été trouvés dans une étude précédente et sont utilisés comme biomarqueurs pour un algorithme de détection du cancer du sein (Mastocheck®)20. L'algorithme Mastocheck fonctionne à une sensibilité de 71,6 %, une spécificité de 85,3 % et une ASC de 0,832 dans les études de validation clinique (normal 122, cancer 183)35. En revanche, le modèle ML développé dans cette étude a montré une sensibilité moyenne de 87,9 %, une spécificité de 80,7 % et une ASC de 0,9105 (tableau 2). Ce résultat montre que le modèle ML développé avec neuf biomarqueurs peut être une alternative efficace ou un test sanguin d'assistance pour le système actuel de détection du cancer du sein. Bien qu'efficace, la détection actuelle du cancer du sein repose fortement sur le système d'imagerie, qui est coûteux, comporte un risque d'exposition aux radiations et est imprécis pour les seins denses.

En conclusion, nous avons montré que la bibliothèque PepQuant peut être une méthode alternative efficace pour la découverte de biomarqueurs sanguins humains sans spectrométrie de masse à haute résolution. En permettant la découverte dans une configuration de validation où des machines ciblées à triple quadripôle sont utilisées, cela offre plus d'efficacité et de reproductibilité lors de la validation des biomarqueurs. Avec des recherches supplémentaires, la couverture de la bibliothèque PepQuant pour les protéines et les peptides sanguins peut être améliorée. Alors que la bibliothèque PepQuant générée utilisait des bases de données publiques sur le sang et le sécrétome pour la sélection des protéines, cela pourrait être encore amélioré en utilisant davantage de bases de données MS/MS telles que l'atlas SRM pour la sélection des peptides. Différents types de bases de données de protéines pour les protéines membranaires ou cytoplasmiques pourraient être utilisés pour étendre la bibliothèque PepQuant. Des peptides plus adaptés à la configuration de validation, quantifiables en mode MRM, plus stables et mieux représentatifs d'une protéine, seront recherchés et ajoutés à la bibliothèque. Dans l'ensemble, nous prévoyons d'étendre continuellement la bibliothèque PepQuant, ce qui serait utile pour la découverte de biomarqueurs et la recherche de validation.

Pour chaque protéine, une liste de tous les peptides tryptiques possibles a été générée. Les peptides trypsiques comprenaient tous ceux contenant R ou K aux deux extrémités, à l'exception des séquences contenant des combinaisons d'acides aminés résistantes au clivage de la trypsine telles que RR C-terminal (arginine-arginine), KK (lysine-lysine), RK, KR , KP et RP. Dans cette liste, les peptides présentant des caractéristiques favorables à la détection par MS/MS ont été sélectionnés. Les caractéristiques considérées étaient la longueur, l'oxydation, les modifications post-traductionnelles et l'hydrophobicité. Une priorité plus élevée a été accordée aux peptides d'une longueur comprise entre six et 16 acides aminés, qui ont été détectés à des pourcentages plus élevés dans un résultat MS/MS typique par rapport aux autres longueurs. Les peptides extrêmement hydrophiles ou hydrophobes étaient moins prioritaires en raison de leur faible reproductibilité en termes de temps de rétention. Les peptides contenant d'éventuelles modifications post-traductionnelles, telles que la glycosylation, et des acides aminés instables, tels que la cystéine (C), la méthionine (M) ou le tryptophane N-terminal (W), ont reçu une priorité moindre. Pour chaque protéine, un peptide candidat a été sélectionné pour la synthèse. Ceux avec des priorités similaires ont été sélectionnés au hasard, et pour certaines protéines, des peptides candidats avec des priorités inférieures ont été sélectionnés parce que des peptides avec des priorités plus élevées manquaient. Plusieurs peptides ont été synthétisés pour quelques protéines d'intérêt. Tous les peptides ont été synthétisés dans l'installation Good Manufacturing Practice pour les réactifs médicaux (Bertis Inc., Corée). La bibliothèque initiale de 4683 peptides n'était pas marquée et les 452 peptides étaient marqués par un isotope à la Lysine-13C6, 15N2 ou à l'Arginine 13C6, 15N4.

Pour identifier des candidats peptidiques quantifiables à partir du sang, nous avons dopé les peptides standard synthétiques dans les échantillons de sérum et de plasma à un mélange contenant 138 échantillons de sang composés de six types de cancer différents (40 du sein, 20 du pancréas, 20 de la thyroïde, 20 de l'ovaire, 18 du poumon et 20 cancer colorectal) et 30 échantillons sanguins sains. Les spectres des peptides cibles endogènes sérum/plasma ont été comparés à ceux des peptides standard synthétiques (non marqués) pour identifier le peptide quantifiable à partir du sérum/plasma. Pour identifier le peptide cible dans l'échantillon, le rapport des trois pics supérieurs du peptide cible pour les standards et les échantillons a été comparé (Fig. S4a, b supplémentaire). En outre, le temps de rétention du peptide cible dans l'étalon, l'échantillon, l'étalon dopé dans les échantillons a été comparé (Fig. S4c, d supplémentaire). Un peptide a été jugé quantifiable lorsque le rapport signal sur bruit (SNR) était supérieur à trois dans un temps de rétention de 10 min dans une analyse LC.

Au total, 500 échantillons de sérum ont été prélevés dans 12 hôpitaux coréens pour la détection du cancer du sein. Parmi ceux-ci, 215 échantillons provenaient de patientes atteintes d'un cancer du sein et 187 provenaient de participantes en bonne santé. Les 98 échantillons restants provenaient de patients cancéreux de l'hôpital universitaire national de Séoul, avec quatre types de cancer : ovaire (20), estomac (20), pancréas (20), poumon (18) et côlon (20). Les échantillons sains ont été répertoriés dans la catégorie 2 (bénigne) sous BI-RADS (Breast Imaging Reporting and Data System). Tous les échantillons provenaient de patients qui n'avaient jamais été diagnostiqués avec un autre cancer ou qui n'avaient pas connu de récidive dans les cinq ans.

Les échantillons ont été prélevés d'août 2019 à septembre 2020 pour un essai clinique multicentrique prospectif enregistré auprès du Service d'information sur la recherche clinique de Corée, membre de la plateforme d'enregistrement international des essais cliniques de l'OMS (ICTRP). Le numéro d'identification est KCT0004847. Le nombre d'échantillons provenant de chaque hôpital était le suivant : hôpital universitaire national de Séoul (187), hôpital universitaire national de Séoul Bundang (14), hôpital universitaire Dankook (27), hôpital universitaire Chung-Ang (26), hôpital Hallym University Gangnam Sacred Heart Hospital (13), National Cancer Center (22), Myongji Hospital (25), Hanyang University Hospital (9), The Catholic University of Korea, Seoul, St. Mary's Hospital (11), Korea University Anam Hospital (14), Korea University Hôpital Guro (29) et Hôpital universitaire national de Gyeongsang (25). D'autres échantillons de sérum cancéreux ont été approuvés par le comité d'examen institutionnel de l'hôpital universitaire national de Séoul (IRB n° H-1911-085-1079) en tant que recherche non clinique utilisant le référentiel de matériel humain. D'autres échantillons de sérum cancéreux ont été approuvés par le comité d'examen institutionnel de l'hôpital universitaire national de Séoul (n° d'approbation H-1911-085-1079) en tant que recherche non clinique utilisant le référentiel de matériel humain. Des consentements éclairés ont été obtenus de tous les participants. Cette étude a été menée conformément à la Déclaration d'Helsinki.

Le sang total a été prélevé par ponction veineuse avec une seringue 23G et transféré dans des tubes de séparation de sérum "vacutainer" et des tubes de prélèvement sanguin EDTA (BD, USA, NJ) pour le sérum et le plasma, respectivement. Ils ont été centrifugés à 2100 × g pendant 20 min à 4 ° C, et les couches de surnageant ont été transférées dans des tubes frais et stockées à - 80 ° C. Avant l'analyse de masse, les échantillons congelés ont été complètement décongelés à 4 ° C et légèrement vortexés.

Des échantillons de sérum pur ont été directement utilisés sans aucun épuisement des protéines très abondantes. Cinq µl de l'échantillon séparé ont été ajoutés à une solution d'urée 8 M contenant du dithiothréitol 18 mM (Sigma-Aldrich, USA, MA) et incubés pendant 90 min à 35 °C. L'échantillon est refroidi à température ambiante et de l'iodoacétamide (Sigma-Aldrich, USA, MA) est ajouté à une concentration de 26 mM et incubé à température ambiante pendant 30 min dans l'obscurité. Du bicarbonate d'ammonium (Sigma-Aldrich, USA, MA) a été ajouté (concentration finale : 100 mM) pour diluer la concentration d'urée à moins de 1 M. Cinq µg de trypsine (qualité séquençage, Promega, USA, WI) ont été ajoutés, suivis de incubation à 37 °C pendant 16 h pour la digestion des protéines. De l'acide trifluoroacétique (Thermo Fisher Scientific, USA, MA) a été ajouté à la solution pour désactiver l'activité trypsine (concentration finale : 1 %). Les échantillons ont été nettoyés à l'aide de cartouches C18 (Sep-pak C18, 100 mg, Waters) en suivant les instructions du fabricant. Les échantillons nettoyés ont été complètement séchés et stockés à - 80 ° C jusqu'à leur utilisation. Avant l'analyse MS/MS, les échantillons séchés ont été remis en suspension dans de l'acide formique à 0,1 %.

Le spectromètre de masse utilisé était un Qtrap5500 Plus (Sciex, USA, MA). Pour la séparation LC, une colonne en phase inverse C18 a été utilisée (0,5 mm × 150 mm, 3,5 μm, Agilent, USA, CA) et l'analyse a été effectuée en mode MRM positif. Le débit était de 20 μL/min, la configuration du gradient était fixée à 5–30 % pendant 0–10 min (temps de gradient de 10 min). La valeur de l'énergie de collision (CE) du paramètre spectrométrique de masse pour chaque peptide ionisé a été déterminée à l'aide du logiciel SKYLINE (https://skyline.ms/project/home/begin.view). Les spectres de masse et l'analyse chromatographique ont été effectués à l'aide d'Analyst (1.7.2) et le programme de quantification utilisé était Multiquant (3.0.2).

Les peptides digérés ont été analysés à l'aide d'un spectromètre de masse Q Exactive Hf-x Orbitrap couplé à un Ultimate 3000 UPLC (Thermo Fisher Scientific, USA, MA). Pour l'analyse DIA du protéome, le temps d'exécution a été fixé à 130 min et le gradient UPLC a été fixé comme suit (T min/% de solvant B) : 0/3, 5/3, 80/20, 105/40, 105,1 /80, 115/80, 115.1/3, 130/3. Les peptides ont été ionisés à travers une colonne EASY-spray (50 cm × 75 μm ID) garnie de particules de C18 de 2 μm à un potentiel électrique de 1, 5 kV. La plage de balayage MS complète a été réglée sur 300–1400 m/z et la résolution a été réglée sur 60 000 à m/z 200. La plage de balayage MS2 a été réglée sur 300–1400 m/z, avec 44 fenêtres de 25 m/z. La valeur cible du contrôle de gain automatisé a été fixée à 3,0 × 106 avec un temps d'injection d'ions maximum de 100 ms.

Pour analyser les données DIA, les fichiers bruts ont d'abord été convertis en mzML et importés dans DIA-NN36. La bibliothèque spectrale comprenant 12 046 protéines a été téléchargée à partir de SWATHAtlas (www.swathatlas.org). Une recherche dans la bibliothèque a été effectuée selon le manuel DIA-NN comme décrit précédemment36. En bref, la plage m / z des ions précurseurs et fragments a été définie sur 300 à 1400 et la plage de charge du précurseur a été définie sur 2 à 6. Seules l'excision à court terme de la méthionine et la carbamidométhylation de la cystéine ont été envisagées pour la modification des peptides. Jusqu'à deux clivages manqués étaient autorisés et le taux de fausses découvertes de précurseurs était fixé à 1 %. Un paramètre par défaut de 0,0 a été utilisé pour la précision MS1 et la fenêtre de numérisation.

Pour identifier les biomarqueurs du cancer du sein, tous les peptides composant la bibliothèque PepQuant ont été testés contre 50 échantillons sains et 50 patients atteints d'un cancer du sein sélectionnés au hasard parmi les échantillons totaux. Les peptides avec une différence de changement de pli d'au moins 1,2 ont été sélectionnés en premier. Les candidats sélectionnés ont été quantifiés avec des échantillons supplémentaires de 95 patientes en bonne santé et de 96 patientes atteintes d'un cancer du sein. Les peptides qui satisfont à une différence d'au moins 1,2 fois entre le cancer du sein et les échantillons témoins sains ont été soumis à une évaluation des performances analytiques.

L'évaluation des performances analytiques de la quantification LC-MS/MS des marqueurs protéiques est un facteur essentiel pour l'application clinique37. Les paramètres de performance analytique consistent principalement en la linéarité, l'exactitude, la sélectivité, la précision et la stabilité de l'échantillon9. La linéarité a été vérifiée en dérivant une équation linéaire pour au moins six concentrations différentes des peptides et en calculant le coefficient de détermination (R2) entre la valeur quantifiée et la valeur estimée obtenue à partir de l'équation linéaire. La précision a été obtenue en calculant le rapport entre la valeur estimée de l'équation linéaire et la valeur quantifiée pour chaque point de concentration. Le peptide a été considéré comme acceptable lorsqu'au moins cinq des six points de concentration étaient à ± 20 % de la valeur de précision. La précision intra-journalière et la précision inter-journalière ont été testées par des mesures répétées des peptides à différentes concentrations d'échantillons dans cinq répétitions techniques, en un jour et plusieurs jours, respectivement. La stabilité des échantillons de peptides a également été testée après sept jours de stockage à 80°C et 4°C. Pour toutes les expériences, des peptides synthétiques marqués aux isotopes ont été utilisés comme étalons internes (IS). Le rapport analyte (peptide) sur IS a été multiplié par la quantité spécifique d'IS pour déterminer la concentration de l'analyte (tableau supplémentaire S3).

Un algorithme de diagnostic a été développé en utilisant l'apprentissage en profondeur, la régression logistique, la forêt aléatoire et un algorithme de boost à gradient léger. La régression logistique et les algorithmes de forêt aléatoire ont été entraînés avec des paramètres par défaut à l'aide de 'Scikit learn v. 0.23.2'38. Pour l'algorithme de gradient boosting, les modules Python 'Lightgbm v. 3.2.1' ont été utilisés. Tous les modèles d'apprentissage automatique ont été testés de manière itérative à l'aide de la méthode hold-out, dans laquelle cinq états aléatoires différents ont été utilisés pour entraîner et évaluer l'algorithme. L'algorithme d'apprentissage en profondeur a été développé à l'aide de Torch v. 1.7.1. Sauf mention contraire, tous les algorithmes ont été développés en utilisant l'environnement Python v. 3.8.1339. La structure du modèle d'apprentissage en profondeur ressemblait à un GrowNet, qui a été brièvement modifié pour s'adapter à l'ensemble de données actuel40.

Les données générées dans cette étude sont disponibles dans les données supplémentaires 2 et téléchargées dans PASSEL (http://www.peptideatlas.org/passel/), Dataset ID PASS04818.

Rifai, N., Gillette, MA & Carr, SA Découverte et validation de biomarqueurs protéiques : le chemin long et incertain vers l'utilité clinique. Nat. Biotechnol. 24, 971–983. https://doi.org/10.1038/nbt1235 (2006).

Article CAS PubMed Google Scholar

Anderson, NL Le protéome plasmatique clinique : une enquête sur les dosages cliniques des protéines dans le plasma et le sérum. Clin. Chim. 56, 177–185. https://doi.org/10.1373/clinchem.2009.126706 (2010).

Article CAS PubMed Google Scholar

Tang, Y. et al. La protéomique quantitative a révélé les caractéristiques moléculaires de types distincts d'adénomes somatotrophes granulés. Endocrine 74, 375–386. https://doi.org/10.1007/s12020-021-02767-1 (2021).

Article CAS PubMed Google Scholar

Li, N., Li, J., Desiderio, DM & Zhan, X. Analyse protéomique quantitative SILAC du profilage protéomique lié à l'ivermectine et des altérations du réseau moléculaire dans les cellules cancéreuses ovariennes humaines. J. Spectre de masse. 56, e4659. https://doi.org/10.1002/jms.4659 (2021).

Article CAS PubMed Google Scholar

Xia, Y. et al. L'analyse protéomique quantitative basée sur la TMT révèle le mécanisme moléculaire pharmacologique panoramique de l'inhibition de l'acide bêta-élémonique du cancer colorectal. Devant. Pharmacol. 13, 830328. https://doi.org/10.3389/fphar.2022.830328 (2022).