Methods and applications in machine learning and computational biology for the analysis and the integration of high dimensional single-cell transcriptomics datasets - Bio-informatique (CBIO)
Thèse Année : 2023

Methods and applications in machine learning and computational biology for the analysis and the integration of high dimensional single-cell transcriptomics datasets

Méthodes et applications en apprentissage automatique et biologie computationnelle pour l'analyse et l'intégration de données transcriptomiques single-cell de haute dimension

Résumé

Living cells are fundamental building blocks of Life, playing both structural and functional roles in all types of organisms. First described in the XVIIth century by Robert Hooke and despite the myriad of breakthroughs that were achieved in Cell Biology since then, many aspects of their biology are still unknown today. Eukaryotic cells store their genetic information within DNA molecules enclosed within their nucleus, that is transcribed into messenger RNA molecules which serve as blueprints for synthesizing proteins, which is a diverse family of molecules responsible for various functional and structural roles within cells. Technological advances that took place during the last decade such as next generation sequencing (NGS) and single-cell assays opened the door to incredibly rich datasets able to quantitatively describe cell populations with extreme precision: in one experiment, one can today approximate the gene expression of tens of thousands of cells over tens of thousands of genes. In parallel, the machine learning field also witnessed a surge of new and revisited approaches (deep neural networks theory, optimal transport, kernels...), made possible by mathematical and hardware developments. One of the main goals of computational biology today is to link these two fields by applying machine learning approaches to complex biological datasets in order to answer challenging biological questions.One key question referred to as data integration is to conceive algorithms able to yield a joint representation of several datasets coming from different sources or measured along different biological modalities, so that similar cells end up close to one another independently from their dataset of origin. This problem is highly challenging in the general case, and solving it has very sought-after applications such as creating comprehensive cell atlases for a disease by aggregating data from many patients, or inferring models including factors from different biological modalities. Many approaches have been proposed to tackle data integration over the last ten years, so much that despite regular benchmark studies it is puzzling to know what to use for a given application. To tackle this issue we developed a new data integration framework named transmorph, that provides many machine learning algorithms as building blocks that can be assembled into complex data integration pipelines. We show that transmorph can be used to build data integration pipelines that work on par with state-of-the-art approaches, while also proving to be useful to determine which algorithmic subunit is more adapted to a given situation. Transmorph is today distributed as an open-source python framework, and embarks an ecosystem of benchmarking datasets, quality assessment metrics, plotting tools as well as a comprehensive user API to build end-to-end data integration models.Another hope for these highly resolute single-cell assays is that they could improve our understanding of cancer, as tumors are highly heterogeneous cell formations embedded in a complex microenvironment. In particular, factor analysis approaches can be applied to discover multidimensional signals in the gene expression space that can then be enriched using databases, and related to interpretable biological processes such as cell proliferation, metabolic activity or metastasis. Using Ewing sarcoma inducible cell lines where the oncogene presence can be precisely monitored, we highlighted a dozen of such processes and studied their dependence on the oncogene activity. We paid a particular attention to proliferation-related signals, and we could highlight in many datasets a multidimensional trajectory taking place in the gene expression space corresponding to the cell cycle process. We were able to derive from these observations a segment-wise cell cycle model, able to approximate the state of individual cells within the cycle as well as other features such as cell doubling time.
Les cellules vivantes jouent un rôle fondamental dans la vie en assurant à la fois des fonctions structurelles et fonctionnelles au sein de tous les organismes. Malgré les avancées considérables en biologie cellulaire depuis leur découverte au XVIIe siècle par Robert Hooke, de nombreux aspects de leur biologie restent encore inconnus aujourd'hui. Les cellules eucaryotes, par exemple, stockent leur information génétique dans l'ADN contenu dans leur noyau, qui est ensuite transcrit en ARN messager pour guider la synthèse des protéines, ces dernières jouant un rôle crucial dans diverses fonctions cellulaires.Au cours de la dernière décennie, d'importants progrès technologiques tels que le séquençage de nouvelle génération (NGS) et l'acquisition de données single-cell ont ouvert la voie à des jeux de données extrêmement riches, permettant une description quantitative très précise des populations cellulaires. Désormais, une seule expérience peut estimer l'expression génique de dizaines de milliers de cellules à travers des dizaines de milliers de gènes.En parallèle, le domaine de l'apprentissage automatique a connu une profonde révolution avec la popularisation d'approches tels que la théorie des réseaux de neurones, le transport optimal ou les méthodes à noyaux. Ces développements mathématiques et technologiques ont ouvert de nouvelles perspectives en biologie computationnelle en permettant de relier ce domaine à l'apprentissage automatique pour résoudre des questions biologiques complexes.L'une des questions majeures en biologie computationnelle est l'intégration des données. Il s'agit de concevoir des algorithmes capables de produire une représentation commune de plusieurs ensembles de données provenant de différentes sources ou mesurées selon différentes modalités biologiques. La résolution de ce problème est complexe mais indispensable, telles que la création d'atlas cellulaires complets pour une maladie en agrégeant les données de nombreux patients, ou encore l'inférence de modèles intégrant des facteurs issus de différentes modalités biologiques.Pour relever ce défi, nous avons développé un nouveau framework d'intégration de données appelé "transmorph", qui propose un ensemble d'algorithmes sous forme de blocs de construction pouvant être combinés pour créer des pipelines complexes d'intégration de données. Nos résultats montrent que "transmorph" permet de construire des pipelines d'intégration de données aussi performants que les approches de pointe, tout en permettant de déterminer l'unité algorithmique la plus adaptée à chaque situation. Actuellement, "transmorph" est distribué en tant que framework open-source en langage Python.Les données single-cell offrent également de nouvelles opportunités pour améliorer notre compréhension du cancer. Les tumeurs étant des formations cellulaires hautement hétérogènes intégrées dans un microenvironnement complexe, l'analyse factorielle permet de découvrir des signaux multidimensionnels dans l'espace d'expression génique. Ces signaux peuvent ensuite être enrichis à l'aide de bases de données pour être reliés à des processus biologiques interprétables tels que la prolifération cellulaire, l'activité métabolique ou les métastases.Nous avons finalement étudié des lignées cellulaires inductibles du sarcome d'Ewing, où la présence de l'oncogène peut être contrôlée précisément. Cette étude a mis en évidence des de processus liés à la prolifération cellulaire, dont la dépendance vis-à-vis de l'activité oncogénique a été étudiée. Une attention particulière a été accordée aux signaux liés à la prolifération, révélant dans de nombreux ensembles de données une trajectoire multidimensionnelle correspondant au processus du cycle cellulaire. Ces observations ont permis de développer un modèle segmenté du cycle cellulaire, capable d'approximer l'état des cellules individuelles au sein de leur cycle, ainsi que d'autres caractéristiques telles que le temps de doublement cellulaire.
Fichier principal
Vignette du fichier
Curie_FOUCHE_2023_archivage.pdf (36.26 Mo) Télécharger le fichier
Origine Version validée par le jury (STAR)

Dates et versions

tel-04681935 , version 1 (30-08-2024)

Identifiants

  • HAL Id : tel-04681935 , version 1

Citer

Aziz Fouché. Methods and applications in machine learning and computational biology for the analysis and the integration of high dimensional single-cell transcriptomics datasets. Bioinformatics [q-bio.QM]. Université Paris sciences et lettres, 2023. English. ⟨NNT : 2023UPSLS073⟩. ⟨tel-04681935⟩
0 Consultations
0 Téléchargements

Partager

More