Author : Rasmus Magnusson
Publisher : Linköping University Electronic Press
ISBN 13 : 9179298877
Total Pages : 111 pages
Book Rating : 4.1/5 (792 download)
Book Synopsis High Confidence Network Predictions from Big Biological Data by : Rasmus Magnusson
Download or read book High Confidence Network Predictions from Big Biological Data written by Rasmus Magnusson and published by Linköping University Electronic Press. This book was released on 2020-05-04 with total page 111 pages. Available in PDF, EPUB and Kindle. Book excerpt: Biology functions in a most intriguing fashion, with human cells being regulated by multiplex networks of proteins and their dependent systems that control everything from proliferation to cell death. Notably, there are cases when these networks fail to function properly. In some diseases there are multiple small perturbations that push the otherwise healthy cells into a state of malfunction. These maladies are referred to as complex diseases, and include common disorders such as allergy, diabetes type II, and multiple sclerosis, and due to their complexity there is no universally defined approach to fully understand their pathogenesis or pathophysiology. While these perturbations can be measured using high-throughput technologies, the interplay of these perturbations is generally to complex to understand without any structured mathematical analysis. There is today numerous such methods that put the small perturbations of complex diseases into relation of interactions among each other. However, the methods have historically struggled with notable uncertainty in their predictions. This uncertainty can be addressed by at least two different approaches. First, mechanistically realistic mathematical modelling is an approach that has the capacity to accurately describe almost any biological system, but such models can to-date only describe small systems and networks. Secondly, large-scale mathematical modelling approaches exist, but the faithfulness of the models to the underlying biology has been compromised to achieve algorithms that are computationally effective. In this Ph.D. thesis, I suggest how high confidence predictions of network interactions can be extracted from big biological. First, I show how large-scale data can be used when building high-quality ODE models (Paper I). Secondly, by developing the software LASSIM, I show how ODE models can be expanded to the size of entire cell systems (Paper II). However, while LASSIM showed that powerful non-linear ODE-modelling can be applied to understand big biological data, it still remained a machine learning-based approach in contrast to hypothesis-driven model development. Instead, two more studies revolving around large-scale modelling approaches were initiated. The third study suggested that ambiguities in model selection and interaction identification greatly compromise the accuracy of available tools, and that the novel software of Paper III, LiPLike, can be used to remove such predictions. Intriguingly, while LiPLike was able to effectively discard false identifications, the accuracy of predictions remained relatively low. This low accuracy was thought to arise from model simplifications, and therefore the next study aimed at finding methods that come closer to the true biological system (Paper IV). In particular, the study aimed at predicting protein abundance -the true mediators of biological functionality- from the much more easily accessible mRNA levels, and found that such models could be used to get several new insights on protein mechanisms, which was exemplified by the identification of important biomarkers of autoimmune diseases. The analysis of big biological data and the underlying networks is a centrepiece of understanding both diseases and how cell functionality is orchestrated. The work that is presented in this Ph.D. thesis represents a journey between fields with different views on how these networks should be inferred. In particular, it aimed to combine the accuracy of small-scale mechanistic modelling with the system-spanning potential of large-scale linear system modelling, and this thesis thus provides a tool-bench of methods and insights on how knowledge can be extracted from big biological data, and in extension it is a small step towards a generation of new comprehensions of biological systems and complex diseases. Biologiska system är komplexa att förstå och det är först relativt nyligen man på ett strukturerat sätt börjat att analysera biologiska data genom matematisk analys. Ett av de tydligaste områden där en matematisk analys av biologiska system behövs är vid studier av komplexa sjukdomar. Sådana sjukdomar, till vilka åkommor som multipel skleros, diabetes typ II och allergi hör, uppstår genom en komplicerad kombination av arv och miljö som inte är helt förstådd. Studier av komplexa sjukdomar har dock kunnat identifiera många små potentiella störningar över hela det biologiska systemet, men ingen av dessa störningar är individuellt avgörande för att utveckla en komplex sjukdom. Denna svåröverskådlighet förhindrar traditionella analyser för att finna ursprunget till sjukdomen, och går det inte förstå en sjukdom försämras möjligheterna att till exempel hitta nya läkemedel eller att ställa diagnos. För att förstå hur systemen bakom komplexa sjukdomar fungerar, eller inte fungerar, tas olika prover vilka ofta resulterar i enorma mängder data. Dessa datamängder är oftast så stora att vi människor inte kan tolka dem genom att bara läsa talen, utan vi måste använda olika typer av matematiska modeller och datorprogram för att sådan data ska berätta något för oss. Inom två överlappande fält som kommit att kallas systembiologi och bioinformatik har metoder för att analysera biologiska data haft en snabb utveckling de senaste 50 åren. Dessa metoder har haft som mål att svara på flertalet frågor, och ett framträdande mål har varit att identifiera skillnader mellan hur friska och sjuka celler fungerar. En stor del av cellens funktioner regleras av olika nätverk av proteiner, och ett annat mål har varit att förstå hur dessa nätverk regleras. Ytterligare ett mål har varit att identifiera mätbara värden, så kallade biomarkörer, som kan användas för att identifiera sjukdom hos patienter. De metoder som används för att svara på dessa frågor kan grovt delas in i två grupper, mekanistisk modellering och storskalig modellering, med respektive styrkor och svagheter. Mekanistisk modellering har potentialen att ge mycket träffsäkra prediktioner, men kräver mycket manuellt arbete och har därför varit en alltför tidskrävande metod för att applicera på stora biologiska datamängder. Storskalig modellering klarar enkelt av stora datamängder, men har i stället haft en så låg tillförlitlighet att metoder vars förutsägelser är bättre än slumpen i många fall kunnat betraktats som bra. Denna doktorsavhandling kretsar kring utvecklingen och användandet av metoder för att analysera stora mängder av biologiska data, och har i fyra arbeten ämnat att förbättra metoder inom både småskalig mekanistisk modellering (artikel I och II) och storskalig modellering (artikel III och IV). Artikel I analyserade hur diabetes typ II påverkar fettcellers svar på insulin och hur denna insulinsignal kan beskrivas matematiskt. Detta första arbete var begränsat till just små modeller, och en naturlig utveckling var att undersöka om mekanistiska modeller kan skalas upp och beskriva system som täcker en större del av cellens funktionalitet. Detta möjliggjordes i artikel II genom LASSIM, en metod och programvara som kan expandera små mekanistiska modeller till mångdubbel storlek. Under skapandet av LASSIM stod det dock klart att storskalig modellering förblir en metod som är mycket tidskrävande. Därför syftade artikel III till att förbättra tillförlitligheten för prediktioner från befintliga metoder som kan hantera stora datamängder. Mer specifikt föreslog artikel III en ny algoritm, LiPLike, som kan användas för att ta bort prediktioner som saknar konfidens i data. Även om det gick att observera hur LiPLike kunde förbättra tillförlitligheten för etablerade metoder var flera av LiPLikes prediktioner fortfarande fel, vilket kunde antas bero på att den underliggande biologin skiljer sig från det matematiska modellantagande som låg till grund för studien. Därför inleddes den sista delen i denna avhandling, vilken syftade att utreda hur data kan beskrivas på mer biologiskt relevanta sätt. Även om det är proteiner som främst reglerar cellens system, baseras majoriteten av matematiska modeller på ett förstadium till proteiner som kallas mRNA. Anledningen till detta är att det både är svårt och kostsamt att mäta proteiner i ett prov, vilket gör att man istället förlitar sig på mRNA. I artikel IV användes matematisk modellering för att prediktera mängden protein i olika typer av immunceller. Dessa modeller visade sig vara användbara för att identifiera mätbara markörer för olika sjukdomar. Därmed går det använda mRNA-data på sätt som tar modeller närmare verkligheten, och som i förlängningen kan höja tillförlitligheten hos matematiska prediktioner. Forskningen är bara i början av ett långt arbete för att förstå hur celler fungerar, samt hur komplexa sjukdomar uppstår. En central del i detta arbete är att systematiskt beskriva de underliggande system som styr cellen, och detta går nästan enbart att uppnå genom en strukturerad matematisk analys. Denna avhandling kan sammanfattas som en serie arbeten som dels skalar upp storleken på modelleringsmetoder som tidigare varit begränsade till små modeller, och dels höjer tillförlitligheten på mer beräkningseffektiva modeller. Dessa bidrag kommer förhoppningsvis ligga till grund för en ökad förståelse för hur biologiska system bör analyseras och i förlängningen hur komplexa sjukdomar kan motverkas.