Becsült olvasási idő: 5 perc
Adathalmazból összefüggésrendszer

A Big Mechanism program célja, hogy a legkorszerűbb adatelemzési módszereken túllépve automatizált technológiát fejlesszen ki a bonyolult rendszereket működtető okok és okozatok elmagyarázásához.

Az 1854-es, londoni kolerajárvány idején Dr. John Snow egy térképen feltüntette a betegség miatt bekövetkező egyes halálesetek helyét, és az ábrázolásból kiderült, hogy az egyik súlyosan érintett háztömb sarkában egy vízpumpa található. Snow térképe – amely egyébként a nagyméretű adathalmazok (big data) egy tizenkilencedik századi változatának tekinthető – összefüggést sugallt a kolera és a vízpumpa között. A járvány idején ugyanakkor még nem fedezték fel, hogy bizonyos betegségeket mikrobák okoznak, és így az emberi leleményre volt szükség, hogy kiderüljön: a pumpa oksági viszonyban áll a kór továbbterjedésével.

Csaknem két évszázaddal később a big data sokkal nagyobb, ám az emberi találékonyságra továbbra is szükség van, hogy az asszociációktól eljuthassunk az oksági mechanizmusokig. Ezen kíván változtatni az amerikai hadsereg hadászati kutatásait összefogó szervezetének (DARPA) Big Mechanism nevű programja. – Az hogy egy bonyolult gazdasági, biológiai, éghajlati vagy akár idegrendszerről nagy mennyiségű adattal rendelkezünk, még nem jelenti azt, hogy értjük a mögöttük meghúzódó nagy mechanizmusokat, vagyis az említett rendszereket működtető okok és okozatok sűrű hálóit – mondta Paul Cohen, a DARPA program vezetője.

– Sajnos mindaz, amit a nagy mechanizmusokról tudunk óriási, töredékes és olykor ellentmondásokkal tarkított irodalmakban és adatbázisokban lelhető csak fel, és ezért nincs ember, aki ezeket a bonyolult rendszereket a maguk teljességében átlátná; a számítógépek segítségére van szükségünk.

Big Mechanism a gyógyászatban

Az első kihívás, amellyel a Big Mechanism meg kíván küzdeni, a rák jelátviteli útjainak (pathway) feltérképezése, vagyis azoké a molekuláris kölcsönhatásoké, amelyek révén a sejtek rákos sejtekké válnak, és azok is maradnak. A program gerincét három alapvető technikai terület képezi: a számítógépeknek képessé kell válniuk arra, hogy a jelátviteli utak egyes apróbb szakaszainak kiszűréséhez elolvassák a rákbiológia témájában keletkező tanulmányokat és absztraktokat.

A komputereknek ezek után össze kellene gyűjteni a töredékeket, hogy belőlük példátlan méretű és pontosságú, teljes jelátviteli utakat állítsanak össze, majd pedig ki kell találniuk, hogy miként hatnak egymásra ezek a folyamatok. A számítógépeket végül alkalmassá kell tenni az okok és az okozatok meghatározására, hogy aztán ezeket elemezve a kóros folyamatot ellenőrzés alatt tarthassuk, vagy akár meg is előzhessük.

A felsoroltak közül egyik sem könnyű feladat, ám a rákbiológia logikus kiindulópont, méghozzá nem csupán a terület nyilvánvaló jelentősége miatt. – A molekuláris biológia nyelvezete és a rákos betegségeket tárgyaló irodalom mechanizmusokra helyezi a hangsúlyt – mondta Cohen. – Az értekezések leírják, hogy bizonyos fehérjék hogyan hatnak más fehérjék sejtszintű előállítására, és hogy ezeknek a hatásoknak milyen élettani következményei vannak. A számítógépek a rákbiológiát taglaló tanulmányokban elméletileg könnyebben azonosítják az okokat és az okozatokat, mint például a szociológiai vagy a közgazdasági irodalmakban.

Még nagyobb kihívást jelenthet, amikor a pathway-szakaszok feltérképezése után a nagy mechanizmusok összeállítására kerül sor. A következetlen elnevezések, a kísérleti folyamatok különbözőségei, a rák típusainak sokasága és mindazon változások, amelyeken a sejtek a különböző stádiumokban keresztülmennek, még az egyetlen fajon belül előforduló, egyetlen rákos megbetegedés esetében is különösen megnehezítik a részeredményekből az oksági modellek felállítását. A modell kirajzolódása folyamán ugyanakkor a Big Mechanism vállalkozása elméletileg egyre könnyebbé válik.

– Az oksági modellek szépsége abban rejlik, hogy jóslatokba bocsátkoznak, és így a nagyméretű adatbázisokban visszakutatva (retrospektivikus módon) mindig ellenőrizhetjük, hogy igazunk van -e – mondta Cohen. – Mindezek mellett új kísérletekre is javaslatot tehetünk, beavatkozásokat kezdeményezhetünk, és így a rendelkezésünkre álló tudásbázist gyorsabban fejleszthetjük.

A lényeg, hogy a Big Mechanism program új módszereket vezethet be a bonyolult rendszerek megértéséhez. Napjaink kutatói képesek a tanulmányok átfogó értelmezésére, ám csak nehézségek árán tudnak lépést tartani a számottevő publikációk megállíthatatlan folyamával. A kutatók csak úgy maradhatnak naprakészek, ha a kiterjedt tudásbázis egy kicsiny szakterületére specializálódnak. A Big Mechanism program mögött meghúzódó koncepció alapvetően mást takar: ez esetben az összes megjelenő publikáció azonnal az adott bonyolult rendszer egy nyilvános, számítógépek által kezelt oksági modelljének – egy nagy mechanizmusnak – a részévé válna, és a nagy mechanizmusok minden egyes aspektusa ahhoz az adathoz kötődne, amely azt alátámasztja, vagy ellentmond neki.

– Az oksági modellek révén megjósolhatjuk, hogy egy adott rendszer milyen módon reagál majd a beavatkozásokra – tehát például egy páciens a gyógyszerre vagy egy gazdaság az új adóra –, és megérthetjük, hogy a rendszerek miért úgy viselkednek, ahogy – mondta Cohen. – Az oksági modellek és a magyarázatok hangsúlyozásával a Big Mechanism jelentheti a tudomány jövőjét.

A Big Mechanism - értelmezni a folyamatokat

A Védelmi Minisztériumot leginkább foglalkoztató rendszerek némelyike rendkívül komplikált. Az ökoszisztémák, az agy, valamint a gazdasági és társadalmi rendszerek sok részből és folyamatból tevődnek össze, melyeket azonban csak darabonként vizsgálnak, az irodalmuk és adatbázisaik pedig fragmentáltak, szórványosak és következetlenek. Nehéz megalkotni a komplex rendszerek teljes magyarázó modelljét, és így ezekben a struktúrákban a sok egymásra ható tényező által okozott hatások számunkra rosszul értelmezhetők.

A nagy mechanizmusok olyan, egyes bonyolult rendszerek óriási, magyarázó modelljei, melyekben az egyes beavatkozások lényeges hatásokkal járnak. A nagyméretű adathalmazok összeállítása egyre inkább automatizált módon történik, a tudásanyag töredezettsége és szórványos volta miatt a nagy mechanizmusok megalkotásának feladata azonban továbbra is az emberekre hárul. Attól függően, hogy milyen mértékben automatizálható a nagy mechanizmusok „megépítése”, úgy változik majd a tudomány gyakorlásának módja is.

A Big Mechanism program célja egy olyan technológia kifejlesztése, amely képes értelmezni a tudományos absztraktokat és értekezéseket, hogy ezekből kiolvassa az egyes ok-okozati mechanizmusok részleteit, ezekből még teljesebb kauzális modelleket építsen fel, és ezután a modellek alapján következtetéseket vonjon le a magyarázatok megalkotásához.

Bár a Big Mechanism „szakterülete” a rákbiológia, a program ezen is túlmutató célja, hogy olyan technológiákat fejlesszen ki, amelyek révén új típusú tudományos módszerek válnak lehetővé. Ezek segítségével a kutatások – automatikus vagy félautomatikus módon – többé-kevésbé azonnal példátlanul egységes és teljes, oksági magyarázó modellek (szerves) részévé válnak. A rák jelátviteli útjainak rendszere csupán egy példa a kauzális, értelmező modellekre.

A Big Mechanism programhoz új kutatásokra és számos műszaki terület egyesítésére lesz szükség. Elsősorban integrálni kell a statisztikai és a tudásalapú természetes nyelvi feldolgozást (NLP); az adatmegőrzést és ontológiát; a rendszerbiológiát és biomatematikát; a reprezentációt és érvelést; illetve nagy valószínűséggel egyéb olyan területeket, mint a vizualizáció, a szimuláció és a hatalmas méretű kauzális hálózatok statisztikai alapjai. A gépi olvasást kidolgozó kutatóknak mélyrehatóbb szemantikát kell kifejleszteniük a tudományos értekezésekben ismertetett oksági és gyakran kinetikus modellek bemutatásához.

A deduktív következtetés és a kvalitatív szimuláció előreláthatóan nem lesznek elegendőek a jelátviteli folyamatok bonyolult dinamikájának lemodellezéséhez, és így ezeket valószínűségi és kvantitatív modellekkel kiegészíteni vagy pótolni kell. Az osztályozás és a predikció továbbra is fontosak maradnak, de az oksági magyarázat lesz az elsődleges. A meglévő adatbázisok és ontológiák felülről lefelé építkező (top-down) szemléletet kívánnak majd meg az olvasáshoz, a nagy mechanizmusok összeállításához és a magyarázatok megalkotásához.