Bevezetés az adattudományba – Interjú Filippov Gáborral

Mindenki hazudik – Az vagy, amire klikkelsz címmel jelent meg az amerikai adattudós, filozófus, közgazdász Seth Stephens-Davidowitz ismeretterjesztő könyve, mely őszinte, humoros áttekintését adja a szerző munkásságának, és ennek hátterében egy új tudományág, az adattudomány születése körvonalazódik. A kötetről, a Big Dataról, társadalomtudományról és mesterséges intelligenciáról beszélgettünk a kötet szerkesztőjével, Filippov Gáborral.

Filippov Gábor / Fotó: Bach Máté

Seth Stephens-Davidowitz könyvének az előszavát korunk egyik megkerülhetetlen gondolkodója, Stephen Pinker jegyzi. Mit gondolsz miért őt kérte fel a szerző? Miképp kapcsolódik Stephens-Davidowitz és Pinker munkássága?

Mindketten ugyanahhoz a tudománynépszerűsítő iskolához tartoznak: két olyan szakemberről van szó, akiknek komoly tudományos teljesítményük van, mégis missziójuknak tekintik, hogy közérthető és szórakoztató, egyúttal igényes ismeretterjesztő munkát folytassanak. Tudatában vannak annak, hogy a tudomány nem önmagáért való, a világtól elszigetelt luxus, hogy a tudósnak társadalmi felelőssége van. Nem elsősorban önmagunk szórakoztatására vagy a publikációs jegyzékünk bővítéséért műveljük a tudományt, hanem végső soron mindig a közösségért. Az ember hétköznapi életét akarjuk jobbá tenni, a tágabb közösségünkre akarunk hatni. Pinker és Stephens-Davidowitz is a szélesebb közönség gondolkodását igyekszik formálni – és ezt a feladatot briliáns trükkökkel oldják meg. Arcátlanul, ellenállhatatlanul piszkálják fel a figyelmünket. Legmélyebb és legbiztosabb meggyőződéseinket forgatják fel és írják felül. A hétköznapi tapasztalatainkhoz, a legelemibb kíváncsiságunkhoz kapcsolódva, közérthető formában fertőzik meg a laikust azzal a részegítő kíváncsisággal, azzal a flow-élménnyel, amely végső soron minden tudományos és művészi tevékenység fő hajtóereje. Finom kézzel terelgetik az olvasót – legyen szó bár politikusról, buszvezetőről vagy bolti eladóról –, átkalibrálják az agyát, hogy néhány órára maga is tudóssá váljon.

A Mindenki hazudik első ránézésre egy nagyon vegyes könyv. Tematizálja a politikát, gyerekbántalmazást, a szexet és a sportot. Tulajdonképp a szerző érdeklődésén túl mi kapcsolja ezeket össze?

A legjobb értelemben vett kíváncsiság. A világ és az emberi lélek kitartó, tabukat nem ismerő faggatása. Stephens-Davidowitzot az izgatja, ki is az ember valójában, és hogyan ismerhetnénk meg jobban. Hogy hogyan érthetnénk meg a világot, vagy hogyan lehetünk képesek bepillantást nyerni akár a jövőbe. Pontosabb, megbízhatóbb adatbázisok és módszerek után kutat, amelyek segítségével alapvető kérdésekre adhatunk választ. Hányan rasszisták valójában egy olyan korban, amikor a rasszizmus nem számít komilfónak? Hány meleg él egy országban, ahol életveszélyes bevallani, ha az ember meleg? Meg lehet-e becsülni pontosabban a munkanélküliség várható mértékét? Milyen gyakran élünk nemi életet? Mi alapján leszünk adott csapat szurkolói egy másik helyett? Hogyan lehet pontosabb tudást szerezni a gyermekbántalmazás vagy az erőszakos bűncselekmények várható alakulásáról, és hol van lehetőség közbeavatkozni? Mind az emberi létezéshez kapcsolódó kérdések, amelyekből olykor egészen meglepő dolgok következhetnek. Előfordul, hogy egy szimpla érdekességtől vagy egy marketingötlettől jutunk el a társadalmilag legrelevánsabb kérdések megoldásáig.

A szerző következtetéseit nagyon meggyőzően különböző adatbázisok, sokszor például Google keresések alapján vonja le. Valóban ennyire bízhatunk abban, amit itt találunk? Az emberek tényleg ilyen őszinték, amikor leülnek a gép elé? És mi van azokkal, akik nem használják, vagy csak ritkán ezeket a felületeket? Ők kimaradnak ezekből a felmérésekből?

Ma már a Föld népességének 56%-a, közel négy és fél milliárd ember rendszeresen használja az internetet, és az internetpenetráció továbbra is gyors ütemben növekszik. Észak-Amerikában és Európában ráadásul ez a szám 90%-hoz közelít, de Latin-Amerikában és a Közel-Keleten is kétharmad környékén van. Tény, hogy még így is sokan kimaradnak a mintából, ami módszertani óvatosságra int, de bőven túl vagyunk már azon, hogy az úgynevezett nyugati világra korlátozódó lehetőségekről beszélhessünk.

Ahogy a könyv nevezi, a „digitális igazságszérum” lényege, hogy a szobánk magányában, a számítógép előtt őszintébbek vagyunk, mint bármilyen, akár anonim közvélemény-kutatás kitöltése vagy fókuszcsoportos beszélgetés közben. Nem csak arról van szó, hogy óhatatlanul hazudunk a kérdezőknek, mert akkor is jobb színben akarunk feltűnni az elképzelt másik előtt, ha anonim felmérésben veszünk részt. Saját magunknak is hazudunk, mert jobbnak, okosabbnak, kivételesebbnek akarjuk látni magunkat, mint amilyenek valójában vagyunk. Bele akarjuk tuszkolni az önmagunkról alkotott képet a „jóról”, a „megfelelőről” alkotott társadalmi elvárásrendszer dobozába. Az internetes kereséseink vagy a fogyasztási szokásaink digitális lábnyomai viszont nem az önképünkről szólnak, hanem a valódi vágyainkról, a valódi félelmeinkről, a valódi gyarlóságainkról. Ma már minden kérdésünkkel az internethez fordulunk elsőként. Ha szégyelljük, hogy nem tudjuk, mit jelent a metalepszis, szorongunk, hogy nem vagyunk elég jók az ágyban, ha nyugtalanító csomót fedezünk fel a nyakunkon, vagy csak nevetni akarunk egy jót egy politikailag inkorrekt, trágár viccen, azonnal a keresőbe pötyögünk. A Google olyan, mint egy jó háztartási android: mindent tud, viszont soha nem ítélkezik. Ezért vagyunk őszintébbek hozzá, mint bárki máshoz, önmagunkat is beleszámítva. Különös, de sokszor még csak nem is információt akarunk nyerni az internetről, hanem afféle virtuális gyóntatószékként használjuk. A könyv említi, hogy előfordul, hogy valaki egyszerűen csak közöl valamit a Google-lal, például beírja a keresőbe hogy „imádom a barátnőm mellét”, vagy hogy „unatkozom”. Ez a furcsaság is jelzi, hogy az online lét milyen mélyre hatolt a pszichénkbe. És persze arra is figyelmeztet, hogy érdemes lenne elgondolkodnunk az offline viszonyainkról.

Seth Stephens-Davidowitz / Fotó: thelavinagency.com

Stephens-Davidowitz azt állítja, hogy az adattudomány forradalmasítani fogja a társadalomtudományt, és jövő kutatói a természettudósokhoz hasonlóan adatokkal mérésekkel támasztják alá majd állításaikat. Mennyi ebben a ráció? A jövő filozófusai és pszichológusai Ön szerint is a különböző adatbázisokat fogják bújni?

A társadalomtudományok fősodrának fejlődése az elmúlt évtizedekben amúgy is a módszertani finomodásról és a mérhetőség, a tesztelhetőség, a falszifikáció előretöréséről szólt. Persze ezzel párhuzamosan zajlik a nem reprezentatív, egyedi esetekre ráközelítő, nyelv- és jelentésközpontú kvalitatív kutatás fejlődése is, de az informatikai és adatforradalom olyan információk feldolgozására nyitott kaput, amelyeket eddig vagy a méretük miatt nem tudtunk kezelni, vagy egyáltalán nem is voltak elérhetők. Kicsit olyan ez, mint amikor a kvantumfizika egy teljesen új, addig ismeretlen világot tárt fel a tudósok előtt. A Big Data új adatforrásai és módszertani szemlélete ahhoz segítenek hozzá bennünket, hogy egyre szélesebb körű és egyre biztosabb tudásunk lehessen a világról és önmagunkról, hogy olyan kérdéseket tehessünk fel, amelyekre korábban nem remélhettünk választ. A digitális igazságszérum egyrészt nehezebbé teszi, hogy hazudjunk a kutatóknak, másrészt segíthet elkerülni azt a vádat, hogy a természettudományokkal szemben a társadalomtudomány csak úgy beszél a levegőbe, és jól hangzó, de alapvetően igazolhatatlan hipotéziseket puffogtat. Egyre több minden válik empirikusan tesztelhetővé és cáfolhatóvá, és egyre kevesebb olyan téma marad, ahol nélkülözhető lesz a Big Data. A jó tudomány ugyanakkor ritkán épít egyetlen módszerre, a társadalomtudományban legalábbis biztosan nem létezik az univerzális csavarhúzó. A kis elemszámú felmérések vagy egy-egy esetre fókuszáló, feltáró jellegű esettanulmányok továbbra is nélkülözhetetlen eszközeink maradnak, sőt a két megközelítés a legtöbbször kiegészíti egymást.

Elmagyaráznád a laikusoknak az adattudomány alapfogalmait. Mit jelent zoomolás, az A/B tesztelés és az alterego keresés?

A zoomolás, vagyis a ráközelítés lehetővé teszi, hogy hatalmas adathalmazokon belül mintegy „kinagyítva” szemlélhessünk kisebb egységeket. Például a választók részcsoportjainak politikai preferenciáit: ha elég nagy az adattömeg, területi vagy például életkori részhalmazokra ráközelítve mintázatokat és oksági kapcsolatokat figyelhetünk meg, amiből meglepő felismerésekre juthatunk. Például hogy a születési hely mennyire meghatározza, hogy az életünkben meddig emelkedhetünk a társadalmi ranglétrán. Vagy hogy az életkor kulcsszerepet játszik a tartós politikai értékek vagy a szurkolói szokások kialakulásában, hiába tartja magát mindenki totálisan racionális lénynek, akit csak a tények befolyásolhatnak.

Az A/B tesztelés az oksági viszonyok feltárására szolgáló legolcsóbb és leghatékonyabb módszerek egyike. A legegyszerűbb példa talán az, amikor egy online újság olvasóit két részre bontják, és ugyanazt a cikket két, különbözőképpen megfogalmazott címadással kínálják nekik olvasásra, majd megfigyelik, melyik cím vonz több kattintást. Arról van szó, hogy az interneten kísérleti alanyok külön toborzása és laboratóriumi körülmények előállítása nélkül, mindössze a kattintások megfigyelése által tudjuk tesztelni, hogy két lehetőség közül mi fogja meg jobban a felhasználók figyelmét, mi vált ki belőlük több érzelmet, vagy mi sarkallja őket nagyobb aktivitásra. Míg egy valós úgynevezett randomizált kísérlet adott esetben több millió vagy akár több tízmillió forintba és évekbe kerülhet, az A/B tesztelés minimális forrásigénnyel jut ugyanolyan megbízható vagy még pontosabb eredményre, hiszen az emberek maguktól hagyják szerteszét a digitális lábnyomaikat. Obama 2008-as kampányában például, amelyben kulcsszerepet játszott a választók személyes aktivitása és mikroadományai, A/B teszteléssel vizsgálták, hogy milyen honlapdizájn sarkallja a leghatékonyabban a netezőket a részvételre és az adakozásra. Obama kampánystábja 60 millió dollár plusz bevételt könyvelhetett el egyedül amiatt, hogy hatékonyan tudta vizsgálni, milyen gombra kattintunk szívesebben egy honlapon.

Az alteregókeresés az egyik legizgalmasabb és legnagyobb lehetőségeket rejtő módszer, gyakorlatilag a jóslás tudományos változata. Ha kíváncsiak vagyunk rá, hogy fog teljesíteni a jövőben egy sportoló, milyen terméket érdemes kínálni egy vásárlónak, vagy hogyan fog reagálni adott személy egy orvosi terápiára, kellő méretű adathalmazokban rá tudunk keresni olyan személyekre, akik a legrelevánsabb tulajdonságok tekintetében a lehető legjobban hasonlítanak az adott sportolóra, az adott vásárlóra, az adott betegre. A módszerre egyszerű példa az Amazon hirdetési rendszere, de ugyanerre az elvre épül a Spotify és a Netflix is: múltbeli választásaink alapján az összes fogyasztó között rákeresnek a hozzánk hasonló ízlésűek részhalmazára, és olyan termékekre hívják fel a figyelmünket, amelyek a múltban felkeltették az „alteregóink” érdeklődését, ezért jó eséllyel a miénket is fel fogják.

Forrás: pxhere.com

Milyen haszna lehet az adattudománynak a társadalomra nézve?

A Big Data-forradalom tudománytörténeti léptékben mérve még újszülöttnek tekinthető. Látjuk, hogy korszakos jelentőségű, látjuk, hogy át fogja alakítani a társadalomról való gondolkodásunkat, de a lehetőségeivel és a határaival még éppúgy csak ismerkedünk, mint a benne rejlő veszélyekkel. De néhány kitörési pont már most látszik. Mindenekelőtt mindenhol hasznosítható, ahol az emberek egyébként hajlamosak elhallgatni vagy megszépíteni az igazságot, ami nemcsak a piackutatást és a marketinget segíti, de a tudományos megismerést is. Stephens-Davidowitz izgalmas esettanulmányt ír például arról, hogyan lehetett volna a Google-keresések segítségével pontosan előrejelezni Donald Trump 2016-os győzelmét, amely minden akkori bevett tudásunkkal és valószínűséggel szembement. Érdemes lesz további választásokon is tesztelni ezt a módszert, hogy rájöhessünk, mennyire bír általánosítható, univerzálisan hasznosítható predikciós erővel, és mennyiben válhat bevett kiegészítőjévé a bevett közvélemény-kutatási módszereknek.

De a Big Data szó szerint közvetlen élet-halál kérdésekben is elképesztő perspektívákat nyit: mindenekelőtt az orvosi diagnosztika és a gyógyítás területén. A Mindenki hazudikban olvashatunk például arra, hogyan ismerhetjük fel Big Data-elemzéssel jóval korábban a hasnyálmirigyrákot, amelynek gyógyítása esetében ma épp a hosszú lappangási időszak jelenti a fő kihívást. De arról is, hogy az alteregókeresés segítségével hogyan lehetne személyre szabottabbá és így hatékonyabbá tenni egy-egy betegség terápiás eljárást, vagy például hogy hogyan hat egy-egy finanszírozási részletszabály-módosítás a páciensek gyógyulására. A könyv számtalan hasonló, további tesztelésre váró érdekességről ír a terror- és bűnmegelőzés, vagy éppen a gyermekvédelem területén – miközben még tényleg csak az út elején járunk.

Ha egyre szélesebb körben ismertté válnak az adattudomány eredményei, az nem fogja megváltoztatni az emberek online térben való viselkedését?

Úgy sejtem, minden adattudós álma, hogy a szakmájuk olyan széles körű ismertségre tegyen szert, hogy az már a munkájukat veszélyeztesse, de félek, hogy a tudományos felismerések nem tudnak ilyen mértékben terjedni. Komolyra fordítva a szót: a keresésalapú Big Data lényege az, hogy a netes szolgáltatók csak adatmasszákat biztosítanak a kutatóknak és a cégeknek, vagyis az egyedi felhasználó nem azonosítható, ezért nagyon szélsőséges eseteket leszámítva nem járhat személyre szabott következménnyel, hogy ki mit ír a keresőbe, vagy mit néz meg a neten. A jogállamisággal nem is összeegyeztethető, hogy egyénre lebontva hozzáférhetővé válhassanak például a pornókeresési vagy vásárlási adatok. Ahol ezt azt alapnormát tiszteletben tartják, ott az őszinteségre való ösztönző is megmarad: továbbra is tudni akarjuk majd a választ a minket izgató kérdésekre, és ezekhez a leghatékonyabban ma az interneten jutunk el.

A könyvet olvasva nekem lépten-nyomon a Magyarországon jobbára Barabási-Albert László nevével fémjelzett hálózatkutatás jutott eszembe. Tulajdonképpen ők is valami nagyon hasonló módszerrel dolgoznak. Milyen kapcsolatban áll ez a két nagyon fiatal tudományág?

A két kutatási irány közös halmazának ma már külön szakirodalma van. Magától értetődő érintkezési pont az új és hatalmas elemszámú adatbázisokra helyezett hangsúly: a komplex rendszerek (társadalmi hálózatok, gazdasági interakciók, neuronhálózatok) elemzése olyan mennyiségű, változatosságú és olyan sokféle, nagy sebességgel változó kapcsolódásokat felmutató adatokkal dolgozik, amelyekhez a Big Data-alapú adatelemzés nélkülözhetetlen. Az is közös, hogy voltaképpen nem szigorúan lehatárolt diszciplínákról van szó: mindkettő olyan, tudományterületeken átívelő megközelítés vagy inkább látásmód, amely az orvostudománytól a szociológián és a közgazdaságtanon át a pszichológiáig, a történettudományig vagy az irodalomtudományig bezárólag számtalan szűkebb kutatási területet megtermékenyít.

Fotó: pxhere.com

Nagyon sokan beszélnek a Big Data veszélyeiről, a könyv végén Stephens-Davidowitz is kitér ezekre, illetve ír arról, hogy miként óvhatjuk magunkat a káros hatásaitól, de láthatólag különösebben nem tart tőle. Ön mit gondol? Jobban kéne aggódnunk, mint amennyire a szerző aggódik?

A könyvben külön fejezetek szólnak a Big Data veszélyeiről – mindenekelőtt arról, hogy a cégek és a kormányok kihasználhatják online őszinteségünket, és elviselhetetlen, disztópikus digitális diktatúrába taszíthatják a 21. század társadalmait. Ezek közül csak a legenyhébb veszély az, amikor egy-egy állásinterjú vagy kölcsönigénylés sorsa azon dől el, ha a munkaadó vagy a hitelintézet közösségi médiás aktivitásunk vagy akár az önéletrajzunk alteregós elemzése alapján arra jut, nem a megfelelő kategóriába tartozunk. Ennél súlyosabb problémát jelent, amikor a politika fordítja ellenünk az adattudományt – sajnos erre látunk is törekvéseket. A Big Data mesterséges intelligencia általi feldolgozására alapul a napjainkban tesztelt kínai társadalmi kreditrendszer, amelynek lényege, hogy az állam az egyének minden mozdulatát követő kamerák és digitális megfigyelés segítségével totális kontrollt gyakorol minden egyes egyén felett. Fogyasztási szokásaik, magánbeszélgetéseik, az interneten megvallott titkos gondolataik szerint értékelik a polgárok politikai megbízhatóságát, és ennek függvényében, szigorú pontrendszer alapján teszik számukra elérhetővé vagy elérhetetlenné az alapvető egészségügyi és jóléti szolgáltatásokat, karrierlehetőségeket vagy akár a mozgás szabadságát. A tervek szerint 2020-ra egész Kínában élesítik a rendszert, és más autokráciák is érdeklődnek a dolog iránt. Sajnos a Big Data is olyan, mint a legtöbb tudományos vívmány, jóra és rosszra egyaránt használható. Nem kell a maghasadásig menni, elég, ha arra gondolunk, hogy a Mein Kampfot és a Micimackót is ugyanazzal a technológiával nyomtatják.

Miképp forradalmasíthatja az MI az adattudományt?

A szuperszámítógépek és a mesterséges intelligencia egyszerűen szólva az összegyűjtött adatok sokkal gyorsabb kiválogatását és feldolgozását teszik lehetővé. Itt van példának az idei év legcsodálatosabb természettudományos szenzációja: az Event Horizon Telescope bolygóméretű virtuális űrtávcsöve által alkotott kép a Messirer 87 galaxis centrumát alkotó fekete lyukról maga a Big Data-alapú adattudomány és az MI találkozása. Az EHT-t alkotó nyolc megfigyelőállomás távcsövei 2017 minden napján 350 terabyte-nyi adatot halmoztak fel. Az 55 millió fényévnyire található objektumot nem tudták volna megfogni a hagyományos adatkezeléssel – az adatdömpinget pedig lehetetlen lett volna rendszerezni és képpé alkotni az MI nélkül. A tudomány iróniája, hogy ennek az irdatlan mennyiségű adatnak az eredménye egy homályos, kevesebb mint 5 megabyte-os kép egy parázsló cigarettavégről: és ez a cigarettavég az emberi történelem felfoghatatlan jelentőségű tudományos eredménye, amely a legvégső kérdéseinkre adott válaszokhoz lendített közelebb minket.

Hományi Péter