Techtopia podcast: Dansk AI mod bryst cancer

Bare fordi man kan forudse, hvad der kommer til at ske, betyder det ikke, at man har en forklaring på fænomenet.

Techtopia er en podcast om mennesker og deres teknologi udgivet af Ingeniørforeningen IDA, i samarbejde med Mediehuset Ingeniøren og China Experians, støttet af Innovationscenter Center, IDA Forsikring og Elite Electronics of Tomorrow. Mit navn er Henrik Føhns, og det er mig, der bestemmer i Techtopia.

This transcript has minor edits to improve readability. The complete podcast is available on Spotify, Apple Podcasts, PlayerFM, and IDA.


Henrik Føhns:

Hvad foregår der egentlig inde i maskinen, når et neuralt netværk det arbejder? Hvordan når et neuralt netværk, altså en kunstig intelligens, frem til det resultat, som kommer ud til os mennesker på den anden side af skærmen?

Ja, det kan man faktisk godt være i tvivl om nogle gange. Det er det, man kalder for Black Box AI. Og det vil det danske firma, det danske startup på Abzu gøre op med. De vil nemlig gerne lave det, de kalder for Explainable AI, altså et resultat, der kan forklares og forstås, og for Abzu der handler det i høj grad om spørgsmål inden for bioteknologi og medicin udvikling.

Abzu er et usædvanlig kunstig intelligens firma, der er dansk og delvist spansk også. Det ligger i Barcelona, men hovedsageligt ude på Orientkaj, ude i Nordhavnen, i København. Det blæser ganske voldsomt derude, men der er også blæst omkring de ideer, de har. De er nemlig ganske usædvanlige. Så jeg tog ud og mødte firmaets CEO og stifter Casper Wilstrup. Og allerførst skulle vi lige have en forklaring på, hvorfor firmaet hedder Abzu.

Casper Wilstrup:

Jeg har en nørdet hobby, som går ud på at studere nærorientalsk kultur og oldtidskultur. Jeg har altid interesseret mig især for en bestemt gruppering i Mesopotamien, som hedder Sumererne.

A cuneiform tablet
Kileskrift er de der lertavler, som man måske godt kan se for sig.

Sumererne var dem, der opfandt skriftsproget. Det er der ikke så mange der ved, folk tror af en eller anden grund at det var Egypterne. Det er der ikke meget der tyder på. Sumererne fandt på det først og har lavet noget, der hedder kileskrift.

Kileskrift er de der lertavler, som man måske godt kan se for sig. Og jeg har altid interesseret mig utroligt meget for sumerisk kultur, men også for kileskrift som sådan og har til dels lært mig selv at læse sumeriske lertavler, og en ting som man selvfølgelig læser meget om, når man læser sumerisk original litteratur, det er deres religiøse verdensbillede og Abzu er det underjordiske hav, fra hvilket verden udsprang i. I hvert fald tidlige udgaver af sumerisk litteratur. Så på den måde kan man sige Abzu betyder det underjordiske hav, fra hvilket alting udspringer.

Virksomheden hed oprindeligt ikke Abzu indeni mit hoved. Jeg havde lavet en prototype, som jeg havde kaldt ‘Lib Abzu’, fordi det var det underliggende bibliotek til vores kode. Og da vi så var samlet et sted i Pyrenæerne, mig og den oprindelige founder gruppe, sad vi og tænkte “Hvad skal vi egentlig kalde denne her virksomhed” og havde kreative navne som Machine Cognition Lab og så videre på banen. Og så var der en af mine kollegaer, som sagde “lad os nu bare kalde det det er Abzu.” I starten var jeg lidt “Abzu; hvem kan sige Abzu? Der er jo ingen, der ved, hvad det betyder.” Men jeg endte med at synes, at det havde en vis skønhed at bruge et navn, som kommer fra noget, jeg egentlig har som en meget passioneret hobby,  og har haft gennem mange, mange år. Så Abzu underjordiske hav, fra hvilket alting udspringer.

'Abzu' in Sumerian cuneiform
Abzu, det underjordiske hav, hvorfra alt udspringer.

Henrik:

Umiddelbart tror man det er tysk jo.

Casper:

Det havde vi slet ikke tænkt over selv, da vi valgte firmanavnet. Men vi er blevet gjort opmærksom på det sidenhen, at det også betyder til og fra på tysk. Men det er et tilfælde.

Men jeg hedder Casper Wilstrup. Jeg er CEO i den her danske-spanske start-up virksomhed, som hedder Abzu. I Abzu arbejder vi med kunstig intelligens. Jeg er meget interesseret i kunstig intelligens og arbejdet med kunstig intelligens de sidste mange, mange år. Egentlig har jeg en baggrund i fysik, men fundet ligesom fundet et overlap mellem fysik og kunstig intelligens, i hvert fald på det teknologiske plan. Jeg har brugt de sidste 20 år af mit liv i forskellige start-up virksomheder.

Men i 2018 stiftede jeg Abzu sammen med nogle af de bedste high performance computing og AI mennesker, jeg har lært at kende gennem årene.

Casper and Victor listening intently.
Jonas and Eli having a break.
Jonas and Tom sharing a laugh.
Chris and Kevin at a gathering dinner.

Henrik:

Nu er du lidt inde på det selv, fordi du siger at I beskæftiger jer med kunstig intelligens. Ofte når jeg går ud og taler med start-ups, så plejer jeg at spørge allerførst; Hvilket problem løser I?

Casper:

Altså næsten al kunstig intelligens, der findes i dag, er designet til at forudsige eller ‘predicte’ baseret på data og ikke med forklaring som fokus, og det vil sige, at AI i dag er rigtig, rigtig godt til at kunne ‘predicte’, hvad vi køber næste gang på Amazon, eller hvilken film vi har lyst til at se på Netflix næste gang. Men når det kommer til at forklare fænomener, når det kommer til at beskrive, hvorfor bestemte typer ting sker, så kommer de fleste typer kunstig intelligens faktisk til kort, fordi de simpelthen er designet med det andet for øje. Og det vi havde som ambition, da vi stiftede Abzu, var at starte forfra og sige “Lad os lave en kunstig intelligens, som er bygget fra grunden af til at levere forklaringer, i stedet for bare ‘predictions’”.

I et nyligt interview jeg havde, der snakkede vi om, at jeg synes på sin vis, at man kan sammenligne mange af de kunstig intelligens teknikker, der findes i dag med orakler; Vi træner dem, der sidder på data, og så kan vi stille dem spørgsmål, og så kan de svare. Men det de kan svare på er, ‘hvad der vil ske’, ikke ‘hvorfor tingene sker’.

Casper presenting at Tech BBQ 2021

Og det giver fundamentalt set et hul, i især i forhold til forskning, altså vi opgiver egentlig forskning i den traditionelle forstand, hvor vi gerne vil forstå den verden, vi lever i, til fordel for en tillid til, at computeren kan forudsige, hvad der kommer til at ske. Det kan vi komme et stykke vej med, men hen ad vejen med den tilgang, vil vi i bund og grund opleve at videnskabelig fremgang kommer til at gå i stå. Det bekymrede mig og vores founders, og jeg havde en drøm om, at vi kunne bygge en teknologi, som simpelthen kunne adressere det problem head on. Og det er vi lykkedes med.

Vi har i dag opfundet en AI, som har fokus på at levere forklaringer: Hvorfor sker tingene? Hvorfor er et nyt medicin giftigt, ikke om det er giftigt? Men hvorfor er det giftigt?

At predicte at de dør af cancer, det gør selvfølgelig at man kan forberede sig lidt, kan man sige. Men det er ikke rigtig forskningens mål, i mine øjne.

Henrik:

Så det vil sige at det i gør op med, det er det man kender som neurale netværk og denne her teknologi man kritiserer som en black box teknologi. Men hvordan fungerer jeres altså? Hvordan kan I lave noget, som alle de store, IBM og alle mulige andre ikke har været i stand til at gøre?

Casper:

Altså den ide til det vi laver, det var faktisk en idé, jeg fik helt tilbage i 90'erne. Der sad jeg som studerende på Niels Bohr Instituttet, og jeg arbejdede med at bygge computer clusters, altså store grupper af computere, som var koblet sammen på en sådan måde, at man kunne køre store simulationer. Noget som især bliver brugt til kvantefelt simulationer. Og der fik jeg sådan set den idé, at nogle af de her metoder også kunne bruges til at lede efter matematiske forklaringer i data, snarere end bare at lede efter modeller, der kan predicte, som det neurale netværk i bund og grund handler om. Jeg gjorde ikke så meget ved det på det tidspunkt, måske var computer ressourcerne heller ikke rigtig til det tilbage i midt 90'erne. Men jeg har sådan set haft ideen hele tiden; at der var en fundamentalt anderledes tilgang til kunstig intelligens, som vi kunne adressere ved at tænke forfra i designet af systemerne.

Så vi har sådan set bygget vores teknologi, vi kalder det QLattice, med henvisning til, at det har sin oprindelse i nogle metoder, som kommer fra kvantefeltteori. Men teknologien er sådan set designet fra bunden til at levere de mest simple mulige forklaringer, så en måde jeg nogle gange forklarer det på, er, at hvis jeg viser nogle billeder af en bus, så kan det se at det er en bus og det er det neurale netværk super godt til.

Casper showing off the original maths.
Casper forklarer noget matematik og fysik - ligesom han gør.

Men hvis jeg derimod spørger dig, hvor mange røde biler er der i Spanien, så starter der en kognitiv proces. Du kunne tænke, “hvor mange mennesker er der i Spanien, og hvor mange af dem har biler, og hvor mange procentdele af bilerne er røde?” Og så når du ligesom igennem en tanke proces, som kan komme med et bud. Og det vores teknologi er designet til, det er at lave tanke-processen. Så man kan sige at måden at løse dette spørgsmål på, er simpelthen ved at starte med at spørge sig selv “ hvor mange mennesker er der i Spanien, og hvor mange af dem har biler” og så videre? Så systemet vi har bygget, leder efter forklaringerne på, hvordan man når frem til svar snarere end svarene selv. Og det gør neurale netværk ikke, de er simpelthen designet til det andet, så derfor så har vi nogle unikke egenskaber med den teknologi, vi har bygget, og det gør det særligt relevant i nogle sammenhænge, og især når man er enten interesseret i forskning, altså teorier, eller når man har behov for at anden grund at kunne forklare, hvorfor computeren siger det, den siger.

Henrik:

Nu går jeg ikke ud fra at I bruger teknologien til at finde røde biler i Spanien, selvom i har et kontor i Barcelona. Så hvad bruger I teknologien, altså hvad kan i?

Casper:

Ja, altså vi er en lille relativt nystartet virksomhed,vi har snart fire år på bagen. Vi er 30 mennesker. Vi har opfundet en teknologi, som kan bruges i stort set alle forretningsområder, hvor man har behov for forklaringer. Men vi har valgt at fokusere, det er man lidt nødt til når man er en lille virksomhed. Så vi har fokuseret på sundhedsforskning og medicinsk forskning.

Så både vores akademiske arbejde og vores kunder beskæftiger sig med at forstå sygdomme og at bruge den viden omkring sygdomme til at kunne udvælge og designe nye former for behandling, som kan kurere de sygdomme. Så vi går både ind og arbejder med for eksempel at forstå nogle af de mekanismer, der fører til cancer. Det er et meget aktivt emne i vores virksomheder og blandt vores samarbejder, men også at tænke over, at når vi så har forstået mekanismerne bag cancer, kan vi så bruge den nye forståelse til at designe nogle typer medicin eller andre former for behandling, som bedre kan kan håndtere canceren? Så vi har ligesom de her to sider i vores arbejde; det ene er sundhedsforskning, medicinsk sygdomsforståelse i bund og grund, og det andet er behandling. Hvordan kan vi nu designe nogle typiske medikamenter, som kan håndtere denne her situation bedre, så patienterne får et bedre udkomme?

Henrik:

Og grunden til at I kan designe medicin, er fordi I kender årsagerne gennem den anden del af jeres arbejde?

Casper:

Ja, altså et eksempel: Vi har arbejdet en del med brystcancer, hvor ved at analysere nogle data fra omkring 700 kvinder med brystcancer, så nåede vi frem til en relativt simpel forklaring, som involverer to specifikke gener, som har en meget stor betydning for om kvinderne overlever eller dør af deres cancer. Og hvis de har nogle bestemte uhensigtsmæssige niveauer af disse to gener, så er deres risiko for at dø meget større, end hvis de ikke har. Og når man har forstået sådan en sammenhæng; to specifikke gener, som bliver afsat til nogle proteiner i kroppen, så har man også en mulig måde at gå ind og regulere det på.

Lige pludselig ved man, at hvis du kan reducere det her gen ned, et af de to gener der er tale om her er noget der hedder APOB. Hvis man kan reducere APOB niveauet ned, så er der en sandsynlighed for, at kvinden overlever sin cancer simpelthen langt større. Så nu har vi lige pludselig det, der hedder Drugable Target. Vi ved, at man kan gøre noget her, så den næste mission er selvfølgelig at finde ud af, hvordan kan vi lave en type medicin, som rent faktisk reducerer niveauet af APOB. Der kan man så gå ind på alle mulige niveauer; Du kan gå ind på genterapi-niveau, og du kan gå ind med RNA-medicin, og du kan gå ind med molekylær medicin eller måske nogle peptider, det der hedder proteiner. Så der er mange forskellige måder og så kan man gå i gang med at forske på det. Det er selvfølgelig en lang proces.

Multi omics data set.

Jeg lover ikke at bare fordi vi i dag kommer med gode nye forklaringer, som faktisk er ret epokegørende forhold til at forstå forskellige former for cancer og også andre sygdomme, så går der selvfølgelig nogle år, før det er blevet omsat til nogle typer medicin, som man så rent faktisk kan hjælpe i de her situationer. Men som sagt så vi arbejder meget i begge felter, fordi der er ligesom forklarings-problemstillinger i begge situationer.

Først vil du forstå sygdommen og når du har forstået den, så kan du udvikle nogle kandidater, nogle medicintyper som måske kan hjælpe. Så prøver du dem af, typisk først i nogle simulationer eller i nogle enkeltceller og senere hen måske på levende organismer. Og så viser det sig ofte, at de ikke virker sådan som du tror de virker. De er giftige eller de har bare ikke den effekt på det gen du ville nedregulere. Og så vil man sige med typisk machine learning, som er det den farmaceutiske industri i dag vil brug, der kan man gå ind og prøve på at modellere det med neurale netværk. For eksempel, kan vi nu på predicte, hvilke former for medicin, der bliver toksisk, giftige, men med vores teknologi, der kan vi stille spørgsmålet anderledes og sige: “Hvorfor bliver de her former for medicin toksiske”? Og når man har svaret på et hvorfor spørgsmål, jamen så er det også meget nemmere at undgå at det sker, end hvis man bare har sådan en brute-force orakulær predicter, som kan fortælle dig, hvad der kommer til at ske nogle gange nu.

Henrik:

Nu siger du syv hundrede kvinder med Bryst cancer. Altså 700 er jo et meget lille datasæt, i forhold til at man altid hører, at kunstig intelligens kan behandle enorm store datasæt og overskue ting som vi mennesker ikke kan se. Så hvad er fordelen ved at bruge så små datasæt? Og hvorfor virker det, når man normalt skal bruge meget store datasæt? Jeg forstår det ikke helt.

Casper:

Nej, det er også et rigtig godt spørgsmål. Altså især neurale netværk er meget, meget data sultne. De virker faktisk kun, hvis du har titusindvis eller hundredtusindvis af observationer, så en problemstilling som denne her ville være rigtig svær at adressere med neurale netværk.

Årsagen til at vores metode virker er, at vi leder efter simple forklaringer. Simple forklaringer kan findes i mindre datasæt end meget komplicerede forklaringer.

This is what a what a data scientist would call a model decision boundary.

Så når du har 700 kvinder, så kan du ikke finde en forklaring. Hvis du har 700 kvinder og har segmenteret  deres fulde genom, er 3 milliarder basepar. Hvis du vil sige hvad er variationen i de her kvinder, altså sandsynligheden for, at de får dette uheld, det dårlige outcome? Jamen så kan det ikke lade sig gøre. Så skulle du indsamle data om millioner af kvinder, som er døde bryst cancer. Heldigvis er det svært. så vores type teknologi er simpelthen designet til at finde simplere forklaringer og det er det princip der hedder Occam’s Razor, er mere sandsynligt, at de er rigtige, selvom de er baseret på færre observationer. Det er sådan videnskab har opereret i årtusinder faktisk;  simplest mulige forklaringer baseret på data. Og det gør at vi har en fordel her.

Samtidig så leverer vores teknologi jo forklaringer, ikke predictions. Så når forklaringen kommer ud og siger “Jamen, det lader til, at disse to gener, i en uhensigtsmæssig kombination forårsager hurtigere vækst af cancer og derfor større risiko for død”, så kan den forsker der sidder og bruger vores system, sige “at det der, det virker bekendt. Lad mig lige slå APOB genet op i denne vidensdatabase og se hvad vi ellers ved om APOB” og opdage at der allerede er noget forskning herovre hos de her forskere, som har samarbejdet med dem her og som har fundet ud af at det også spiller en rolle i lever cancer, så tager de noget af den viden og så lige pludselig, så aktiverer vi forskerens hoved, i stedet for bare at levere svaret på et sølvfad. 

Og det gør også, at forskeren kan sortere de dårlige forklaringer fra, hvis der er dårlige forklaringer i mikset,af det der kommer ud af en teknologi som vores. Så kan man lige tænke over om det her giver mening, og det gør en kæmpe forskel for alle forskere.

Så som forsker er oplevelsen sådan set at du sidder med et datasæt, og du får præsenteret nogle hypoteser, som det hedder i videnskabs sprog. De her hypoteser kan du som forsker selv forholde dig til og sige “Hvad for en af disse hypoteser har jeg lyst til at gå videre med. Hvad for en skal jeg lave i et nyt eksperiment? Skal jeg måske opstille et eksperiment, hvor jeg ser hvordan  APOB fungerer i virkeligheden i single cell eksperimenter? Så vi er et værktøj i den traditionelle forskningsmetode, snarere end en erstatning for den traditionelle forskningsmetode. Efter min opfattelse er det en forkert erstatning. Black Box AI fører ingen vegne hen, men det er lidt en anden snak.

Henrik:

Måskelidt fjollet spørgsmål, men kan man sammenligne jer med Georg Gearløs’ Tænkehat?

Georg Gearløs’ Tænkehat
Georg Gearløs’ Tænkehat. Han tænker!

Casper:

Ja ja egentlig. Ja, det er faktisk en meget god sammenligning. Georg Gearløs’ Tænkehat får ham til at tænke bedre. Den erstatter ham ikke, så den sammenhæng kan jeg godt lide.

Henrik:

Nu nævner du det hersens arbejde med de 700 bryst cancer patienter. Hvad har i ellers lavet?

Casper:

Vi har arbejdet med så mange forskellige sygdomme; Alzheimers, præeklampsi, lever cancer. 

Jeg selv har arbejdet en del med præeklampsi, det er svangerskabsforgiftning, som det hedder på dansk, som er en lidelse, som rammer kvinder. Heldigvis ikke lige så alvorligt som bryst cancer. Men stadigvæk relativt alvorligt og koster mange foster liv hvert år, eller måske ikke mange, men nogen, hvor vi har arbejdet med at forstå, hvad er det for nogle mekanismer, som gør, at nogle kvinder udvikler denne her tilstand? Her er svangerskabsforgiftning, som er karakteriseret ved meget højt blodtryk og nogle gange ender med, er man nødt til at afbryde graviditeten. 

Men i bund og grund, lægger vi værktøjet ud til nogle forskere, så nogle gange, så er vi personligt involveret, præeklampsi taler jeg om her fordi jeg har været personligt involveret, og andre gange, så sidder der nogle forskere som arbejder med teknologien på egen hånd. Så der er hundredvis af sygdomme, som er blevet studeret ved hjælp af vores teknologi. 

Jeg tror nok som et overordnet tema har vi en relativt stor interesse i cancer. Det er sådan et område, hvor vores teknologi er meget egnet, fordi det er svære spørgsmål, hvor der ofte er lidt som at lede efter en nål i en høstak, at forstå de mange, mange, mange forskellige former for cancer. Men ved at have en teknologi som vores, så bliver man rigtig god til at lede efter den her nål i en høstak, så det har en karakter af en problemstilling, hvor vores teknologi er særligt velegnet, så der ser vi rigtig meget.

Henrik:

Men er den særlig velegnet til, hvad skal man sige - Små sygdomme? Altså hvor der ikke er så mange tilfælde eller sygdomme som er meget sjældne.

Casper:

Det er i hvert fald dér hvor forskellen bliver allerstørst, fordi hvis du har relativt små sygdomme, så har du også relativt små datasæt og de gængse machine learning teknologier derude, de kommer til kort med små datasæt.

Nu siger du 700 er et lille datasæt, ja, men præeklampsi datasættet er heldigvis endnu mindre. Eller nogle af de andre sygdomme, vi har arbejdet med, der er vi nede i hundrede eller 80 patienter nogle gange, og det er forklaringens rum du arbejder i. Det består af hele menneskets samlede genom, hvis man prøver på at forstå, hvorfor nogle mennesker udvikler en bestemt sygdom, og vi tror måske, der en eller anden genetisk forklaring. Men du har så mange gener - Vi har jo så mange gener. Hvordan kan du det? Det er et meget stort rum at søge igennem, og det kan for eksempel neurale netværk bare ikke gøre.

Henrik:

Nu kommer det på en eller anden måde til at lyde som om at nu har i opfundet den her ting, og så er det bare enormt nemt at køre gennem de her datasæt, men det er det vel ikke? Hvad er omkostningerne med det her? Er det en dyr teknologi I bruger eller?

Casper:

Nej, altså teknologien, den er sådan relativt computer-intens, så vi er ligesom andre AI maskine teknologier, så kræver det nogle ret kraftfulde computere. Det er også derfor, det først er blevet muligt nu.

Henrik:

Men hvad kræver det?

Casper:

De fleste af vores analyser kører vi på et cluster, som består af 15-20 almindelige computere, som umiddelbart står i Tyskland rent fysisk. Så større er det såmænd heller ikke. Men så tager det måske en halv time til en time, nogle gange et halvt døgn at analysere et datasæt. Hvis vi havde nogle større computer, så kunne det gå lidt stærkere. Så i den sammenhæng adskiller vi os ikke fra andre machine learning teknologier, men det er klart, at det er en del af noget, som man skal tage med i billedet.

Men nu spurgte du, hvor barriererne er. Hvorfor har vi ikke bare besvaret spørgsmålet på alle de her sygdomme? Det handler ikke om hverken algoritme eller computerkraft. Det handler om data. Så i sidste ende, hvis vi vil komme hurtigere frem med at forstå sygdomme og blive bedre i stand til at behandle dem, så handler det også om at få samlet de data sammen og gjort det tilgængeligt for algoritmer, sådan så vi rent faktisk kan begynde at stille spørgsmålene til data.

Det er i dag den helt store forhindring for at komme videre. Der er ligesom to udfordringer - der er de regulatoriske udfordringer, som handler om privacy og det er der jo fuld respekt for, men der kan man ligesom løse ved at sige, at vi flytter algoritmen hen til data, istedet for data ind til algoritmen. Det er vores teknologi i bund og grund designet til af samme grund.

Men derudover handler det også om dataindsamling og at få data til at være korrekt. Det er jo ikke super nemt at samle data ind på patienter, med eller en relativt sjælden cancer sygdom. Det tager mange år. Du skal monitorere dem, samle dem sammen og få taget de her gen test, og hvis det er en genetisk vej, du vil kigge efter, så skal du secventiere deres genom og så videre. Så det er både tidskrævende og dyrt og i øvrigt også relativt tit behæftet med mange fejl, den proces, som fører frem til data. Det er den største udfordring for virkelig at rykke noget på sundhedsforskning.

Henrik:

Så data opsamlingen i virkeligheden og sørge for ensartede data og så videre og at de eksisterer, de data I skal bruge?

Casper:

Når det handler om biologiske systemer, ja, så er det. Men det er så den del, som handler om at forstå sygdommene.

At behandle sygdommene, det er en anden snak. Der kan man generere data i laboratoriet. For der kan man generere nogle nye molekyler, og så kan man sige “og hvordan virker de på en enkelt celle?” Så der behøver man sådan set ikke at gå ud og vente på, at folk bliver syge. Der kan du jo simulere det på forskellige måder, men inden i computersimulationer eller i enkelte celler. Så der kommer til at ske rigtig meget inden for forskning både i sygdomsforståelse, men også behandling af sygdomme i disse år her.

Og det er spændende for os som virksomhed at være i hjertet af det her, og ligesom se hvor hurtigt det egentlig går.

Henrik:

Når du siger det der med at I flytter algoritmen hen til data, det vil sige analysere data dér hvor data er, så de skal ikke udlevere dem. Så folks identitet bliver heller ikke afsløret.

Casper:

Ja, altså, der er et gennemgående tema i den måde, vi i Abzu tænker, og som handler om transparens og etik, men også privacy. Vi prøver på at have den slags relevante betragtninger med i det arbejde, vi laver.

Et samlet breach af nogle af de datacentre, vi har og så er spillet ude, ikke?

Så fra starten af har vi designet vores teknik, og vores algoritme til at kunne fungere i en sammenhæng, hvor hvor man skal respektere folks data privacy. Så man kan sige at det etiske aspekt i den måde, vi tænker på det på, er både at vi synes, det er mere etisk at forklare ting end bare black box prediction. Det kan være i alle mulige sammenhænge, men det handler også om at kunne integrere forståelsen af data ved at gå hen til data og analysere dem dér, så man slipper for at lave de her meget store opsamlinger af data.

Jeg synes for eksempel selv, det er en relativt stor trussel eller risiko mod vores allesammens fremtid, at vi samler kæmpestore genetiske databaser sammen om alle danskere i nogle centrale data warehouses. Det er kun et spørgsmål om tid, før det slipper ud, og så kan der gøres mange ting med genetiske data, som jeg personligt er ret bekymret for. Så en del af løsningen er at lade være med at samle data sammen i kæmpestore datacentre. Men at flytte sin analyse af data derud, hvor den er, så er vi meget mindre sårbare over for data sikkerheds problemstillinger som samfund.

Henrik:

Så du mener vores data? Vores sundhedsdata skal være opbevaret forskellige steder?

Casper:

Ja, det vil jeg synes. I bund og grund er distribueret data opbevaring meget mere robust. Et samlet breach af nogle af de datacentre, vi har og så er spillet ude, ikke?

Så hvis vi har samlet alle danskeres genom i en central database, og den bliver kompromitteret, så er den kompromitteret. Hvis det er lokal storage ude i de enkelte steder, hvis vi nu kan finde metoder, så vi kan analysere det uden at samle det sammen, så er systemet meget mere robust.

Det tror jeg i bund og grund, at vi som samfund bør tænke meget mere over; at lave distribueret dataopbevaring af en skadesminimerings årsag.

Henrik:

Hvis nu uheldet skulle være ude eller nogen skulle kompromittere data. Hvad er risikoen? Altså hvad kan det egentlig bruges til, for forskellen på du og jeg er jo egentlig ikke den helt store. Så der er måske nogle mindre forskelle, som gør, at jeg har en sygdom, som du ikke har eller omvendt. Men hvad er risikoen egentlig?

Casper:

Jeg har nok lidt to svar på det: det ene er at jeg kan måske godt komme med nogle eksempler på en risiko omkring den personlige data om os, hvis du kan predicte på basis af individets genom, kan det misbruges i rigtig mange sammenhænge? Det er jo en samfundsbeslutning, om vi vil misbruge det. Og det er også en samfundsopgave at forhindre misbrug for i sidste ende så er genom forståelse jo derude, og vi som samfund har en opgave med at sikre os, at det ikke bliver misbrugt til for eksempel profilering i forhold til forsikring eller finansielle ydelser eller prioritering af sundhedsbehandling og ud fra hvem der måske er mest fremtid i, og de ting, som vi etisk ikke bryder os om. Det er vores beslutning som samfund, hvad der er etisk, hvad der er uetisk. Noget af det kan løses ved, at vi regulerer misbrug. I bund og grund siger “Det er ikke fordi, vi har tænkt os at gøre det umuligt at gøre det. Vi har bare tænkt os at forbyde at man gør det.”

Det bruger vi meget, for eksempel i forsikringsbranchen; De her parameter må du tage med når du beslutter hvad folks forsikringspræmie skal være, og de her parametre, må du ikke tage med.

Men det kunne også være, at disse data ender i hænderne på nogle mennesker, som ikke føler sig underlagt af regulatoriske krav af den art, og som kan bruge det her på alle mulige måder i forhold til at hakke til os med holdningsbearbejdende materiale på internettet eller alle andre metoder. Eller engang i fremtiden. Nu vil jeg jo ikke være dystopiker og sige at vi får et overvågningssamfund, men hvis vi nu endte med at have et samfund, hvor myndighederne havde mere magt, end de måske havde godt af, så ville det måske også være meget rart, at de i det mindste ikke kendte vores allesammens genom. Men i bund og grund er risikoen ved sundhedsdata profilering jo hypotetisk. Der er ikke nogen tvivl om, at det kan misbruges.

Men det der i virkeligheden er tvivl om er, om vi kommer til at tillade det misbrug. Men ved ikke at have det spredt ud i den store samlede verden, så er der i hvert fald nogen form for misbrug, vi kan gardere os imod.

Henrik:

Så bevæger vi os over mod en overvågningsdiskussion, som egentlig handler om at man ikke ved hvad for et styre man har i morgen, og hvis man har givet nogle tilladelser nu, så skal man huske på, at de også gælder i fremtiden.

Casper:

For mig er det et hjerteblod at vores teknologi bringer videnskab tilbage i førersædet. Jeg synes at de sidste 20-30 år har vi set en tilbøjelighed til at give op på teori. Nu samler vi bare data sammen og bygger de her super computing AI metoder, og så kobler vi bare de to ting sammen; AI og Big Data og så kan vi besvare alle mulige spørgsmål.

Og hvis Sir Isaac Newton eller Galileo havde gjort det, så var vi ikke kommet nogle vegne. Det kan da godt være Galileo havde brugt sin super computer til at regne ud hvor lang tid det tog før fjeren eller stenen ramte jorden, men hvis ikke han havde opstillet de forståelser han gjorde i teoretisk form, så var vi ikke kommet videre derfra.

Det er altså rigtig rart, både for kunden selv, men også for at kreditinstitutionen kan sige “fordi sådan, sådan og sådan”, for ellers opstår der hurtigt en mistanke om at der er nogle ubehagelige biaser involveret i nogle af disse beslutninger. Nogle gange er der det faktisk også, og endda uden at nogen ved det. Så ved at bringe transparencen frem, som en metode som vores jo gør, så bliver det åbenlyst for enhver, hvad det er modellen træffer sin beslutning ud fra, fordi den er der, åbenbaret for dine øjne: “det her er forklaringsmodellen som vi har tænkt os at bruge til at træffe beslutningen for din credit rating”. Det gælder jo en bred kamp.

Hvis jeg skulle have af vide at jeg måtte ikke få en bestemt form for kemoterapi, mens en eller anden der havde samme cancer som mig godt måtte, så vil jeg jo egentlig godt vide hvorfor. Og det er ikke bestemt rart at få af vide at der er et eller andet neuralt netværk der har gransket mit genom og sagt at det ikke er særlig smart at give mig det. Så vil jeg faktisk hellere vide at det er fordi at denne form for treatment ikke virker på folk som har det forkerte niveau af det her gen her, og det har jeg desværre. OK, så må jeg jo dø - men i det mindste ved jeg hvorfor det var at den her medicin ikke ville virke på mig.

Så i rigtig mange sammenhænge er det en forudsætning for egentlig en etisk beslutningsproces, at man kan forklare sine beslutninger, og det tror jeg i for høj grad er tillid til traditionelle AI metoder, som neurale netværk, kan risikere at tage fra os. Når det så er sagt, så er der jo masser af anvendelser af neurale netværk og black box AI som er fuldstændig ansvarlige og fornuftige og super værdiskabende, så det er ikke fordi det ene udelukker det andet.

Jeg kan godt lide en formulering som en bestemt økonom-psykolog-forsker Daniel Kahneman, som mange måske har hørt om, som har beskrevet det her som system 1 og system 2. Jeg synes at traditionel AI og neurale netværk minder om System 1 i Daniel Kahneman’s model, mens den form for AI vi laver, minder om System 2. Og der er plads til begge dele. Der er plads til de her hurtige data baserede beslutninger som neurale netværker kan levere og der er plads til de mere rationelle, overvejede og fornuftsstyrede former for beslutninger som System 2 i Daniel Kahneman’s model kan levere. Så det er ikke enten eller, men både og.

Henrik:

Det fortæller Casper Wilstrup, administrerende direktør og co-founder af Abzu, et kunstig intelligens firma som laver explainable AI. Det her interview markerer starten på en serie som vi har tænkt os at lave her på Techtopia, som omhandler kunstig intelligens i sundhedssektoren. We will revisit this subject over the next few months.

Newsletter sign up

Hi, Casper and Elyse here! If you want to talk about podcasts or the rise of the "AI oracle", then sign up for our newsletter.