Automatisk tekstanalyse (NLP) ved Ahus - Bruk av framtidens metoder for analyse av journaltekst

I journalsystemene til Ahus lagres store mengder fritekst, som i liten grad utnyttes. Formålet med dette prosjektet er å etablere, og videreutvikle, moderne teknologi for automatisk tekstanalyse (Natural Language Processing; NLP). Senere kan disse teknikkene gjøre det mulig å utnytte journalteksten bedre til pasientbehandling, kvalitetssikring og forskning.

​Hovedmålet med prosjektet er å produsere vektorrepresentasjoner av ord, ofte kalt «embeddinger». Ved å analysere statistiske mønstre i rekkefølgen på ord kan disse algoritmene plassere ord med beslektet betydning i nærheten av hverandre i et abstrakt vektorrom, som typisk har noen 100 dimensjoner. En vektorrepresentasjon fungerer som en abstrakt ordbok for datamaskiner, hvor betydningen av hvert ord er representert som en liste med tall. Ordvektorene kan trenes opp uten noen «fasit» som sier hva ordene betyr, men algoritmene er avhengige av store mengder tekst.

Dette prosjektet bruker den samlede kliniske journalteksten i datasystemene til Ahus, hvor pasientenes navn, adresser og personnummer ikke tas med i datagrunnlaget.

Ordvektorene kan benyttes til å søke i journaltekst etter ord som er beslektet med et nøkkelord, og kan gi bedre resultater enn synonymordlister. Den viktigste bruken er likevel at ordvektorene gir en representasjon av ordenes betydning i form av tall, som gjør at de kan benyttes i dyp maskinlæring med kunstige nevrale nettverk. Slike modeller kan for eksempel trenes opp til å oppsummere innholdet i en pasients journalnotater. Denne teknologien har revolusjonert analyse av tekst på Internett, og vurderes å ha stort potensial i helsesektoren.

Prosjektet bruker den samlede kliniske journalteksten i datasystemene til Ahus, hvor pasientenes navn, adresser og personnummer ikke tas med i datagrunnlaget. Det er godkjent av Regional komité for medisinsk og helsefaglig forskningsetikk (REK). Hvis du har spørsmål om håndteringen av informasjon i prosjektet, kan du kontakte prosjektleder (fredrik.dahl@ahus.no) eller personvernombudet ved Ahus (fellesmail.personvernombud@ahus.no).


Samarbeidspartnere

Prosjektet samarbeider med professor Lilja Øvrelid (UiO), førsteamanuensis Øystein Nytrø (NTNU) og Dr Med Pål Brekke (OUS).

Finansiering

Prosjektet finansieres ved en kombinasjon av midler fra Norsk forskningsråd gjennom BigMed-satsningen og interne midler.

Resultater

Resultatene forventes senere i prosjektperioden

Prosjektdeltakere

Fredrik A. Dahl (leder), Petter Hurlen, Tore Gundersen, Haldor Husby, Ane M. Hessen Hjelle, Lilja Øvrelid, Øystein Nytrø og Pål Brekke.

Fant du det du lette etter?