INNSIKT

Venter på avklaring: Pål Nedregotten er ny teknologidirektør i NRK. Han tror både NRK og resten av Medie-Norge må avklare hvorvidt de skal dele innholdet sitt med kommersielle KI-selskaper.

NRK lar KI-giganter «skrape» nettsiden: - Åpenbart et brennbart tema

Teknologidirektør Pål Nedregotten tror bransjen beveger seg i retning av avtalefestet lisensiering av eget innhold til trening av språkmodeller.

Tobias Fredø Journalist

Publisert 06.02.2024 - 15:28 Sist oppdatert 22.02.2024 - 15:25

De siste ukene har Kampanje kunnet fortelle om norske mediers innsats for å stable på plass norske generative språkmodeller, blant annet ved NorwAI sitt forskningsprosjekt NorGPT, hvor Schibsted har inntatt en lederrolle, men hvor også NRK er involvert.

Les også: Kunstig intelligens-satsing splitter norske mediehus: - Ikke vært rett frem

Foruten egen utvikling av norske språkmodeller, er det fortsatt uavklart hvordan den norske mediebransjen vil møte de ledende utenlandske selskapene som i dag har kommersielle KI-modeller på markedet.

Like før jul kunne det tyske mediekonsernet Axel Springer meddele at de har inngått en avtale der de lisensierer sitt innhold for en årlig sum til Microsoft-eide OpenAI, selskapet som utvikler ChatGPT. Avtalen skal ifølge Financial Times gi det tyske mediekonsernet årlige inntekter i 100-millionersklassen.

Slik avtalefestet deling av innhold er den retningen teknologidirektør i NRK, Pål Nedregotten, tror bransjen beveger seg mot.

- Norske medier har en pliktutleveringsavtale med Nasjonalbiblioteket, som er basis for deres trening av språkmodeller, så slik deling foregår altså i Norge allerede. Men grunnleggende tror jeg at vi beveger oss i en retning der det går mot avtalefestet deling, altså om modeller skal trenes på norsk innhold, så må det ligge en avtale i bunn. Men NRK må selvfølgelig ta en selvstendig avgjørelse på eget grunnlag.

Les også: Advarer norske medier i KI-kampen: - Som å kjempe mot vindmøller

- Et åpenbart brennbart tema

Nedregotten sier NRK ikke har tatt en beslutning enda på om de bør tilgjengeligjøre innholdet sitt for aktører som Microsoft og Google, slik at de kan trene opp sine språkmodeller.

- Men det er et tema jeg tipper diskuteres mange steder. Opphavsrett til treningsdata for språkmodellene er et åpenbart brennbart tema, og det er formodentlig det som ligger til grunn når OpenAI får tilgang til Axel Springers og Associated Press' innhold.

- Det er bevegelser i Norge også, og det vi ser nå er begynnelsen på noe som antakelig kommer til å måtte avklares i løpet av året.

- Er det noe som taler for at NRK bør eller kan dele sitt innhold?

- Det er en policy-beslutning, og det er naturlig å ta utgangspunkt i NRK-plakaten og se hva den gir oss av muligheter eller krav. Deling av innhold kan treffe flere punkter i vedtektene våre, og det må vi diskutere grundig.

- Har NRK fått noen henvendelser fra KI-gigantene med tanke på å dele innhold til deres språkmodeller?

- Nei, ikke meg bekjent. Som en generell observasjon tror jeg det går i retning av at språkmodeller skal trenes på grunnlag av en avtale.

Utenlandske selskaper kan skrape NRK for data

I dag kan utenlandske selskaper skrape data fra NRK sine nettsider for å trene sine språkmodeller. Det innebærer at en programvare tråler nettsteder og plattformer for å samle inn informasjon.

NRK har enda ikke tatt en avgjørelse på om de skal blokkere selskaper som OpenAI, selskapet bak ChatGPT, slik blant annet den britiske statskringkasteren BBC har gjort.

Skraping av innhold gir langt i fra like god kvalitet på innholdet, som det OpenAI vil få gjennom sitt samarbeid med Axel Springer, der innholdet til mediekonsernets utgivelser utleveres og der ChatGPT vil få nær sanntidstilgang til innholdet som lages.

- Det siste er strukturert med høyere kvalitet, og har følgelig mye høyere verdi for de som utvikler språkmodeller, kommenterer Nedregotten.

- En brukskombinasjon av store og små modeller

Foruten at det potensielt sett kan ligge nye inntektstrømmer for norsk mediebransje à la Axel Springer sin avtale med OpenAI, påpeker Nedregotten at deling av innhold med tech-gigantenes språkmodeller, kan gi bedre modeller som er trent for det norske markedet.

- Oppsiden er jo at språkmodellene setter oss i stand til å automatisere og gjøre ting raskere, bedre, annerledes eller på nye måter vi ikke kunne før. Hvilke modeller det er snakk om er et åpent spørsmål, de må være gode nok, sier NRKs teknologidirektør.

Han trekker frem NRK sitt lovpålagte språkkrav om 25 prosent nynorsk som et eksempel der utenlandske språkmodeller ikke er til mye hjelp.

- De modellene støtter jo ikke nynorsk, sier Nedregotten før han fortsetter:

- Og NRKs samiske språkoppdrag er enda lenger unna å fange de internasjonale gigantenes oppmerksomhet. Jeg tror vi vil se en brukskombinasjon av ulike store språkmodeller og små spesialtrente modeller på vårt eget innhold.

Les mer: Schibsted-rivaler avventer KI-samarbeid: - Har ikke uendelig med ressurser