Att granska filmer och utifrån innehållet sätta olika åldersgränser, s.k. åldersklassificering, är något som tar oerhört mycket tid i anspråk. I takt med att mängden filmer och rörligt material ökat kraftigt på senare år har det i praktiken blivit omöjligt att hinna med. Ett projekt inom Visual Sweden har tittat på hur granskningarna skulle kunna genomföras på ett nytt och mer tidseffektivt sätt med hjälp av maskininlärning, utan att tumma på kvaliteten.
Statens medieråd är de som traditionellt granskar och fastställer åldersgränser för filmer som ska visas offentligt. Det är en tidskrävande uppgift som kräver specialiserad kunskap om barns utveckling.
– Det har varit ett spännande projekt. Åldersklassificering innebär komplexa bedömningar där många olika faktorer ska vägas in, säger Johan Karlsson, filmgranskare vid Statens Medieråd. Det har därför varit väldigt intressant att se hur AI-modellen förbättrats och i många fall lyckas hamna nära de mänskliga bedömningarna. Det produceras idag enorma mängder rörlig bild som läggs upp på nätet. Att bedöma allt detta på det sätt som vi arbetar på Statens medieråd är knappast görligt. Lösningar av det slag som vi arbetat med i det här projektet kan absolut vara till hjälp när det handlar om större filmmängder än de som Statens medieråd hanterar.
Bakom projektet står, förutom Statens medieråd, professor Michael Felsberg och doktorand Johan Edstedt vid Computer Vision Laboratory (CVL) på Linköpings universitet. Eftersom det sedan tidigare inte fanns några stora öppna dataset med expertbedömda videoklipp började man att skapa ett sådant för att kunna träna sina modeller. Detta skapades genom klipp från filmtrailers via Njutafilm och Folkets Bio. Medarbetare vid Statens medieråd fick därefter gå igenom tusentals klipp vardera, oberoende av varandra. Detta analyserades och det visade sig att de var konsekventa. Därefter analyserades de tränade modellerna där man också utvecklade ett nytt prestandamått för åldersklassificering, som gav nya insikter.
– Vi kom fram till att modellerna som tog hänsyn till både ljud och bild presterade signifikant bättre än vardera modaliteten, säger Johan Edstedt, doktorand vid Linköpings universitet. I slutändan så kom vi fram till att våra bästa modeller i snitt hade ”två år fel” i sin åldersbedömning, i jämförelse med våra experter som hade ”ett år fel” när de jämfördes mot varandra. Dessa resultat indikerade att det är fullt möjligt att träna modeller på detta problem, och att med ytterligare data möjligtvis kunna matcha experternas träffsäkerhet.
Projektet som nu genomförts kan möjliggöra vidare forskning inom området som i längden gynnar både barn och vuxna, då innehåll som skulle kunna vara skadligt för barn kan undvikas. Det har också gjort att Statens medieråd höjt sin kompetens inom maskininlärning och datahantering.
– I längden leder våra resultat till både bättre filmgranskning, och potentiellt till ett framtida automatiskt system som kan hjälpa till att hantera stora mängder visuell media, säger Johan Edstedt.
Johan Edstedt och Michael Felsberg arbetar nu med att tillföra fler klipp från trailers med höga åldersgränser till detta dataset vilket gör tränade modeller mer robusta för sådana klipp. Det kommer också att genomföras en ytterligare, mer omfattande analys av det.
– Några intressanta frågor där innefattar sådant som om vi kan hitta specifika situationer som uppfattas som skadliga samt vilken roll som ljud och bilder spelar in i skadlighet. Dessa frågor har tidigare besvarats kvalitativt av experter, men med hjälp av vårt klippbaserade dataset skulle vi kunna få kvantitativa svar på detta, avslutar Johan Edstedt.