AI och immaterialrätt – del 1 av 3
Detta är den första delen gällande AI och immaterialrätt. Du kan läsa den andra delen här och den tredje delen här.
Delphi har skrivit om AI och immaterialrätt tidigare. Det har dock hänt mycket på området de senaste åren, och vi tycker därför att det är värt att återbesöka ämnet igen. Klicka här om du är intresserad av att läsa det ursprungliga inlägget från 2019.
Inledning
AI och immaterialrätt är ett komplext ämne som innehåller både rättsliga och tekniska utmaningar. Två av de största utmaningarna rör användningen av upphovsrättskyddat material vid träning av AI samt huruvida verk framställda av AI kan ges immaterialrättsligt skydd. Denna artikel, som tar sikte på det förstnämnda, är den första av tre i denna artikelserie som syftar till att reda ut många av de frågor som som uppkommit till följd av den explosionsartade utvecklingen på detta högaktuella område.
I september så stämdes OpenAI, företaget bakom populära ChatGPT, av flertalet amerikanska författare för användning av deras material vid träning av sin AI modell. Detta följer stämningar från i våras där AI-företag som tillhandahåller text-till-bildtjänster stämdes av arkivfotobolag och konstnärer för att ha använt deras upphovsrättskyddade verk utan tillåtelse eller kompensation.
Träning av stora språkmodeller
Stora språkmodeller (LLM-modeller) är den typ av generativ AI som används i de chatbotar och text-till-bildtjänster som idag finns på marknaden. LLM-modeller är kraftfulla verktyg som kan analysera och generera text baserat på de mönster de har lärt sig från stora mängder data.
Träningsprocessen för en LLM-modell börjar med datasamling. En omfattande mängd data samlas in för att tjäna som grund för modellens inlärning. Denna information kan bestå av artiklar, böcker, webbsidor, bilder och annan skriftlig information. Efter insamlingen följer en viktig fas av förberedelse där datan rensas, sorteras och eventuellt märks upp för att vara i ett användbart skick. Denna process kan göras både manuellt men vanligaste vid träning av LLM-modeller är att det sker på automatisk väg utan mänskligt ingripande.
När datan är redo, inleds den faktiska träningsprocessen. Modellen matas med datan och med hjälp av algoritmer börjar den identifiera mönster, relationer och strukturer i texten eller bildmaterialet. Genom att iterativt justera sina interna parametrar, lär sig modellen att förutsäga nästa ord i en sekvens eller svara på frågor baserat på den information den har fått. Modellen börjar med andra ord med en sorts ”gissningslek” baserad på informationen men desto mer data AI:n har, desto mer precisa blir gissningarna.
Efter träningen valideras och testas modellen med nya data den inte har sett tidigare. Detta steg säkerställer att modellen inte bara har memorerat datan den tränades på, utan faktiskt har lärt sig generella mönster som den kan applicera på ny information. Om modellen inte presterar tillräckligt bra, kan träningen upprepas med justerade algoritmer och ytterligare data för att förbättra modellens prestanda.
Upphovsrätten och användning av upphovsrättsskyddat material
Upphovsrätten ger skaparen en ensamrätt att offentliggöra, exploatera och bestämma över sina verk. Denna rätt gäller specifika uttrycksformer och originalverk, och är avsedd att förhindra otillåten kopiering, modifiering och utnyttjande av sådana verk.
Enskild data eller datasamlingar som innehåller upphovsrättsligt skyddade verk, kräver vanligtvis tillstånd från rättighetshavaren för att skapa kopior av verken eller göra dem allmänt tillgängliga, om det inte finns något undantag inom upphovsrätten. Upphovsrätten täcker uttrycksformer som texter, grafik, ljud och bilder som uppfyller kravet på originalitet. Ren information och alltför enkla uttrycksformer som inte uppfyller originalitetskravet skyddas inte. I praktiken kan man anta att datasamlingar med mänskligt skapade alster innehåller upphovsrättsligt skyddade objekt.
Användningen av upphovsrättsskyddat material vid träning av grundmodellen sker genom att information samlas in från webbsidor, såväl legala som illegala, av ett automatiskt verktyg som kallas för web crawler. Informationen på webbsidan som samlas in kan utgöra e-böcker, utdrag ur texter, bilder och olika digitala kopior av kända verk. Detta verktyg ägnar sig sedan åt webbskrapning där all information på webbsidan samlas in och sedan lagras för att användas i träning av AI modeller. Bloggen har tidigare skrivit om detta här. Till exempel så innehåller träningsdatan för Stable Diffusion, ett AI verktyg som används för att generera bilder, miljarder med bilder skrapade från hundratals webbsidor. OpenAI har inte gått ut med hur stort dataset ChatGPT 4 har tränats på men den tidigare modellen, ChatGPT 3.5, har tränats på 300 miljarder ord. När träningen sedan påbörjas är detta material en del av den datamassa som samlats in och har den inte urskilts i sorteringsstadiet så är det omöjligt att senare särskilja upphovsrättsskyddat material och material som får användas.
Huvudanledningen till att AI-bolag vill använda sig av upphovsrättskyddat material som böcker, artiklar eller bilder är att detta material är särskilt värdefullt för att skapa effektiva och välfungerande AI-modeller. Det finns mängder av data på internet som inte är upphovsrättsligt skyddat, exempelvis olika typer av statistik eller offentlig information som används oproblematiskt vid träningen. Värdet i böcker är att de inte endast innehåller textmassa, utan beskrivningar av hur saker ser ut, känslor, tankar och avancerad semantik och språkliga nyanser. För att AI-modellerna ska kunna interagera på ett sätt som upplevs som mänskligt krävs denna typ av mer avancerad språkförståelse.
Risker och undantag
Att AI-bolag har använt sig av upphovsrättsligt skyddat material är ostridigt. Det har framkommit genom uttalanden från AI-bolagen själva och även uppenbarats när generativa AI har skapat texter med citat från böcker eller bilder med vattenstämplar från bildarkivs webbplatser. Vid användning av upphovsrättsskyddat material i träning av AI-system så är det främst två risker som uppkommer: olovligt tillgängliggörande till allmänheten och olovlig exemplarframställning enligt 2 § URL.
Olovligt tillgängliggörande för allmänheten sker om en AI-modell i sitt resultat levererar upphovsrättsskyddat material som delar av verk eller bilder. Detta kan åtgärdas genom kalibrering av begränsningar i de svar som AI-modellen lämnar, på samma sätt som de flesta modeller stoppas från att använda ovårdat eller sexuellt språk kan denna risk minskas genom justering av modellens interna parametrar.
Exemplarframställning är svårare att undvika och sker ett antal gånger under träningsmomentet. Det sker när texter och bilder samlas in och sparas men även vid förädling av datan genom exempelvis rensning, märkning och omkalibrering. Huvudregeln är att olovlig exemplarframställning är otillåten. Det finns dock en undantagsregel, som bygger på artikel 5.1 i infosoc-direktivet, för framställning av tillfälliga kopior i 11 a § URL. Syftet med undantaget tar sikte på att tillåta de tillfälliga exemplar som uppstår i olika internetservrar när verk överförs, eller när användare av en webbsida tittar eller lyssnar på ett verk. Undantagsregeln är dock inte ordagrant begränsad till framställning av tillfälliga kopior som uppkommer vid besök på webbplatser utan ger användaren rätt att framställa tillfälliga exemplar om: ”framställningen utgör en integrerad och väsentlig del i en teknisk process och om exemplaren är flyktiga och har underordnad betydelse i processen.”
EU-domstolen har i sin praxis klargjort att tillfälliga exemplar som uppkommer i samband med datainsamling och databehandling får framställas med hjälp av undantaget enligt Infopac-målen. Domstolens överväganden i dessa mål överlappar till viss del med träning av AI-system och indikerar att viss form av datainsamling och databehandling som sker vid utveckling av dessa (som t.ex. vid träning av algoritmer) därmed skulle kunna vara tillåten. Svensk domstol har dock inte prövat detta resonemang, och med tanke på att undantagsregeln inte har skapats med AI i åtanke och att undantagsregler principiellt ska tolkas restriktivt, finns därför en betydande rättslig osäkerhet och anledning att vara försiktig vid användning av upphovsrättskyddat material vid träning av AI.
Edge AI
En teknik för att komma runt problemet med exemplarframställning vid AI-träning är användning av sk. ”Edge AI”. Edge AI innebär att flytta inlärnings- och analysprocesser till datakällan istället för att överföra originaldatan till en central träningshub. AI-modeller kan distribueras över internet för att tränas och utföra analyser på plats. Förutom att detta innebär att problemet med exemplarframställning försvinner så skapas ökad effektivitet i form av snabbare analysprocesser, lägre latenstid och press på bandbredden och ökad datasäkerhet.
Sammanfattning
AI-modellers träning involverar omfattande datainsamling, inklusive texter, bilder och annat material, som används för att lära systemen att identifiera mönster och förståelse. Denna process inkluderar automatiserad insamling, rensning och organisering av data, följt av den faktiska träningsfasen där modellen lär sig genom iterativa justeringar.
Upphovsrätten skyddar originalverk och ger upphovsmän exklusiva rättigheter, vilket leder till juridiska utmaningar när AI-modeller tränas på skyddat material. En stor mängd av det material som används för att träna AI kan vara upphovsrättsskyddat och får därmed inte användas utan tillstånd. Trots detta är sådana data, särskilt litterära verk, avgörande för att utveckla avancerade AI-system eftersom de innehåller rika språkliga och kreativa nyanser.
AI-företag har bekräftat användningen av upphovsrättsskyddat material, vilket avslöjas när deras system genererar resultat som direkt citerar skyddade verk eller bilder med vattenstämplar. Medan viss användning av upphovsrättskyddade verk kan vara tillåtna under EU-lag, finns det en betydande rättslig osäkerhet kring detta, eftersom den inte har prövats i domstol samt att lagstiftningen inte skapades med AI-användning i åtanke.
En lösning för att träna AI på upphovsrättskyddat material är Edge AI, där AI-modeller tränas direkt vid datakällan istället för att överföra data till en central hub. Detta minskar inte bara risken för brott mot upphovsrätten, utan förbättrar även effektiviteten och datasäkerheten i AI-träningen.
Denna artikel är skriven av Associate David Suh.
Relaterat innehåll