Harvard University har meddelat att de lanserar en högkvalitativ dataset med nästan en miljon böcker, som nu blir tillgänglig för alla att använda för att träna AI-modeller och andra verktyg. Projektet, som finansieras av OpenAI och Microsoft, är en del av Harvards nyligen skapade Institutional Data Initiative (IDI) och syftar till att skapa en mer jämlik spelplan för AI-utveckling.
Öppnar upp AI för fler
Datasetet innehåller böcker som har skannats genom Google Books-projektet och som inte längre omfattas av upphovsrätt. Med cirka fem gånger så många böcker som det omtalade Books3-datasetet, som användes för att träna AI-modeller som Metas Llama, inkluderar IDI:s databas både klassiker av Shakespeare, Charles Dickens och Dante samt mer obskyra verk som tjeckiska matematikböcker och walesiska fickordböcker.
Greg Leppert, verkställande direktör för Institutional Data Initiative, förklarar att projektet syftar till att ge mindre aktörer och forskare tillgång till högkvalitativa datakällor som annars bara stora teknikföretag kan samla in.
– Vi ser det som ett sätt att jämna ut spelplanen, säger Leppert.
En grund för framtidens AI-modeller
Datasetet är avsett att användas tillsammans med andra licensierade material för att bygga AI-modeller. Leppert jämför det med hur Linux blev en grundläggande plattform för många teknologier.
Microsofts vice VD för immaterialrätt, Burton Davis, understryker att stödet för projektet ligger i linje med företagets vision om att skapa “tillgängliga datakällor” som kan gynna AI-startups. OpenAI, å sin sida, beskriver sin medverkan som en del av en strävan att stödja öppna och etiska AI-initiativ.
Lösning på copyrightutmaningar
I takt med att flera rättsfall om användningen av upphovsrättsskyddade material för AI-träning pågår, ses projekt som IDI som ett försök att undvika juridiska risker. Genom att fokusera på public domain-material kan AI-företag skapa högkvalitativa modeller utan att bryta mot upphovsrättslagar.
Förutom datasetet med böcker arbetar IDI också med Boston Public Library för att digitalisera miljontals tidningsartiklar som nu är i public domain. Exakta detaljer om hur datasetet kommer att göras tillgängligt är ännu inte klara, men Google är en av de aktörer som kan hjälpa till med distributionen.
En del av en större trend
Harvards satsning är en del av en global rörelse för att skapa öppna AI-träningsdatabaser. Exempelvis har den franska startupen Pleias lanserat sitt projekt Common Corpus, som innehåller 3–4 miljoner böcker och tidsskrifter i public domain och har blivit nedladdat över 60 000 gånger på AI-plattformen Hugging Face.
Initiativ som dessa visar att det är möjligt att bygga kraftfulla AI-modeller utan att använda upphovsrättsskyddat material. Ed Newton-Rex, tidigare chef på Stability AI, menar att dessa dataset utmanar idén att det är nödvändigt att använda upphovsrättsskyddade verk för att skapa AI-modeller.
– Om dessa dataset används för att ersätta olovligt insamlat material, kan de verkligen förändra AI-utvecklingen. Om de däremot bara adderas till mixen kommer de mest att gynna stora AI-företag, säger Newton-Rex.
Med Harvards nya satsning tar forskarvärlden ett stort steg mot att göra AI-utveckling mer öppen, etisk och tillgänglig för alla.