Google har introducerat sin senaste AI-modell, Gemini 2.0 Flash, som nu kan generera text, bilder och ljud. Modellen är ett svar på den ökade konkurrensen från andra aktörer som OpenAI och är designad för att leverera högre prestanda och fler funktioner än tidigare versioner.
Avancerade funktioner
Gemini 2.0 Flash kan använda tredjepartsappar och tjänster, vilket gör det möjligt att integrera med Google Search, exekvera kod och mycket mer. Dessutom har den möjlighet att skapa och redigera bilder samt analysera foton, videor och ljudfiler för att besvara frågor om innehållet. Modellen kan även generera ljud med anpassningsbara röster optimerade för olika språk och dialekter.
– Du kan be den att prata långsammare, snabbare eller till och med säga något som en pirat, sade Tulsee Doshi, produktchef för Gemini-modellen på Google, under en presentation.
Begränsad lansering
En experimentell version av Gemini 2.0 Flash är nu tillgänglig via Gemini API och Googles AI-plattformar AI Studio och Vertex AI. Funktionerna för att generera bilder och ljud erbjuds dock endast till “early access partners” fram till en bredare lansering i januari.
Google planerar att integrera 2.0 Flash i flera av sina produkter under de kommande månaderna, inklusive Android Studio, Chrome DevTools, Firebase och Gemini Code Assist.
Förbättrad prestanda
Gemini 2.0 Flash är dubbelt så snabb som den tidigare modellen Gemini 1.5 Pro, enligt Googles tester, och erbjuder betydande förbättringar inom områden som kodning och bildanalys. Den ersätter nu 1.5 Pro som flaggskeppsmodellen i Gemini-serien tack vare sina förbättrade matematiska färdigheter och förmåga att leverera faktabaserade svar.
För att motverka missbruk, såsom deepfakes, använder Google sin SynthID-teknik för att vattenmärka alla ljud och bilder som genereras av modellen. SynthID säkerställer att dessa utdata identifieras som syntetiska i kompatibla Google-produkter.
Multimodal Live API
För att hjälpa utvecklare att skapa appar med realtidsfunktioner för ljud och video, släpper Google även en ny Multimodal Live API. Denna API gör det möjligt att skapa multimodala appar som kan hantera naturliga samtalsmönster, exempelvis avbrott, och integrera verktyg för att utföra specifika uppgifter. Multimodal Live API är tillgänglig för utvecklare från och med idag.
Nästa steg
Den fullständiga lanseringen av Gemini 2.0 Flash är planerad till januari, då modellen förväntas bli tillgänglig för fler användare och integreras i fler Google-produkter. Med denna modell visar Google att de fortsätter att vara en ledande aktör inom generativ AI och multimodala applikationer.