Google lanserar Gemini 2.0 – ny AI som skapar text, bilder och tal

december 16, 2024

Google har introducerat sin senaste AI-modell, Gemini 2.0 Flash, som nu kan generera text, bilder och ljud. Modellen är ett svar på den ökade konkurrensen från andra aktörer som OpenAI och är designad för att leverera högre prestanda och fler funktioner än tidigare versioner.

Avancerade funktioner

Gemini 2.0 Flash kan använda tredjepartsappar och tjänster, vilket gör det möjligt att integrera med Google Search, exekvera kod och mycket mer. Dessutom har den möjlighet att skapa och redigera bilder samt analysera foton, videor och ljudfiler för att besvara frågor om innehållet. Modellen kan även generera ljud med anpassningsbara röster optimerade för olika språk och dialekter.

– Du kan be den att prata långsammare, snabbare eller till och med säga något som en pirat, sade Tulsee Doshi, produktchef för Gemini-modellen på Google, under en presentation.

Begränsad lansering

En experimentell version av Gemini 2.0 Flash är nu tillgänglig via Gemini API och Googles AI-plattformar AI Studio och Vertex AI. Funktionerna för att generera bilder och ljud erbjuds dock endast till “early access partners” fram till en bredare lansering i januari.

Google planerar att integrera 2.0 Flash i flera av sina produkter under de kommande månaderna, inklusive Android Studio, Chrome DevTools, Firebase och Gemini Code Assist.

Förbättrad prestanda

Gemini 2.0 Flash är dubbelt så snabb som den tidigare modellen Gemini 1.5 Pro, enligt Googles tester, och erbjuder betydande förbättringar inom områden som kodning och bildanalys. Den ersätter nu 1.5 Pro som flaggskeppsmodellen i Gemini-serien tack vare sina förbättrade matematiska färdigheter och förmåga att leverera faktabaserade svar.

För att motverka missbruk, såsom deepfakes, använder Google sin SynthID-teknik för att vattenmärka alla ljud och bilder som genereras av modellen. SynthID säkerställer att dessa utdata identifieras som syntetiska i kompatibla Google-produkter.

Multimodal Live API

För att hjälpa utvecklare att skapa appar med realtidsfunktioner för ljud och video, släpper Google även en ny Multimodal Live API. Denna API gör det möjligt att skapa multimodala appar som kan hantera naturliga samtalsmönster, exempelvis avbrott, och integrera verktyg för att utföra specifika uppgifter. Multimodal Live API är tillgänglig för utvecklare från och med idag.

Nästa steg

Den fullständiga lanseringen av Gemini 2.0 Flash är planerad till januari, då modellen förväntas bli tillgänglig för fler användare och integreras i fler Google-produkter. Med denna modell visar Google att de fortsätter att vara en ledande aktör inom generativ AI och multimodala applikationer.

Google lanserar Gemini 2.0 – ny AI som skapar text, bilder och tal

Avancerade funktioner

Begränsad lansering

Förbättrad prestanda

Multimodal Live API

Nästa steg

MISSA INTE NÅGOT

Relaterade Artiklar

ChatGPT sparar minnet för personlig webb-sökning

YouTube lanserar AI-verktyg för att skapa musik

Apple Intelligence kommer till Vision Pro

Senaste Artiklar

ChatGPT sparar minnet för personlig webb-sökning

YouTube lanserar AI-verktyg för att skapa musik

Apple Intelligence kommer till Vision Pro

Baidu lanserar AI modellerna ERNIE 4.5 & ERNIE X1

Google Assistant ersätts av Gemini

Google lanserar Gemini 2.0 – ny AI som skapar text, bilder och tal

Avancerade funktioner

Begränsad lansering

Förbättrad prestanda

Multimodal Live API

Nästa steg

MISSA INTE NÅGOT

Relaterade Artiklar

Följ oss på

Senaste Artiklar