Kinesiska AI-företaget MiniMax, som stöds av techjättarna Alibaba och Tencent, har lanserat tre nya AI-modeller som företaget hävdar kan konkurrera med de bästa på marknaden. MiniMax, som hittills har samlat in cirka 850 miljoner dollar i riskkapital och värderas till över 2,5 miljarder dollar, utmanar därmed aktörer som OpenAI och andra ledande amerikanska AI-företag.
De nya modellerna är:
MiniMax-Text-01, en textbaserad modell,
MiniMax-VL-01, en multimodal modell som kan tolka både text och bilder,
T2A-01-HD, en modell specialiserad på att generera ljud, särskilt tal.
MiniMax-Text-01, med sina 456 miljarder parametrar, påstås överträffa Googles nyligen lanserade Gemini 2.0 Flash i tester som MMLU och SimpleQA, vilka mäter modellernas förmåga att lösa matematiska problem och svara på faktabaserade frågor. Modeller med fler parametrar har generellt bättre problemlösningsförmåga än de med färre.
Den multimodala modellen MiniMax-VL-01 sägs prestera i nivå med Anthropics Claude 3.5 Sonnet i tester som kräver förståelse av både text och visuellt material, exempelvis ChartQA, där modeller svarar på frågor om diagram och grafer. Dock klarar sig OpenAI:s GPT-4o och Gemini 2.0 Flash bättre än MiniMax-VL-01 i flera av dessa tester.
En av de mest anmärkningsvärda funktionerna hos MiniMax-Text-01 är dess enorma kontextfönster på 4 miljoner tokens, vilket gör det möjligt för modellen att analysera cirka 3 miljoner ord. Detta är 31 gånger större än kontextfönstret hos både GPT-4o och Llama 3.1.
Slutligen erbjuder MiniMax med T2A-01-HD en avancerad ljudgenerator som kan producera syntetiska röster med justerbar ton och takt på 17 olika språk, inklusive engelska och kinesiska. Modellen kan även klona en röst med bara 10 sekunders ljudinspelning som grund.
Med dessa nya modeller förstärker MiniMax sin position som en ledande aktör inom den kinesiska AI-industrin och en seriös konkurrent till globala aktörer inom området.