Teknologi

Är robotikens Chat GPT-ögonblick äntligen här? Nvidias nya AI-modell förändrar spelet!

2025-01-07

Författare: William

I en futuristisk scen ser vi hur en gaffeltruck navigerar fram mellan hyllorna i ett lager. Plötsligt multipliceras gaffeltrucken och skapar flera kopior av sig själv, var och en med sin egen väg att följa. Det är blott en fotorealistisk simulering i en virtuell lagerlokal – men vad det verkligen demonstrerar är den banbrytande AI-världsmodell som Nvidia just har släppt, kallad Nvidia Cosmos WFM (World Foundation Model).

"Vi befinner oss nu vid robotikens Chat GPT-ögonblick. Precis som stora språkmodeller är AI-världsmodeller grundläggande för att påskynda utvecklingen av robotar och autonoma fordon. Tyvärr har inte alla företag möjligheten eller resurserna att träna egna modeller. Vi skapade Cosmos för att demokratisera fysisk AI", sa Jensen Huang, Nvidias VD, vid lanseringen.

Videon som visar förökningen av gaffeltrucken är en del av Cosmos WFM:s "förutseende 'multiversum'-simulering" där Cosmos genererar varje tänkbart framtida resultat för att hjälpa en AI-modell att välja den mest korrekta och effektiva vägen.

Cosmos WFM kombinerar även Nvidias Omniverse, vilket gör det möjligt att skapa fotorealistiska videos med verklighetstrogen fysiksimulering. Denna teknik är avgörande för träningsdata i humanoida robotar som behöver kunna interagera med den verkliga världen, där rätt typ av data ofta är kostsam att generera – om man inte utnyttjar syntetiska data.

Jim Fan, som arbetar med fysisk AI på Nvidia, kommenterade på X om lanseringen av Cosmos WFM: "Fysisk AI står inför en stor datakrav. Men syntetiska data är lösningen! Vi på Nvidia använder Cosmos för att generera syntetiska data i stor skala för robotik och självkörande fordon, och nu kan även du göra det – skräddarsy det för just dina behov!"

Nytt för utvecklare och företag är möjligheten att anpassa Cosmos WFM med egna videor, bilder eller sensorinformation som ingångsmaterial. På så sätt kan AI-världsmodellen med bara en textprompt generera fysikbaserade videor helt utifrån användarens specifikationer.

Nvidia Cosmos WFM har tränats på cirka 20 miljoner timmar video och finns i tre olika storlekar, med 4 till 14 miljarder parametrar. Den bygger på öppen källkod och öppna vikter, men Nvidia har varit förtegen om ursprunget till videoinnehållet.

Ny Teknik rapporterade sent förra året om flera företag som arbetar med sina egna AI-världsmodeller, däribland norska uppstickaren 1X Technologies. Samtidigt som Nvidia presenterade Cosmos WFM meddelade Google DeepMind att de också investerar i denna teknik, vilket lovar en spännande framtid för AI-utvecklingen.

Under CES 2025 presenterade Nvidia även sitt nya grafikkort, RTX 5090. Jensen Huang diskuterade hur det representerar "den största innovationen inom datorgrafik på 25 år". Det intressanta är att detta kort, för första gången, använder ett neuralt nätverk för att generera delar av grafiken, snarare än att rendera dem på traditionellt sätt. Huang betonade att vi nu ser en cirkel av innovation där grafikprocessorer, som en gång banade väg för AI, nu använder AI för att skapa grafik.