NVIDIA je na konferenciji GTC Taipei predstavila Cosmos 3, model koji kompanija naziva prvim potpuno otvorenim omnimodelom na svetu. Radi se o naprednom AI sistemu sposobnom za razumevanje i generisanje teksta, slika, videa, zvuka okoline i akcija – sve uz visoku fizičku preciznost.
Arhitektura zasnovana na fizici
Ono što Cosmos 3 čini posebnim jeste kombinacija reasoning transformera i generation transformera. Ovaj pristup omogućava modelu da razume fizičke interakcije pre nego što generiše video sadržaj ili akcione trajektorije. Konkretno, model analizira odnose između objekata, kretanje i prostorno-vremenske veze unutar scene.
Cilj je rešiti ključni problem u razvoju robota i autonomnih vozila: nedostatak podataka za obuku i fragmentisanost simulacijskih okruženja.
Tri načina korišćenja
Cosmos 3 može da se koristi na tri načina:
– kao Vision Language model za vizuelno rasuđivanje
– kao world model koji simulira fizička okruženja i predviđa buduća stanja
– kao osnova za razvoj novih, specijalizovanih world modela
Dostupnost
Trenutno su dostupne dve varijante: Cosmos 3 Super, namenjen odgovorima najviše preciznosti, i Cosmos 3 Nano za lakše primene. Cosmos 3 Edge, dizajniran za real-time inferencu na edge uređajima, stiže uskoro.




