NVIDIA Cosmos 3: model nền mở đầu tiên cho physical AI, huấn luyện robot trong vài ngày
NVIDIA vừa ra mắt Cosmos 3 tại GTC Taipei, model nền mở đầu tiên cho physical AI. Khác với AI chỉ xử lý văn bản hay hình ảnh, Cosmos 3 hiểu và tạo ra văn bản, ảnh, video, âm thanh và cả hành động, giúp rút chu kỳ huấn luyện robot và xe tự lái từ vài tháng xuống vài ngày.
NVIDIA giới thiệu Cosmos 3, model nền mở cho physical AI. Nguồn: NVIDIA / YouTube
NVIDIA Cosmos 3 ra mắt ngày 1/6/2026 tại GTC Taipei, là omnimodel mở đầu tiên cho physical AI. Model dùng kiến trúc mixture-of-transformers (ghép một transformer suy luận với một transformer tạo sinh), có thể hiểu và tạo ra văn bản, ảnh, video, âm thanh và hành động. Cosmos 3 rút chu kỳ huấn luyện physical AI từ vài tháng xuống vài ngày, có hai bản Super 32 tỷ tham số và Nano 8 tỷ tham số, bản Edge sắp ra. Model huấn luyện trên 20 nghìn tỷ token đa phương thức gồm gần 1 tỷ ảnh và 400 triệu video. NVIDIA cũng lập Cosmos Coalition với Runway, Black Forest Labs, Skild AI và nhiều bên khác.
Cosmos 3 là gì và physical AI nghĩa là sao
Ngày 1/6/2026 tại sự kiện GTC Taipei, NVIDIA ra mắt Cosmos 3, model nền mở (open foundation model) hướng tới physical AI. Physical AI là nhánh AI hiểu và hành động trong thế giới vật lý, ví dụ robot hình người, cánh tay công nghiệp hay xe tự lái, khác với AI chỉ trả lời văn bản hay tạo ảnh trên màn hình.
Điểm đặc biệt của Cosmos 3 là tính chất omnimodel. Thay vì chỉ làm một việc, model có thể vừa hiểu vừa tạo ra nhiều loại dữ liệu cùng lúc, gồm văn bản, ảnh, video, âm thanh môi trường và cả chuỗi hành động. Đây là lý do NVIDIA gọi đây là omnimodel hoàn toàn mở đầu tiên cho physical AI.
NVIDIA giới thiệu Cosmos 3. Nguồn: YouTube
Kiến trúc mixture-of-transformers
Cosmos 3 chạy trên kiến trúc mới gọi là mixture-of-transformers, ghép một transformer chuyên suy luận với một transformer chuyên tạo sinh. Nhờ cách chia vai này, model hiểu được cách các vật thể tương tác, chuyển động và quan hệ không gian, thời gian trước khi tạo ra video hay quỹ đạo hành động.
Cách tiếp cận đó quan trọng với physical AI, vì một robot không chỉ cần biết vật thể trông như thế nào, mà còn phải dự đoán vật thể sẽ di chuyển ra sao khi bị tác động. NVIDIA cho biết Cosmos 3 đạt độ chính xác vật lý dẫn đầu khi mô phỏng các tình huống như vậy.
| Ngày ra mắt | 1/6/2026, tại GTC Taipei |
| Loại model | Omnimodel nền mở cho physical AI |
| Kiến trúc | Mixture-of-transformers (suy luận + tạo sinh) |
| Phiên bản | Super 32 tỷ tham số, Nano 8 tỷ tham số, Edge sắp ra |
| Dữ liệu huấn luyện | 20 nghìn tỷ token, gần 1 tỷ ảnh, 400 triệu video |
| Đầu vào và đầu ra | Văn bản, ảnh, video, âm thanh, hành động |
| Hướng tới | Robot, xe tự lái, tác nhân thị giác AI |
Bức tranh hạ tầng AI mà NVIDIA đang dựng tại Đài Loan được nói chi tiết hơn trong bài NVIDIA GTC Taipei 2026: Đài Loan tăng tốc hạ tầng AI Vera Rubin.
Cosmos 3 hiểu, tạo sinh và sinh hành động. Nguồn: YouTube
Cosmos Coalition và ý nghĩa với ngành
Cùng với model, NVIDIA lập NVIDIA Cosmos Coalition, liên minh các phòng lab AI và công ty robot hàng đầu gồm Agile Robots, Black Forest Labs, Generalist, LTX, Runway và Skild AI, nhằm cùng phát triển thế hệ world model mở tiếp theo. Việc Cosmos 3 mở hoàn toàn cho phép cộng đồng tải về, tùy biến và xây dựng sản phẩm trên nền model thay vì phụ thuộc vào một hộp đen đóng.
Với ngành robot và xe tự lái, đây là tín hiệu cho thấy cuộc đua AI đang dịch chuyển từ màn hình ra thế giới thực. Khi chi phí và thời gian huấn luyện giảm mạnh, nhiều công ty nhỏ hơn cũng có cơ hội tham gia, điều từng là rào cản lớn do dữ liệu thực tế quá đắt đỏ.
Phân tích chiến lược physical AI của NVIDIA quanh Cosmos 3. Nguồn: YouTube
NVIDIA cũng đang đẩy mạnh chip AI cho thiết bị cá nhân, một hướng đi được nói tới trong bài NVIDIA N1X và N1: chip Arm cho laptop tại Computex 2026. LongTechVision sẽ cập nhật khi Cosmos 3 Edge ra mắt và khi có thêm sản phẩm robot dùng nền model này.