Gemma 4 chạy offline trên điện thoại: AI không cần Internet, miễn phí
Google vừa đưa AI tạo sinh ra khỏi đám mây và đặt thẳng vào túi quần người dùng. Gemma 4, thế hệ model mã nguồn mở mới của Google DeepMind, có những bản đủ nhỏ để chạy hoàn toàn trên điện thoại hay laptop mà không cần Internet, không gửi dữ liệu lên máy chủ. Với người Việt, đây là cánh cửa dùng AI miễn phí, riêng tư và không tốn một MB dữ liệu di động.
Gemma 4 chạy trực tiếp trên điện thoại, không cần Internet. Nguồn: YouTube
Gemma 4 là họ model AI mã nguồn mở (open-weight) thế hệ mới của Google DeepMind, ra mắt 2/4/2026. Có 4 kích cỡ: E2B, E4B (cho điện thoại), 26B A4B (kiến trúc MoE) và 31B. Bản E2B sau khi nén chỉ còn khoảng 1GB, chạy gần như tức thì trên điện thoại. Qua ứng dụng Google AI Edge Gallery (Android 12+ và iOS 17+), người dùng chạy AI hoàn toàn offline, dữ liệu không rời thiết bị. Model nhận ảnh, video, riêng E2B và E4B nhận thêm âm thanh, hỗ trợ 140+ ngôn ngữ bao gồm tiếng Việt, cửa sổ ngữ cảnh 256K token. Giấy phép cho phép dùng thương mại.
Google vừa đưa AI tạo sinh ra khỏi đám mây và đặt thẳng vào điện thoại của người dùng. Gemma 4, thế hệ model mã nguồn mở mới của Google DeepMind ra mắt ngày 2/4/2026, có những bản đủ nhỏ để chạy hoàn toàn trên điện thoại hay laptop mà không cần Internet. Đây là bước tiến đáng kể của xu hướng AI chạy trực tiếp trên thiết bị, nơi tốc độ, quyền riêng tư và chi phí dữ liệu đều nghiêng về phía người dùng.
| Nhà phát triển | Google DeepMind, ra mắt 2/4/2026 |
| Các bản | E2B, E4B (điện thoại), 26B A4B (MoE), 31B (dense) |
| Chạy offline | Qua AI Edge Gallery, Android 12+ và iOS 17+ |
| Dung lượng | Bản E2B nén còn khoảng 1GB |
| Đa phương thức | Ảnh và video cho mọi bản, âm thanh cho E2B và E4B |
| Ngôn ngữ | Hơn 140 ngôn ngữ pre-train, có tiếng Việt |
| Ngữ cảnh | 256K token, gấp đôi Gemma 3 |
Gemma 4 chạy offline trên điện thoại như thế nào?
Điểm thay đổi cuộc chơi của Gemma 4 là khả năng chạy ngay trên thiết bị. Google nén bản nhỏ E2B bằng kỹ thuật Quantization-Aware Training cùng một định dạng tối ưu cho di động, đưa dung lượng xuống còn khoảng 1GB và đạt độ trễ gần như bằng không khi phản hồi trên điện thoại.
Cách dùng đơn giản nhất là ứng dụng Google AI Edge Gallery, có mặt trên cả Play Store và App Store từ ngày 9/4/2026. Ứng dụng cho phép tải model về và chạy hoàn toàn ngoại tuyến trên máy từ Android 12 hoặc iOS 17 trở lên. Với lập trình viên, Google cung cấp thêm ML Kit GenAI Prompt API trên Android và MediaPipe LLM Inference SDK trên iOS, cùng các runtime như LiteRT-LM hay llama.cpp cho nhiều loại thiết bị.
Hướng dẫn chạy Gemma 4 hoàn toàn offline trên điện thoại. Nguồn: YouTube
Gemma 4 có gì mạnh hơn Gemma 3?
So với thế hệ trước, Gemma 4 nâng cửa sổ ngữ cảnh từ 128K lên 256K token, giúp xử lý tài liệu dài tốt hơn. Bên cạnh các bản dense quen thuộc, Google bổ sung bản 26B A4B theo kiến trúc Mixture of Experts, chỉ kích hoạt khoảng 3,8 tới 4 tỷ tham số mỗi lần chạy nên vừa nhanh vừa tiết kiệm tài nguyên.
Gemma 4 cũng thêm chế độ suy luận Thinking Mode trên các bản E4B và 31B, cải thiện rõ khả năng viết mã và gọi công cụ tự động. Về đa phương thức, mọi bản đều nhận đầu vào ảnh và video, riêng E2B và E4B nhận thêm âm thanh, mở đường cho các ứng dụng trợ lý giọng nói chạy ngay trên máy.
Khả năng đa phương thức là điểm khiến Gemma 4 vượt khỏi vai trò một chatbot văn bản đơn thuần. Việc nhận đầu vào ảnh, video và cả âm thanh ở các bản nhỏ mở đường cho những ứng dụng như đọc và tóm tắt ảnh chụp tài liệu, mô tả khung cảnh cho người khiếm thị, hay trợ lý giọng nói chạy ngay trên máy. Tất cả diễn ra cục bộ, nên vừa nhanh vừa không lộ dữ liệu ra ngoài.
Vì sao AI chạy trên máy lại quan trọng?
AI chạy trên thiết bị giải quyết ba điểm yếu cố hữu của AI đám mây: độ trễ, quyền riêng tư và chi phí. Khi model nằm sẵn trong máy, phản hồi gần như tức thì và không phụ thuộc chất lượng mạng. Dữ liệu nhạy cảm như ảnh, ghi âm hay tài liệu cá nhân được xử lý tại chỗ, không gửi đi đâu cả.
Xu hướng này cũng giảm gánh nặng chi phí vận hành máy chủ cho nhà phát triển ứng dụng. Thay vì trả tiền cho mỗi lượt gọi API lên đám mây, ứng dụng có thể dùng model chạy ngay trên máy người dùng. Với một model mã nguồn mở, nhẹ và đa ngôn ngữ như Gemma 4, rào cản để tích hợp AI vào sản phẩm hạ thấp đáng kể.
AI chạy trên máy không thay thế hoàn toàn AI đám mây, mà bổ sung cho nhau. Các tác vụ nhẹ, cần riêng tư hoặc cần phản hồi tức thì hợp với model chạy cục bộ, còn những bài toán rất lớn vẫn cần sức mạnh của model đám mây. Sự kết hợp này, gọi là hybrid AI, nhiều khả năng là hướng đi chính của ứng dụng AI trong vài năm tới, và Gemma 4 là một mảnh ghép quan trọng cho phần chạy trên thiết bị.
Tổng quan cách lập trình viên tích hợp Gemma 4 vào ứng dụng. Nguồn: YouTube
Người Việt dùng Gemma 4 để làm gì?
Với hỗ trợ tiếng Việt sẵn có, Gemma 4 mở ra nhiều ứng dụng thực tế ngay cả khi không có mạng. Người dùng có thể dịch Việt Anh, tóm tắt tài liệu hay ảnh chụp màn hình, ghi chú giọng nói thành văn bản, hỏi đáp học tập và lập trình, tất cả diễn ra ngay trên máy mà không tốn dữ liệu di động.
Lợi ích này rõ nhất khi đi vùng sóng yếu, ra nước ngoài hay dùng gói data hạn chế. Với người lo ngại lộ thông tin, việc dữ liệu không rời thiết bị là điểm cộng lớn. Doanh nghiệp nhỏ cũng có thể dựng chatbot nội bộ chạy cục bộ để bảo mật, không phụ thuộc dịch vụ đám mây. Đây là hướng đi bổ sung cho các trợ lý đám mây như Google Gemini Spark, phục vụ những tình huống cần offline và riêng tư.