AI · LongTechVision · 19/06/2026 · 📖 ...

Gemma 4 chạy offline trên điện thoại: AI không cần Internet, miễn phí

Google vừa đưa AI tạo sinh ra khỏi đám mây và đặt thẳng vào túi quần người dùng. Gemma 4, thế hệ model mã nguồn mở mới của Google DeepMind, có những bản đủ nhỏ để chạy hoàn toàn trên điện thoại hay laptop mà không cần Internet, không gửi dữ liệu lên máy chủ. Với người Việt, đây là cánh cửa dùng AI miễn phí, riêng tư và không tốn một MB dữ liệu di động.

Google Gemma 4 chạy offline trên điện thoại qua ứng dụng AI Edge Gallery

Gemma 4 chạy trực tiếp trên điện thoại, không cần Internet. Nguồn: YouTube

Tóm tắt nhanh

Gemma 4 là họ model AI mã nguồn mở (open-weight) thế hệ mới của Google DeepMind, ra mắt 2/4/2026. Có 4 kích cỡ: E2B, E4B (cho điện thoại), 26B A4B (kiến trúc MoE) và 31B. Bản E2B sau khi nén chỉ còn khoảng 1GB, chạy gần như tức thì trên điện thoại. Qua ứng dụng Google AI Edge Gallery (Android 12+ và iOS 17+), người dùng chạy AI hoàn toàn offline, dữ liệu không rời thiết bị. Model nhận ảnh, video, riêng E2B và E4B nhận thêm âm thanh, hỗ trợ 140+ ngôn ngữ bao gồm tiếng Việt, cửa sổ ngữ cảnh 256K token. Giấy phép cho phép dùng thương mại.

#Gemma4 #Google #OnDeviceAI #AIOffline #OpenSource #DeepMind

📋 Nội dung bài viết

2/4/2026

Ngày Gemma 4 ra mắt chính thức

~1GB

Dung lượng bản E2B sau khi nén, chạy trên điện thoại

256K

Token cửa sổ ngữ cảnh, gấp đôi Gemma 3

140+

Ngôn ngữ pre-train, có tiếng Việt

4 bản

E2B, E4B, 26B A4B (MoE) và 31B

Offline

Chạy không cần Internet qua AI Edge Gallery

Google vừa đưa AI tạo sinh ra khỏi đám mây và đặt thẳng vào điện thoại của người dùng. Gemma 4, thế hệ model mã nguồn mở mới của Google DeepMind ra mắt ngày 2/4/2026, có những bản đủ nhỏ để chạy hoàn toàn trên điện thoại hay laptop mà không cần Internet. Đây là bước tiến đáng kể của xu hướng AI chạy trực tiếp trên thiết bị, nơi tốc độ, quyền riêng tư và chi phí dữ liệu đều nghiêng về phía người dùng.

📋 Google Gemma 4 · Thông tin chính

Nhà phát triển	Google DeepMind, ra mắt 2/4/2026
Các bản	E2B, E4B (điện thoại), 26B A4B (MoE), 31B (dense)
Chạy offline	Qua AI Edge Gallery, Android 12+ và iOS 17+
Dung lượng	Bản E2B nén còn khoảng 1GB
Đa phương thức	Ảnh và video cho mọi bản, âm thanh cho E2B và E4B
Ngôn ngữ	Hơn 140 ngôn ngữ pre-train, có tiếng Việt
Ngữ cảnh	256K token, gấp đôi Gemma 3

Gemma 4 chạy offline trên điện thoại như thế nào?

Điểm thay đổi cuộc chơi của Gemma 4 là khả năng chạy ngay trên thiết bị. Google nén bản nhỏ E2B bằng kỹ thuật Quantization-Aware Training cùng một định dạng tối ưu cho di động, đưa dung lượng xuống còn khoảng 1GB và đạt độ trễ gần như bằng không khi phản hồi trên điện thoại.

Cách dùng đơn giản nhất là ứng dụng Google AI Edge Gallery, có mặt trên cả Play Store và App Store từ ngày 9/4/2026. Ứng dụng cho phép tải model về và chạy hoàn toàn ngoại tuyến trên máy từ Android 12 hoặc iOS 17 trở lên. Với lập trình viên, Google cung cấp thêm ML Kit GenAI Prompt API trên Android và MediaPipe LLM Inference SDK trên iOS, cùng các runtime như LiteRT-LM hay llama.cpp cho nhiều loại thiết bị.

VIDEO · Chạy Gemma 4 trên điện thoại qua AI Edge Gallery

Hướng dẫn chạy Gemma 4 hoàn toàn offline trên điện thoại. Nguồn: YouTube

Gemma 4 có gì mạnh hơn Gemma 3?

So với thế hệ trước, Gemma 4 nâng cửa sổ ngữ cảnh từ 128K lên 256K token, giúp xử lý tài liệu dài tốt hơn. Bên cạnh các bản dense quen thuộc, Google bổ sung bản 26B A4B theo kiến trúc Mixture of Experts, chỉ kích hoạt khoảng 3,8 tới 4 tỷ tham số mỗi lần chạy nên vừa nhanh vừa tiết kiệm tài nguyên.

Gemma 4 cũng thêm chế độ suy luận Thinking Mode trên các bản E4B và 31B, cải thiện rõ khả năng viết mã và gọi công cụ tự động. Về đa phương thức, mọi bản đều nhận đầu vào ảnh và video, riêng E2B và E4B nhận thêm âm thanh, mở đường cho các ứng dụng trợ lý giọng nói chạy ngay trên máy.

Gemma 4 chạy cục bộ trên iPhone không cần kết nối Internet — Gemma 4 chạy được ngay trên điện thoại, kể cả iPhone, hoàn toàn ngoại tuyến. Nguồn: YouTube

Khả năng đa phương thức là điểm khiến Gemma 4 vượt khỏi vai trò một chatbot văn bản đơn thuần. Việc nhận đầu vào ảnh, video và cả âm thanh ở các bản nhỏ mở đường cho những ứng dụng như đọc và tóm tắt ảnh chụp tài liệu, mô tả khung cảnh cho người khiếm thị, hay trợ lý giọng nói chạy ngay trên máy. Tất cả diễn ra cục bộ, nên vừa nhanh vừa không lộ dữ liệu ra ngoài.

Vì sao AI chạy trên máy lại quan trọng?

AI chạy trên thiết bị giải quyết ba điểm yếu cố hữu của AI đám mây: độ trễ, quyền riêng tư và chi phí. Khi model nằm sẵn trong máy, phản hồi gần như tức thì và không phụ thuộc chất lượng mạng. Dữ liệu nhạy cảm như ảnh, ghi âm hay tài liệu cá nhân được xử lý tại chỗ, không gửi đi đâu cả.

Xu hướng này cũng giảm gánh nặng chi phí vận hành máy chủ cho nhà phát triển ứng dụng. Thay vì trả tiền cho mỗi lượt gọi API lên đám mây, ứng dụng có thể dùng model chạy ngay trên máy người dùng. Với một model mã nguồn mở, nhẹ và đa ngôn ngữ như Gemma 4, rào cản để tích hợp AI vào sản phẩm hạ thấp đáng kể.

Google giới thiệu Gemma 4 và AI Edge Gallery cho AI chạy trên thiết bị — Google đẩy mạnh AI on-device qua Gemma 4 và bộ công cụ AI Edge. Nguồn: YouTube

AI chạy trên máy không thay thế hoàn toàn AI đám mây, mà bổ sung cho nhau. Các tác vụ nhẹ, cần riêng tư hoặc cần phản hồi tức thì hợp với model chạy cục bộ, còn những bài toán rất lớn vẫn cần sức mạnh của model đám mây. Sự kết hợp này, gọi là hybrid AI, nhiều khả năng là hướng đi chính của ứng dụng AI trong vài năm tới, và Gemma 4 là một mảnh ghép quan trọng cho phần chạy trên thiết bị.

VIDEO · Xây dựng AI on-device với Gemma 4

Tổng quan cách lập trình viên tích hợp Gemma 4 vào ứng dụng. Nguồn: YouTube

Người Việt dùng Gemma 4 để làm gì?

Với hỗ trợ tiếng Việt sẵn có, Gemma 4 mở ra nhiều ứng dụng thực tế ngay cả khi không có mạng. Người dùng có thể dịch Việt Anh, tóm tắt tài liệu hay ảnh chụp màn hình, ghi chú giọng nói thành văn bản, hỏi đáp học tập và lập trình, tất cả diễn ra ngay trên máy mà không tốn dữ liệu di động.

Lợi ích này rõ nhất khi đi vùng sóng yếu, ra nước ngoài hay dùng gói data hạn chế. Với người lo ngại lộ thông tin, việc dữ liệu không rời thiết bị là điểm cộng lớn. Doanh nghiệp nhỏ cũng có thể dựng chatbot nội bộ chạy cục bộ để bảo mật, không phụ thuộc dịch vụ đám mây. Đây là hướng đi bổ sung cho các trợ lý đám mây như Google Gemini Spark, phục vụ những tình huống cần offline và riêng tư.

✅ Lưu ý: Một số con số kỹ thuật như mức RAM cụ thể và tốc độ phản hồi đến từ thử nghiệm cộng đồng và có thể thay đổi theo thiết bị. Người dùng nên xem model card chính thức của Google để nắm thông số và điều khoản giấy phép chuẩn xác nhất.

Câu hỏi thường gặp

Có. Qua ứng dụng Google AI Edge Gallery (có trên Play Store và App Store từ 9/4/2026), các bản E2B và E4B chạy hoàn toàn trên điện thoại từ Android 12 hoặc iOS 17 trở lên, không cần Internet và dữ liệu không rời thiết bị. Bản E2B sau khi nén chỉ còn khoảng 1GB nên chạy mượt trên cả máy tầm trung.

Có. Gemma 4 được pre-train trên hơn 140 ngôn ngữ và hỗ trợ tốt ngay khoảng 35 ngôn ngữ, trong đó có tiếng Việt. Người dùng có thể dùng để hỏi đáp, tóm tắt, dịch thuật tiếng Việt ngay trên máy mà không cần kết nối mạng.

Bản nhỏ E2B sau khi nén chỉ khoảng 1GB, theo các thử nghiệm cộng đồng cần khoảng 2 tới 3GB RAM trống và chạy được trên cả điện thoại tầm trung lẫn máy đơn như Raspberry Pi 5. Các bản lớn hơn như 26B A4B hay 31B phù hợp cho laptop và máy chủ có cấu hình mạnh hơn.

Gemma 4 nâng cửa sổ ngữ cảnh từ 128K lên 256K token, bổ sung bản kiến trúc MoE 26B A4B chỉ kích hoạt một phần tham số nên nhanh và nhẹ hơn, thêm chế độ suy luận Thinking Mode, hỗ trợ đa phương thức tốt hơn gồm cả âm thanh trên bản nhỏ, và cải thiện rõ khả năng viết mã cùng gọi công cụ tự động.

Gemma 4 là model open-weight, tải về miễn phí. Theo phần lớn nguồn, model dùng giấy phép cho phép sử dụng thương mại. Người dùng nên kiểm tra lại model card chính thức của Google trước khi triển khai sản phẩm thương mại để nắm đúng điều khoản.