16/06/2026 21:00

Chấn động Mini PC "hộp cơm" của AMD: RAM lớn gấp 8 lần NVIDIA RTX 5080, lần đầu đưa mô hình AI 235 tỷ tham số vào tay người dùng

Không chỉ mạnh mẽ và nhỏ gọn, cỗ máy này còn tiết kiệm đáng kể cước phí thuê bao dành cho các mô hình AI cho người dùng cũng như đảm bảo tính riêng tư cho những dữ liệu nhạy cảm được xử lý.

Chỉ vài năm trước, việc chạy một mô hình AI có quy mô hàng trăm tỷ tham số là đặc quyền của những trung tâm dữ liệu khổng lồ. Muốn làm được điều đó, các doanh nghiệp phải chi hàng chục nghìn, thậm chí hàng trăm nghìn USD cho hệ thống máy chủ chuyên dụng cùng nhiều GPU cao cấp. Với phần lớn người dùng cá nhân, đây là điều gần như không thể tiếp cận.

Thế nhưng mới đây, CEO AMD Lisa Su đã giới thiệu một mini PC với kích thước chỉ tương đương hộp cơm trên tay, nhưng với sức mạnh có thể chạy được mô hình AI tới 235 tỷ tham số, quy mô vốn thường gắn liền với các hệ thống máy chủ hoặc dịch vụ đám mây.

Chấn động Mini PC -hộp cơm- của AMD- RAM lớn gấp 8 lần NVIDIA RTX 5080, lần đầu đưa mô hình AI 235 tỷ tham số vào tay người dùng

Bên trong hộp cơm này là Ryzen AI Max+ 395, con chip thuộc dòng Strix Halo mới nhất của AMD. Nếu nhìn vào thông số CPU hay NPU, đây đã là một bộ xử lý rất mạnh với 16 nhân Zen 5 và khối NPU đạt 50 TOPS. Tuy nhiên, điều khiến giới phát triển AI đặc biệt chú ý lại không nằm ở sức mạnh tính toán thuần túy, mà nằm ở bộ nhớ.

Trong nhiều năm qua, cuộc đua AI gần như được quyết định bởi GPU. NVIDIA trở thành cái tên thống trị thị trường nhờ những dòng card đồ họa hiệu năng vượt trội và hệ sinh thái CUDA gần như trở thành tiêu chuẩn của ngành. Tuy nhiên, khi các mô hình AI ngày càng lớn hơn, một vấn đề khác bắt đầu xuất hiện: bộ nhớ.

Ngay cả những GPU mạnh nhất dành cho người dùng phổ thông hiện nay cũng bị giới hạn bởi dung lượng VRAM. RTX 5080 chỉ được trang bị 16GB VRAM, trong khi RTX 5090 sở hữu 32GB. Những con số này rất ấn tượng đối với game hay đồ họa, nhưng lại nhanh chóng trở thành rào cản khi làm việc với các mô hình AI hàng chục hoặc hàng trăm tỷ tham số.

Đó chính là khoảng trống mà AMD đang khai thác. Strix Halo là chip x86 đầu tiên trên thế giới cho phép CPU và GPU dùng chung một vùng bộ nhớ thống nhất lên tới 128GB, gấp 8 lần RTX 5080 và gấp 4 lần RTX 5090. Trên Linux, GPU của chip này có thể sử dụng tới 110GB trong tổng số đó.

Để chạy một mô hình AI lớn, toàn bộ tham số của mô hình phải được nạp vào bộ nhớ. Nếu bộ nhớ không đủ, hệ thống phải liên tục đẩy dữ liệu ra ngoài và nạp lại, khiến tốc độ xử lý giảm xuống mức không thể dùng được. Chính lợi thế này giải thích tại sao trong bài kiểm tra inference trên DeepSeek R1, thiết bị AMD vượt RTX 5080 hơn 3 lần về tốc độ, vì mô hình đó đơn giản không vừa trong 16GB VRAM của NVIDIA và buộc phải chạy chậm do offload liên tục.

Về thực tế sử dụng, thiết bị này chạy được Qwen3 235B hoàn toàn, DeepSeek V3 thoải mái và Llama 3.3 70B với dung lượng bộ nhớ còn dư. Tất cả đều offline, không có gì rời khỏi máy, không giới hạn số lượng yêu cầu, không bị cắt truy cập lúc 3 giờ sáng. Người dùng chỉ cần cài Ollama hoặc LM Studio, tải mô hình về và trỏ bất kỳ công cụ AI nào đang dùng về địa chỉ localhost.

Không chỉ yếu tố kỹ thuật, bài toán tài chính phía sau thiết bị này mới là điều thực sự hấp dẫn nhiều người. Một người dùng AI chuyên sâu hiện đang trả khoảng 200 USD mỗi tháng cho Claude Code Max, thêm 200 USD cho ChatGPT Pro, 20 USD cho Cursor và 20 USD cho Gemini, tổng cộng 5.280 USD mỗi năm chỉ để duy trì quyền truy cập.

Chiếc GMKtec EVO-X2 trang bị chip Ryzen AI Max+ 395 bản 128GB có giá từ 1.800 đến 2.500 USD tùy thời điểm. Với mức chi phí subscription hiện tại, thiết bị này tự hoàn vốn trong vòng 9-10 tháng và sau đó chạy miễn phí mãi mãi. Đối với các luật sư lo ngại về bảo mật hồ sơ, các lập trình viên không muốn bị đếm token hay các startup sợ hóa đơn cloud, đây là một phép tính khác hẳn so với trước đây.

Tuy nhiên, bức tranh sẽ không đầy đủ nếu bỏ qua những giới hạn thực tế mà cộng đồng người dùng đã ghi nhận. Băng thông bộ nhớ của chip này chỉ đạt khoảng 256 GB/s, thấp hơn đáng kể so với mức trên 1.000 GB/s của các GPU rời cao cấp hay Apple Silicon Max và Ultra.

Ở giai đoạn prefill, tức là xử lý đầu vào trước khi sinh kết quả, thiết bị chậm hơn khoảng 3 lần so với các giải pháp dùng tensor core của NVIDIA. Với những tác vụ coding nặng hoặc agentic work với context dài, đây là điểm nghẽn thực sự cần cân nhắc.

Hệ sinh thái phần mềm ROCm của AMD cũng vẫn tụt hậu so với CUDA của NVIDIA khoảng 12 đến 18 tháng về độ hỗ trợ cho các nghiên cứu mới nhất. Nói cách khác, AMD đang thắng ở khả năng chứa những mô hình lớn, chứ chưa hẳn thắng trong mọi khía cạnh của AI.

Link nội dung: https://www.phunuvathoidaivn.com/chan-dong-mini-pc-hop-com-cua-amd-ram-lon-gap-8-lan-nvidia-rtx-5080-lan-dau-dua-mo-hinh-ai-235-ty-tham-so-vao-tay-nguoi-dung-a186979.html