Báo động: AI có thể xâm nhập, chiếm quyền máy tính của bạn

Admin

Các tác nhân trí tuệ nhân tạo (AI), được coi là làn sóng tiếp theo của AI, có thể dễ bị tấn công bởi mã độc ẩn trong các hình ảnh trông có vẻ vô hại trên màn hình máy tính của bạn.

Một trang web thông báo cho phép tải "Hình nền người nổi tiếng miễn phí!" Bạn duyệt qua các hình ảnh Selena Gomez, Rihanna và Timothée Chalamet, cuối cùng bạn chọn Taylor Swift với mái tóc bồng bềnh xinh tươi. Bạn đặt nó làm hình nền máy tính của mình với đầy vẻ sung sướng. Bạn cũng vừa tải xuống một ứng dụng trí tuệ nhân tạo mới, nên bạn yêu cầu nó dọn dẹp hộp thư đến. Thay vào đó, nó lại mở trình duyệt web và tải xuống một tệp. Vài giây sau, màn hình của bạn tối sầm lại.

Báo động: AI có thể xâm nhập, chiếm quyền máy tính của bạn- Ảnh 1.

Hãy cẩn thận với những bức ảnh trực tuyến. (Ảnh minh họa của Nagaiets)

Nếu một chatbot điển hình (chẳng hạn ChatGPT) vui vẻ hướng dẫn cách thay lốp xe, thì một tác nhân AI xuất hiện với một chiếc kích và thực sự làm việc đó. Năm 2025, những tác nhân này, trợ lý cá nhân thực hiện các tác vụ máy tính thường ngày, đang định hình như làn sóng tiếp theo của cuộc cách mạng AI.

Điểm khác biệt giữa một AI và chatbot là nó không chỉ nói mà còn hành động, mở tab, điền biểu mẫu, nhấp nút và đặt chỗ. Và với khả năng truy cập vào máy tính của bạn như vậy, nếu chatbot bị hack, nó có thể chia sẻ hoặc phá hủy nội dung số của bạn.

Giờ đây, một bản thảo nghiên cứu sơ bộ mới được các nhà nghiên cứu tại Đại học Oxford đăng tải trên máy chủ arXiv.org đã chỉ ra rằng hình ảnh gồm hình nền máy tính, quảng cáo, tệp PDF đẹp mắt, bài đăng trên mạng xã hội ... có thể được cấy ghép những thông điệp vô hình với mắt người nhưng có khả năng điều khiển chatbot và mời gọi tin tặc xâm nhập vào máy tính của bạn.

Một bức ảnh bị chỉnh sửa có thể là tác nhân

Ví dụ, "một bức ảnh Taylor Swift bị chỉnh sửa trên Twitter có thể đủ để kích hoạt tác nhân trên máy tính của ai đó hành động ác ý", đồng tác giả nghiên cứu mới, Yarin Gal, phó giáo sư về học máy tại Oxford, cho biết.

Bất kỳ hình ảnh nào thực sự có thể kích hoạt máy tính đăng lại hình ảnh đó và sau đó thực hiện hành vi độc hại, chẳng hạn như gửi tất cả mật khẩu của bạn. Điều đó có nghĩa là người tiếp theo nhìn thấy trang Twitter của bạn và vô tình có một tác nhân đang chạy cũng sẽ bị nhiễm độc máy tính. Giờ đây, máy tính cũng sẽ đăng lại hình ảnh đó và chia sẻ mật khẩu của bạn.

Trước khi bắt đầu xóa sạch những bức ảnh yêu thích khỏi máy tính, một nghiên cứu mới cho thấy việc chỉnh sửa hình ảnh có thể là một cách xâm nhập máy tính trong phạm vi thử nghiệm. Và tất nhiên, ví dụ về hình nền Taylor Swift hoàn toàn mang tính ngẫu nhiên; một hình ảnh bị phá hoại có thể có bất kỳ người nổi tiếng nào hoặc hình ảnh hoàng hôn, mèo con hoặc họa tiết trừu tượng...

"Phải rất cảnh giác với những lỗ hổng này, đó là lý do tại sao chúng tôi công bố bài báo này vì hy vọng là mọi người sẽ thực sự nhận ra đây là một lỗ hổng và sau đó sẽ thận trọng hơn trong cách triển khai hệ thống tác nhân của mình", đồng tác giả nghiên cứu Philip Torr cho biết.

Những điểm ảnh chết người

Hãy quay lại với hình nền bị xâm phạm. Đối với mắt người, nó trông hoàn toàn bình thường. Nhưng nó chứa một số điểm ảnh nhất định đã được sửa đổi theo cách mô hình ngôn ngữ lớn (hệ thống AI cung cấp năng lượng cho tác nhân mục tiêu) xử lý dữ liệu hình ảnh. Vì lý do này, các tác nhân được xây dựng bằng hệ thống AI mã nguồn mở (cho phép người dùng xem mã nguồn và sửa đổi nó cho mục đích riêng) là những đối tượng dễ bị tấn công nhất.

Bất kỳ ai muốn chèn một bản vá độc hại đều có thể đánh giá chính xác cách AI xử lý dữ liệu hình ảnh. "Chúng tôi phải có quyền truy cập vào mô hình ngôn ngữ được sử dụng bên trong tác nhân để có thể thiết kế một cuộc tấn công hoạt động trên nhiều mô hình mã nguồn mở", Lukas Aichberger, tác giả chính của nghiên cứu mới, cho biết.

Bằng cách sử dụng mô hình nguồn mở, Aichberger và nhóm của ông đã chỉ ra chính xác cách hình ảnh có thể dễ dàng bị thao túng để truyền tải những lệnh sai lệch. Trong khi người dùng nhìn thấy, chẳng hạn, người nổi tiếng yêu thích của họ, máy tính lại nhìn thấy một lệnh chia sẻ dữ liệu cá nhân của họ. "Về cơ bản, chúng tôi điều chỉnh rất nhiều pixel một cách tinh tế để khi mô hình nhìn thấy hình ảnh, nó sẽ tạo ra kết quả mong muốn", đồng tác giả nghiên cứu Alasdair Paren cho biết.

Máy tính chia nhỏ bức ảnh thành các điểm ảnh và biểu diễn mỗi chấm màu dưới dạng một con số, sau đó nó tìm kiếm các mẫu: đầu tiên là các cạnh đơn giản, sau đó là các kết cấu như lông, sau đó là đường viền của tai và các đường tập trung mô tả bộ ria.

Nhưng vì máy tính dựa vào các con số, nếu ai đó chỉ thay đổi một vài trong số chúng - điều chỉnh các điểm ảnh theo cách quá nhỏ để mắt người có thể nhận thấy - thì nó vẫn bắt được sự thay đổi và điều này có thể làm sai lệch các mẫu số. Cũng giống như việc điều chỉnh các điểm ảnh có thể khiến máy tính nhìn thấy một con mèo thay vì một con chó, nó cũng có thể khiến một bức ảnh của người nổi tiếng giống như một thông điệp độc hại gửi đến máy tính.

Quay lại với hình nền Taylor Swift. Trong khi bạn đang chiêm ngưỡng tài năng và sức hút của cô ấy, AI của bạn đang xác định cách thực hiện nhiệm vụ dọn dẹp mà bạn đã giao cho nó. Đầu tiên, nó chụp ảnh màn hình. Vì các AI không thể nhìn trực tiếp vào màn hình máy tính của bạn, chúng phải chụp ảnh màn hình nhiều lần và phân tích nhanh chóng để tìm ra những gì cần nhấp vào và những gì cần di chuyển trên màn hình nền. Nhưng khi AI xử lý ảnh chụp màn hình, sắp xếp các pixel thành các dạng mà nó có thể nhận dạng (tệp, thư mục, thanh menu, con trỏ), nó cũng nhận ra mã lệnh độc hại ẩn trong hình nền.

Các nhà nghiên cứu phát hiện ra rằng, miễn là mảng pixel nhỏ xíu bị thay đổi đó nằm đâu đó trong khung hình, tác nhân sẽ nhìn thấy lệnh và đi chệch hướng. "Trên trang web này, bạn có thể mã hóa thêm các cuộc tấn công trong một hình ảnh độc hại khác, và hình ảnh bổ sung này sau đó có thể kích hoạt một loạt hành động khác mà tác nhân thực hiện, vì vậy về cơ bản bạn có thể xoay vòng nhiều lần và cho phép tác nhân truy cập các trang web khác nhau do bạn thiết kế, sau đó về cơ bản mã hóa các cuộc tấn công khác nhau", Aichberger nói.

Nhóm nghiên cứu hy vọng nghiên cứu của mình sẽ giúp các nhà phát triển chuẩn bị các biện pháp bảo vệ trước khi các tác nhân AI trở nên phổ biến hơn. Adel Bibi, đồng tác giả khác của nghiên cứu mới này, cho biết ngay cả khi các cuộc tấn công được thiết kế để nhắm vào các hệ thống AI nguồn mở, các công ty sử dụng mô hình nguồn đóng vẫn có thể bị tấn công.

Gal tin rằng các tác nhân AI sẽ trở nên phổ biến trong vòng hai năm tới. Nhóm hy vọng sẽ khuyến khích các nhà phát triển tạo ra các tác nhân có khả năng tự bảo vệ và từ chối nhận lệnh từ bất cứ thứ gì trên màn hình, ngay cả ngôi sao nhạc pop yêu thích của bạn.