Kỳ tích AI: Hàng trăm tác nhân chạy liên tục 7 ngày, viết 3 triệu dòng code xây nên trình duyệt mới

Admin

Việc xây dựng một trình duyệt từ đầu có độ khó chỉ đứng sau việc viết hệ điều hành, thế nhưng giờ đây các Tác nhân AI đã có thể làm điều đó một cách tự động chỉ trong vài ngày.

Michael Truell, CEO của Cursor, vừa hoàn thành một thí nghiệm mà trước đây chưa ai dám thử: cho hàng trăm tác nhân AI dựa trên GPT-5.2 phối hợp làm việc liên tục trong bảy ngày để xây dựng một trình duyệt web hoàn chỉnh từ đầu.

Kết quả hơn 3 triệu dòng code đã được viết ra, phân bổ trên hàng nghìn files, tạo nên một engine hiển thị hoàn chỉnh bằng ngôn ngữ Rust với đầy đủ khả năng phân tích HTML, xử lý CSS, bố cục trang web và thậm chí cả một máy ảo JavaScript tự phát triển.

Thành công này không đến từ một AI đơn lẻ làm việc một mình, mà từ một hệ thống đa tác nhân phức tạp với hàng trăm Tác nhân AI phối hợp làm việc đồng thời. Nhưng con đường đến thành công không hề bằng phẳng.

Kỳ tích AI: Hàng trăm tác nhân chạy liên tục 7 ngày, viết 3 triệu dòng code xây nên trình duyệt mới- Ảnh 1.

CEO Cursor cũng thừa nhận, trình duyệt mới này chạy "tạm được"

Ban đầu, nhóm Cursor thử nghiệm cách tiếp cận công bằng: để tất cả agent (Tác nhân) có địa vị ngang nhau và tự phối hợp thông qua một file chia sẻ. Mỗi agent kiểm tra những gì các agent khác đang làm, nhận một nhiệm vụ và cập nhật trạng thái của mình. Để tránh hai Tác nhân cùng nhận một nhiệm vụ, họ sử dụng cơ chế khóa.

Thử nghiệm này thất bại theo những cách không thể ngờ được. Các agent giữ khóa quá lâu hoặc đơn giản là quên mở khóa. Ngay cả khi cơ chế khóa hoạt động đúng, nó vẫn trở thành nút thắt cổ chai. 20 agents làm việc chậm như chỉ có hai hoặc ba agents, phần lớn thời gian là chờ đợi lẫn nhau.

Vấn đề sâu xa hơn là khi không có hệ thống phân cấp, các agent trở nên e ngại rủi ro. Chúng tránh các nhiệm vụ khó và chỉ thực hiện những thay đổi nhỏ, an toàn. Không agent nào chịu trách nhiệm cho các vấn đề khó hoặc triển khai từ đầu đến cuối. Điều này dẫn đến công việc quẩn quanh trong thời gian dài mà không có tiến triển.

Giải pháp hiệu quả cuối cùng là kiến trúc phân cấp với vai trò phân biệt rõ ràng. Các tác nhân lập kế hoạch liên tục khám phá mã nguồn và tạo ra các nhiệm vụ, thậm chí có thể sinh ra các tác nhân lập kế hoạch phụ cho các khu vực cụ thể, biến việc lập kế hoạch thành song song và đệ quy.

Các tác nhân thực thi nhận nhiệm vụ và tập trung hoàn toàn vào việc hoàn thành chúng - không phối hợp với các tác nhân thực thi khác, không lo lắng về bức tranh toàn cảnh, chỉ làm việc với nhiệm vụ được giao cho đến khi hoàn thành rồi đẩy các thay đổi lên. Cuối mỗi chu kỳ, một tác nhân giám định xác định có nên tiếp tục hay không, sau đó vòng lặp tiếp theo bắt đầu mới.

Cảnh tua nhanh việc các AI Agent xây dựng trình duyệt, ban đầu chúng không thể hiển thị đúng nhưng sau đó đã hoạt động được

Cấu trúc này gần như giống với tổ chức của một công ty phần mềm: các nhà quản lý sản phẩm và kiến trúc sư chịu trách nhiệm lập kế hoạch, lập trình viên thực thi, và bộ phận đảm bảo chất lượng đánh giá. Nhưng sự khác biệt là hàng trăm hoặc thậm chí hàng nghìn tác nhân làm việc đồng thời.

Nhóm Cursor đã đạt được mục tiêu mà hàng trăm tác nhân có thể cùng làm việc trên cùng một mã nguồn trong nhiều tuần với hầu như không có xung đột mã. Điều này có nghĩa AI đã học được sự hiểu biết ngầm trong phối hợp mà các nhóm con người cần nhiều năm để phát triển.

Sự phức tạp của việc xây dựng từ đầu một nhân trình duyệt

Việc xây dựng trình duyệt không phải là nhiệm vụ đơn giản. Trong hệ thống phân cấp khoa học máy tính, độ khó của việc viết nhân trình duyệt bằng tay chỉ đứng sau việc viết hệ điều hành. Chromium của Google - trình duyệt mã nguồn mở là cha đẻ của Chrome - có tổng số vượt quá 35 triệu dòng code. Về bản chất, nó không chỉ là một phần mềm mà đã trở thành một hệ điều hành giả dạng ứng dụng.

GPT-5.2 phải đối mặt với nhiều thách thức cực kỳ phức tạp. Bộ xử lý CSS từng được cựu kỹ sư Firefox ví như việc mô phỏng một vũ trụ mà các quy luật vật lý thay đổi tùy ý - nếu bạn thay đổi thuộc tính của một phần tử cha, bố cục của hàng nghìn phần tử con có thể sụp đổ ngay lập tức. AI không chỉ phải viết giao diện mà còn một máy ảo JavaScript hoàn chỉnh với quản lý bộ nhớ, thu gom rác và hộp cát bảo mật.

video tóm tắt những gì AI đã làm khi viết nên 3 triệu dòng code trong 7 ngày

Quan trọng nhất, nó chọn Rust - ngôn ngữ có trình biên dịch khắt khe như một giám khảo cực kỳ khó tính. Kỹ sư con người thường dành nửa thời gian để "cãi nhau" với trình biên dịch, xử lý các vấn đề về quản lý bộ nhớ và vòng đời biến.

Bước ngoặt thực sự trong thí nghiệm này không phải là trình duyệt được tạo ra, mà là việc nó chạy "không gián đoạn" trong 7 ngày. Trước đây, các công cụ lập trình AI có bộ nhớ phân mảnh và sự chú ý ngắn ngủi. Đối với các nhiệm vụ phức tạp như "tái cấu trúc module này", chúng thường không thể xử lý toàn diện, gây ra vấn đề ở một phần khi sửa phần khác, và cuối cùng con người phải dọn dẹp.

Nhưng lần này khác. Ba triệu dòng mã phân bổ trên hàng nghìn tệp tin. Khi AI viết dòng thứ ba triệu, nó vẫn phải "nhớ" các quy tắc kiến trúc được đặt ra ở dòng đầu tiên. Khi bộ máy hiển thị và máy ảo JavaScript xung đột, nó phải truy ngược hàng chục nghìn dòng mã để tìm nguồn gốc của lỗi.

Trong 168 giờ đó, GPT-5.2 chắc chắn đã viết nhiều lỗi, nhưng nó không dừng lại để báo lỗi và chờ con người cung cấp câu trả lời. Thay vào đó, nó đọc nhật ký lỗi, tự gỡ lỗi, tự tái cấu trúc, rồi tiếp tục.

Vòng lặp khép kín tự động "viết - chạy - sửa" từng là hào tự hào nhất của các kỹ sư con người. Giờ đây, hào này đã bị lấp đầy. Chúng ta đang chứng kiến sự chuyển đổi chất của AI từ "bạn đồng hành trò chuyện" sang "người lao động kỹ thuật số". Trước đây, chúng ta ra lệnh cho AI làm "nhiệm vụ" như "viết trò chơi rắn săn mồi".

Bây giờ, chúng ta ra lệnh cho AI làm "dự án" như "xây dựng trình duyệt". Khi sức mạnh tính toán có thể được chuyển đổi thành khả năng triển khai kỹ thuật cực kỳ phức tạp, chi phí biên của phát triển phần mềm sẽ tiến về không.