Tờ New Yorks Times cho hay các câu trả lời do trí tuệ nhân tạo của công ty tạo ra trông có vẻ đáng tin cậy, nhưng chúng dựa trên nhiều nguồn khác nhau, từ các trang web đáng tin cậy đến các bài đăng trên Facebook.
Các phóng viên đã trao đổi với các công ty nghiên cứu về ảo giác do trí tuệ nhân tạo gây ra trước khi lựa chọn Oumi và mô hình xác thực trí tuệ nhân tạo của nó, HallOumi, để đánh giá độ chính xác của Google thông qua một bài kiểm tra chuẩn được sử dụng rộng rãi, được gọi là SimpleQA.
Cuối năm ngoái, Stephen Punwasi đang chuẩn bị ăn tối thì tình cờ đọc được tin tức nói rằng vợ của đô vật Hulk Hogan có thể sẽ đâm đơn kiện về cái chết của chồng.
Ông Punwasi, một nhà phân tích dữ liệu 41 tuổi sống ở Toronto, không hề hay biết ông Hogan đã qua đời và đã hỏi Google về thời điểm đó. Tuy nhiên, câu trả lời từ AI của Google khiến ông bối rối khi đưa ra thông tin rằng “Không có báo cáo đáng tin cậy nào cho thấy Hulk Hogan qua đời”
Bên dưới câu trả lời, ông Punwasi ngạc nhiên khi thấy một bài báo từ tờ Daily Mail trái ngược với kết quả của Google. Tiêu đề của bài báo là “Bí ẩn xoay quanh cái chết của Hulk Hogan”.
Từ năm 2024, Google bắt đầu ưu tiên hiển thị các câu trả lời do trí tuệ nhân tạo tạo ra ở vị trí đầu trang kết quả tìm kiếm. AI Overviews, một sản phẩm mới đã giúp Google chuyển vai trò từ một biên tập viên thông tin trở thành một nhà xuất bản.
Theo một phân tích về AI Overviews gần đây được thực hiện bởi công ty khởi nghiệp AI Oumi cho thấy câu trả lời của AI chính xác khoảng 9/10. Nhưng với việc Google phải xử lý hơn 5000 tỷ lượt tìm kiếm mỗi năm, điều này có nghĩa là nó cung cấp hàng chục triệu câu trả lời sai mỗi giờ (hoặc hàng trăm nghìn sai sót mỗi phút).
Dù hơn một nửa số câu trả lời là chính xác, nhưng chúng lại thiếu nguồn dẫn rõ ràng và đáng tin cậy. Các liên kết đi kèm đôi khi không thực sự chứng minh nội dung đã nêu, điều này khiến việc kiểm tra và xác nhận thông tin trở nên khó khăn.
Liệu một tỷ lệ phản hồi gần như hoàn hảo nhưng chưa hoàn toàn chính xác có đáng để ăn mừng hay không là một phần của cuộc tranh luận rộng rãi tại Thung lũng Silicon về hiệu suất của các hệ thống AI. Điều này liên quan đến cốt lõi của vấn đề: chúng ta có thể tin tưởng điều gì trên mạng.
Một số chuyên gia công nghệ cho rằng các báo cáo tổng quan bằng AI của Google có độ chính xác tương đối và đã được cải thiện trong những tháng gần đây. Trong khi những người khác lại lo ngại rằng người bình thường có thể không nhận ra rằng những kết quả đó cần được kiểm tra lại.
Theo yêu cầu của The New York Times, Oumi đã phân tích độ chính xác của AI Overviews bằng một bài kiểm tra tiêu chuẩn gọi là SimpleQA, vốn được sử dụng rộng rãi trong ngành để đo lường độ chính xác của các hệ thống AI. Công ty này đã kiểm tra hệ thống của Google vào tháng 10, khi các câu hỏi phức tạp được xử lý bằng công nghệ AI Gemini 2, và sau đó kiểm tra lại vào tháng 2, sau khi được nâng cấp lên Gemini 3, một công nghệ mạnh hơn.
Trong cả hai trường hợp, phân tích của Oumi tập trung vào 4.326 lượt tìm kiếm trên Google. Công ty nhận thấy rằng kết quả chính xác 85% với Gemini 2 và đã tăng 91% với Gemini 3.
Ông Pratik Verma, CEO của Okahu, một công ty hỗ trợ người dùng tiếp cận và sử dụng AI, cho rằng công nghệ của Google có độ chính xác ngang với các hệ thống AI hàng đầu hiện nay. Tuy vậy, ông vẫn khuyến nghị người dùng nên kiểm chứng lại thông tin trước khi tin tưởng hoàn toàn.
"Đừng bao giờ tin tưởng chỉ một nguồn thông tin," ông nói. "Hãy luôn so sánh thông tin bạn nhận được với một nguồn khác."
Google thừa nhận rằng các bản tóm tắt AI của họ có thể chứa lỗi. Dòng chữ nhỏ bên dưới mỗi bản tóm tắt AI ghi rõ: "A.I. có thể mắc lỗi, hãy kiểm tra kỹ lại câu trả lời."
Tuy nhiên, Google cho biết phân tích của Oumi có sai sót vì dựa trên bài kiểm tra chuẩn do OpenAI xây dựng, bản thân bài kiểm tra này lại chứa thông tin không chính xác. "Nghiên cứu này có những lỗ hổng nghiêm trọng", Ned Adriance, người phát ngôn của Google, cho biết trong một tuyên bố. "Nó không phản ánh những gì người dùng thực sự tìm kiếm trên Google."
Các bài tổng quan về AI cung cấp hai loại thông tin: câu trả lời cho các câu hỏi và danh sách các trang web hỗ trợ những câu trả lời đó.
Khi được hỏi khi nào ngôi nhà của Bob Marley được chuyển đổi thành bảo tàng, tính năng AI Overviews của Google cho biết điều đó đã xảy ra vào năm 1987.
hình ảnh minh họa
Nhưng bảo tàng đã mở cửa vào ngày 11 tháng 5 năm 1986, kỷ niệm 5 năm ngày mất của ông Marley - như tờ Daily Gleaner của Jamaica đã đưa tin một ngày sau đó.
AI Overview của Google đã liên kết đến ba trang web làm nguồn. Mỗi trang đều có một số sai sót theo một cách nào đó. Liên kết đầu tiên là trang Facebook của Cedella Marley, con gái ông Marley, người đã đăng tải những bức ảnh sau khi đến thăm bảo tàng ở Kingston, Jamaica, nhưng không cung cấp thông tin về thời điểm bảo tàng mở cửa. Liên kết thứ hai là một blog du lịch có tên "Adventures From Elle", cung cấp thông tin không chính xác về thời điểm khai trương bảo tàng. Liên kết thứ ba là trang Wikipedia về Bảo tàng Bob Marley, cung cấp thông tin mâu thuẫn, nói rằng bảo tàng được thành lập vào năm 1986 và năm 1987.
Các liên kết đến Bob Marley là một phần của một mô hình. Trong số 5.380 nguồn được trích dẫn bởi Google AI Overviews trong quá trình phân tích, Oumi nhận thấy rằng Facebook và Reddit là hai nguồn được trích dẫn nhiều thứ hai và thứ tư. Khi Google AI Overviews chính xác, chúng trích dẫn Facebook 5% số lần. Khi chúng không chính xác, chúng trích dẫn Facebook 7% số lần.
Việc đánh giá tổng quan về AI rất khó khăn vì hệ thống của Google có thể tạo ra một phản hồi khác nhau cho từng lần tìm kiếm. Nếu công cụ tìm kiếm Google nhận được cùng một truy vấn vào những thời điểm khác nhau, thậm chí chỉ cách nhau vài giây, nó có thể đưa ra một câu trả lời chính xác và một câu trả lời khác không chính xác.
Để xác định độ chính xác của các hệ thống trí tuệ nhân tạo (AI), các công ty như Oumi sử dụng chính hệ thống AI của họ để kiểm chứng từng câu trả lời. Đó là cách duy nhất để kiểm tra hiệu quả một số lượng lớn câu trả lời. Vấn đề với phương pháp này là hệ thống AI thực hiện việc kiểm tra cũng có thể mắc lỗi.
Google đã công bố kết quả thử nghiệm tương tự với kết quả do Oumi tạo ra. Trong phân tích riêng của Google về Gemini 3 - công nghệ nền tảng của AI Overviews - họ nhận thấy rằng mô hình này đưa ra thông tin không chính xác đến 28%. Công ty cho biết AI Overviews, công nghệ lấy thông tin từ công cụ tìm kiếm Google trước khi tạo ra phản hồi, chính xác hơn Gemini khi hoạt động độc lập.
Nhờ sự cải tiến công nghệ trí tuệ nhân tạo (AI) của Google, các câu trả lời do AI tạo ra ngày càng chính xác hơn. Theo phân tích của Oumi, vào tháng 10, các bản tóm tắt thông tin do AI đưa ra có độ chính xác chỉ 15%.
Nhưng với Gemini 3, các câu trả lời do trí tuệ nhân tạo của Google tạo ra có nhiều khả năng không có cơ sở hơn so với khi hệ thống dựa trên Gemini 2, nghĩa là các trang web mà chúng liên kết đến không hoàn toàn hỗ trợ thông tin mà chúng cung cấp. Vào tháng 10, các câu trả lời đúng không có cơ sở chiếm 37%. Đến tháng 2, với Gemini 3, con số đó đã tăng lên 56%.
"Ngay cả khi câu trả lời là đúng, làm sao bạn biết chắc chắn đó là sự thật? Làm sao bạn có thể kiểm tra?", ông Manos Koukoumidis, giám đốc điều hành của Oumi, cho biết.
Các hệ thống trí tuệ nhân tạo ngày nay sử dụng xác suất toán học để đoán câu trả lời tốt nhất, chứ không phải một tập hợp các quy tắc nghiêm ngặt do các kỹ sư con người định nghĩa. Điều đó có nghĩa là chúng mắc một số lỗi nhất định.
Đôi khi, tính năng Tổng quan AI của Google xác định một trang web đáng tin cậy nhưng dường như lại hiểu sai thông tin trên đó.
Trong quá trình thử nghiệm Oumi, khi được hỏi về tên con sông chảy dọc phía tây thành phố Goldsboro, Bắc Carolina, hệ thống của Google đã xác định đó là sông Neuse, nằm ở phía tây nam thành phố. Con sông chảy dọc phía tây Goldsboro là sông Little, một nhánh của sông này đổ vào sông Neuse.
hình ảnh minh họa
Công cụ AI Overview của Google đã liên kết đến một trang web du lịch của Goldsboro, trong đó nói rằng sông Neuse chảy qua thành phố. Tuy nhiên, dường như nó đã suy luận sai rằng sông Neuse chảy dọc theo biên giới phía tây của thành phố.
Ngay cả khi Google xác định một trang web có thông tin chính xác, nó vẫn có thể đưa ra kết quả sai.
Khi được hỏi về năm Yo-Yo Ma được vinh danh vào Đại sảnh Danh vọng Âm nhạc Cổ điển, tính năng Tổng quan bằng AI của Google đã liên kết chính xác đến trang web của tổ chức này, liệt kê 165 người được vinh danh kể từ năm 1998, bao gồm cả ông Ma. Nhưng câu trả lời do AI tạo ra lại cho biết không có hồ sơ nào về việc ông được vinh danh.
hình ảnh minh họa
Ngay cả khi AI Overview trả lời đúng câu hỏi, nó vẫn có thể cung cấp thêm thông tin không chính xác.
Khi được hỏi về tuổi của vận động viên ném bóng cứu trợ người Mỹ Dick Drago khi ông qua đời, AI Overview của Google đã đưa ra tuổi chính xác. Nhưng như thường lệ, AI Overview lại cung cấp thêm ngữ cảnh và liên tục đưa ra thông tin sai về ngày ông qua đời.
hình ảnh minh họa
Các bản tổng quan về AI còn phải đối mặt với một thách thức khác: Chúng có thể bị thao túng.
Lily Ray, phó chủ tịch phụ trách tìm kiếm bằng trí tuệ nhân tạo tại Amsive, một agency marketing, cho biết: "Nếu ai đó muốn được biết đến như một chuyên gia hàng đầu thế giới về một lĩnh vực nào đó, người đó chỉ cần viết một bài đăng trên blog tự tuyên bố điều đó."
Google thừa nhận vấn đề này, nhưng lại xem nhẹ tầm quan trọng của nó. "Các tính năng Trí tuệ nhân tạo tìm kiếm của chúng tôi được xây dựng dựa trên cùng các tiêu chí xếp hạng và bảo vệ an toàn giúp ngăn chặn phần lớn thư rác xuất hiện trong kết quả tìm kiếm. Hầu hết các ví dụ này là những tìm kiếm không thực tế mà người dùng sẽ không thực hiện", ông Adriance, người phát ngôn của Google, cho biết trong một tuyên bố.
Sau khi nghe lý thuyết của bà Ray, Thomas Germain, người đồng dẫn chương trình podcast "The Interface" của BBC, đã đăng một bài viết trên blog có tiêu đề "Những nhà báo công nghệ giỏi nhất trong việc ăn xúc xích". Bài viết mô tả một giải vô địch ăn xúc xích quốc tế giả tưởng ở Nam Dakota, nơi anh ta đứng đầu danh sách 10 "người ăn xúc xích xuất sắc".
Một ngày sau, anh ấy tìm kiếm trên Google những nhà báo công nghệ ăn xúc xích giỏi nhất. Google xếp anh ấy ở vị trí đầu tiên trong số nửa tá nhà báo công nghệ "nổi tiếng nhờ tài năng ở 'phần tin tức' của các cuộc thi ăn uống", trích dẫn thành tích giành vị trí thứ nhất của anh ấy trong cuộc thi ở Nam Dakota.
"Nó cứ đăng tải những thông tin từ trang web của tôi như thể đó là chân lý của Chúa vậy," ông Germain nói.
*Nguồn: NYT