Bốn mô hình AI hàng đầu tranh tài ‘bịa chuyện’

22/08/2023 09:00:00

Nghiên cứu mới nhất cho thấy các mô hình AI hàng đầu của Meta, OpenAI, Cohere và Anthropic đều tạo ra thông tin sai lệch.

Các nhà nghiên cứu tại Arthur AI, một nền tảng giám sát máy học, đã tiến hành thử nghiệm những mô hình hàng đầu ngành công nghệ và ghi nhận GPT-4 giỏi toán nhất, Llama 2 đạt mức trung bình mọi mặt, Claude 2 của Anthropic “hiểu rõ” giới hạn bản thân nhất và Cohere AI giành danh hiệu mô hình “ảo giác” nhất với những câu trả lời sai tự tin nhất.

Báo cáo của Arthur AI đưa ra trong bối cảnh thông tin sai lệch do AI sản xuất đang trở thành vấn đề nóng khi cuộc bầu cử Tổng thống Mỹ năm 2024 đang tới gần.

Theo Adam Wenchel, đồng sáng lập và CEO Arthur, đây là báo cáo đầu tiên “xem xét toàn diện về tỷ lệ ảo giác của các mô hình ngôn ngữ lớn (LLM) thay vì chỉ công bố xếp hạng”.

Ảo giác AI chỉ hiện tượng các LLM bịa đặt hoàn toàn thông tin và hành xử như thể chúng đang nói sự thật. Ví dụ, tháng 6/2023, có tin tức cho biết ChatGPT đã trích lục thông tin “không có thật” trong hồ sơ nộp lên toà án liên bang New York và những luật sư liên quan có thể đối mặt với những án phạt nghiêm khắc.

Trong cuộc thử nghiệm, các nhà nghiên cứu Arthur AI cho các mô hình AI tranh tài ở các danh mục như toán học tổ hợp, kiến thức về tổng thống Mỹ, các nhà lãnh đạo chính trị Maroc,… với những câu hỏi được “thiết kế” để AI bộc lộ sai lầm, đó là “yêu cầu các mô hình giải trình các bước lập luận về thông tin đưa ra”.

Kết quả cho thấy GPT-4 của OpenAI nhìn chung hoạt động tốt nhất trong số các mô hình được thử nghiệm. Nó cũng có độ ảo giác thấp hơn so với phiên bản tiền nhiệm GPT-3,5. Chẳng hạn, với những câu hỏi toán học, GPT-4 ít ảo giác hơn từ 33% đến 50%.

Mặt khác, Llama 2 của Meta nhìn chung gây ảo giác nhiều hơn so với GPT-4 và Claude 2 của Anthropic.

Trong hạng mục toán học, GPT-4 đứng ở vị trí số một, theo sát là Claude 2, nhưng trong các bài kiểm tra về tổng thống Mỹ, Claude 2 chiếm vị trí đầu tiên về độ chính xác, vượt qua GPT-4 ở vị trí thứ hai. Khi được hỏi về chính trị Maroc, GPT-4 lại đứng đầu và Claude 2 và Llama 2 gần như hoàn toàn chọn không trả lời.

Ở bài thử nghiệm thứ hai, các nhà nghiên cứu đã kiểm tra mức độ “đề phòng rủi ro” của các mô hình AI (đưa ra thông báo “Là một mô hình AI, tôi không thể đưa ra ý kiến”).

Với bài test này, GPT-4 có mức đề phòng tăng tương đối 50% so với GPT-3.5, cũng được minh chứng “định lượng bằng các tuyên bố của người dùng GPT-4 rằng phiên bản mới gây khó chịu nhiều hơn”. Mặt khác, mô hình AI của Cohere hoàn toàn không có động thái phòng ngừa bất kỳ phản ứng nào. Nghiên cứu cho thấy Claude 2 đáng tin cậy nhất về mặt “tự nhận thức”, nghĩa là đánh giá chính xác những gì nó biết và không biết, đồng thời chỉ trả lời những câu hỏi mà nó có dữ liệu đào tạo để hỗ trợ.

Đại diện của Cohere đã bác bỏ kết quả, lý giải rằng “công nghệ tăng cường truy xuất của công ty, vốn không tích hợp trong mô hình được thử nghiệm, có hiệu quả cao trong việc trích dẫn những thông tin có thể được kiểm chứng để xác minh nguồn tin” cho doanh nghiệp.

Theo Thế Vinh (VietNamNet)

AI bóc tách giọng nói thành văn bản

Khi AI trở thành 'trợ lý' của bác sĩ

AI có thể đoán nội dung mật khẩu từ âm thanh gõ bàn phím

https://vietnamnet.vn/bon-mo-hinh-ai-hang-dau-tranh-tai-bia-chuyen-2179928.html

TIN ĐỌC NHIỀU

Sau 100 ngày của chồng, bà xã Quý Bình bất ngờ đưa 2 con trai đi làm điều này

Nổi bật

Gần 2.500 tỷ đồng hậu quả đã được khắc phục toàn bộ, Trịnh Văn Quyết và đồng phạm được giảm án sâu

Xã hội		Thế giới
Kinh tế		Video
Đời sống		Gia đình
Giới trẻ		Thể thao
Ô tô - Xe Máy		Công nghệ
Sao 360°

Bốn mô hình AI hàng đầu tranh tài ‘bịa chuyện’

Nghiên cứu mới nhất cho thấy các mô hình AI hàng đầu của Meta, OpenAI, Cohere và Anthropic đều tạo ra thông tin sai lệch.

TIN ĐỌC NHIỀU

Báo Brazil viết điều đặc biệt về Xuân Son, mang lợi lớn cho bóng đá Việt Nam?

Tại sao vắc xin HPV không được khuyến nghị tiêm sau tuổi 45?

1 nam nghệ sĩ Vbiz bị bắt vì liên quan đến ma tuý, động thái từ công ty 'châm dầu vào lửa'?

Clip: Leo qua rào chắn cùng bạn gái, nam thanh niên bị tàu hỏa tông tử vong ở Hà Nam

Rót 300 triệu đầu tư bán bún cá, chủ quán 'trắng tay' sau 2 tháng

Tử vi thứ 5 ngày 26/6/2025 của 12 con giáp: Thứ 5 Thân lạc quan, Mão tinh tế

Chuyện gì đang xảy ra với Việt Anh?

Quan điểm trái chiều của các hãng ô tô về xe hybrid sạc điện

Sáng nay, gần 1,15 triệu thí sinh bắt đầu làm bài thi Ngữ văn, chấm dứt đồn đoán đề thi

Nổi bật

5 cây này là 'khắc tinh' của formaldehyde: Nuốt sạch bụi mịn, tẩy uế khí rất tốt

Đáp án môn Ngữ văn thi tốt nghiệp THPT năm 2025

Cận cảnh iPhone 17 Pro, cụm camera mới khiến các iFan phấn khích

BTV Hoàng Linh quảng cáo sữa giả vẫn im lặng nhiều tháng gây bức xúc

Mới ra tù, nghịch tử cầm dao chém mẹ tử vong

Sạt lở vùi lấp căn nhà có 4 người giữa thành phố, 1 nam sinh tử vong

1 nam nghệ sĩ Vbiz bị bắt vì liên quan đến ma tuý, động thái từ công ty 'châm dầu vào lửa'?

Clip: Leo qua rào chắn cùng bạn gái, nam thanh niên bị tàu hỏa tông tử vong ở Hà Nam

Tử vi thứ 5 ngày 26/6/2025 của 12 con giáp: Thứ 5 Thân lạc quan, Mão tinh tế

Hà Nội: Đang hút mỡ thì công an ập vào, nữ bệnh nhân bàng hoàng khi biết 'bác sĩ' từng là… công nhân đóng gạch

Cục Đăng kiểm phát cảnh báo khẩn: Toàn bộ chủ ô tô, xe máy trên cả nước chú ý

Tổ trưởng bảo vệ đánh đồng nghiệp rồi dọa 'lần sau không đánh bằng tay, chân nữa': Bất ngờ diễn biến đằng sau

Người đàn ông giấu gần 2kg vàng trong ống kính máy ảnh ở sân bay Nội Bài

Tin mới

Lương 40 triệu/tháng không cần biết nấu ăn?

Tân binh V.League tậu ngoại binh giá 15 tỷ, sắm dàn HLV cực chất từ Tây Ban Nha về đua vô địch

Gần 2.500 tỷ đồng hậu quả đã được khắc phục toàn bộ, Trịnh Văn Quyết và đồng phạm được giảm án sâu

Cảnh trớ trêu của nam thanh niên nhận lời người phụ nữ để lùi xe hộ ra đường

5 cây này là 'khắc tinh' của formaldehyde: Nuốt sạch bụi mịn, tẩy uế khí rất tốt