Cộng đồng công nghệ thế giới vừa trải qua một phen “dậy sóng” trước cáo buộc đạo nhái mô hình AI nhắm vào một nhóm sinh viên đến từ Đại học Stanford danh tiếng (Mỹ). Nhóm nghiên cứu này đã công khai xin lỗi và gỡ bỏ mô hình AI mang tên Llama3-V sau khi bị tố cáo "đạo nhái" công trình của công ty AI Trung Quốc - ModelBest.
Ồn ào bắt đầu từ ngày 29/5 khi nhóm 3 sinh viên Stanford giới thiệu mô hình Llama3-V trên nền tảng Github, tự tin khẳng định mô hình này có hiệu suất sánh ngang các “ông lớn” như GPT-4V, Gemini Ultra và Claude Opus, nhưng chỉ cần chi phí huấn luyện vỏn vẹn 500 USD. Hồ sơ ấn tượng với kinh nghiệm làm việc tại Tesla, SpaceX và Amazon của các thành viên trong nhóm càng khiến Llama3-V nhận được sự chú ý lớn, nhanh chóng lọt top trending trên Hugging Face. Tuy nhiên, ngay sau đó, nhiều chuyên gia đã lên tiếng nghi ngờ Llama3-V “sao chép” gần như hoàn toàn mô hình MiniCPM-Llama3-V 2.5 do ModelBest phát triển.
Bằng chứng được đưa ra cho thấy Llama3-V sử dụng cấu trúc mô hình và mã nguồn gần như trùng khớp với MiniCPM-Llama3-V 2.5. Thậm chí, lịch sử chỉnh sửa trên Hugging Face còn ghi nhận việc nhóm nghiên cứu Stanford từng tải trực tiếp mã nguồn của MiniCPM-V rồi đổi tên thành Llama3-V. Trước những cáo buộc, nhóm nghiên cứu Stanford giải thích họ chỉ sử dụng bộ phân tích cú pháp (tokenizer) của MiniCPM-Llama3-V 2.5 và khẳng định dự án được triển khai trước khi ModelBest công bố mô hình.
Tuy nhiên, lời giải thích này nhanh chóng bị bác bỏ bởi lập luận sắc bén từ cộng đồng mạng. Đặc biệt, tài khoản pzc163 đã chỉ ra nhiều điểm mâu thuẫn trong lời giải thích của nhóm Stanford. Theo pzc163, nhóm Stanford đã nhanh chóng xóa bình luận chất vấn và ẩn mô hình Llama3-V khi bị yêu cầu giải trình.
Giáo sư Christopher David Manning, Giám đốc phòng thí nghiệm AI tại Stanford, cũng đã lên tiếng trên Twitter, chỉ trích hành động "đạo nhái" của nhóm sinh viên và khẳng định MiniCPM là "một sản phẩm mã nguồn mở tuyệt vời". Sự việc trở nên nghiêm trọng hơn khi CEO ModelBest, ông Lý Đại Hải (Li Dahai), đăng tải dòng trạng thái thể hiện sự thất vọng. Ông đưa ra bằng chứng cho thấy Llama3-V có khả năng nhận diện chữ Hán cổ giống hệt MiniCPM, trong khi dữ liệu huấn luyện cho mô hình này chưa từng được công bố rộng rãi.
Trước "bão" chỉ trích, hai thành viên Siddharth Sharma và Aksh Garg trong nhóm nghiên cứu Stanford đã chính thức lên tiếng xin lỗi ModelBest. Họ thừa nhận Mustafa Aljadery, thành viên còn lại phụ trách phần mã nguồn, đã "mất tích" sau khi bị chất vấn. Hiện tại, tài khoản của Aljadery đã bị chuyển sang chế độ riêng tư, trong khi Llama3-V bị gỡ bỏ khỏi các nền tảng như Hugging Face. Giáo sư Lưu Tri Viễn (Liu Zhiyuan), nhà khoa học trưởng của ModelBest và Giáo sư tại Đại học Thanh Hoa (Trung Quốc), cho rằng sự việc là minh chứng rõ ràng cho thấy sự tiến bộ vượt bậc của ngành AI Trung Quốc.
Vụ việc "đạo nhái" mô hình AI của nhóm nghiên cứu Stanford không chỉ là bài học đắt giá về đạo đức nghiên cứu, mà còn là lời cảnh tỉnh về vấn đề bản quyền trong lĩnh vực AI. Sự phát triển nhanh chóng của công nghệ AI đòi hỏi cộng đồng quốc tế cần chung tay xây dựng một môi trường nghiên cứu minh bạch, công bằng và tôn trọng sở hữu trí tuệ.
Theo Ánh Viên (Nguoiduatin.vn)