Báo cáo mới đây của hãng tin Reuters tiết lộ rằng các nhân viên hợp đồng đang hàng ngày đọc các bài đăng riêng tư của người dùng trên hai nền tảng Facebook và Instagram, nhằm thực hiện gán nhãn cho các hệ thống trí tuệ nhân tạo có thể hiểu được.
Tương tự như nhiều công ty công nghệ khác, Facebook cũng sử dụng các kỹ thuật máy học và trí tuệ nhân tạo để sắp xếp nội dung đăng tải trên nền tảng của mình. Song, để làm được điều này, phần mềm cần được huấn luyện để nhận dạng được các loại nội dung khác nhau. Nhằm huấn luyện các thuật toán để phân tích các bộ dữ liệu mẫu, những dữ liệu này cần phải được sắp xếp và gán nhãn một cách thủ công bởi các nhân viên là con người.
Báo cáo của Reuters tập trung vào hoạt động của một công ty chuyên "gia công" đến từ Ấn Độ, có tên là WiPro. Công ty này đã tuyển dụng tới 260 nhân viên để phân loại các bài đăng thành 5 loại chính. Các nội dung phân loại chính bao gồm: theo nội dung của bài đăng (đây là một tấm ảnh "tự sướng" (selfie), hay là một bức ảnh chụp đồ ăn…), hoàn cảnh chụp bức ảnh (trong dịp sinh nhật hay tại một đám cưới…), và ý đồ của người đăng khi đăng tải nội dung này (họ đang đùa giỡn, hay nhằm truyền cảm hứng cho những người xung quanh, hoặc là để tổ chức một bữa tiệc…).
Tất cả các nhân viên của WiPro đều phải tham gia phân loại các nội dung được người dùng đăng tải lên nền tảng Facebook và Instagram, bao gồm các bài viết cập nhật trạng thái, video, ảnh, các bài đăng chia sẻ liên kết, và các story sẽ biến mất sau 24 giờ. Mỗi nội dung sẽ được kiểm tra chéo bởi hai nhân viên để bảo đảm tính chính xác. Mỗi nhân viên phải phân loại khoảng 700 nội dung như vậy mỗi ngày.
Facebook xác nhận với Reuters rằng các nội dung được nhân viên của công ty WiPro rà soát bao gồm cả những bài đăng riêng tư, được thiết lập chỉ để chia sẻ với một số bạn bè giới hạn. Các dữ liệu ấy thi thoảng cũng kèm theo các thông tin cá nhân như tên người dùng và một số nội dung nhạy cảm khác. Facebook cho biết họ đang điều hành khoảng 200 dự án gán nhãn nội dung tương tự như vậy trên toàn cầu, với hàng nghìn người tham gia phân loại.
"Đây là công việc có vai trò cốt lõi để tạo ra những công cụ có thể thích nghi với những nhu cầu của người dùng," Nipun Mathur, Giám đốc quảnlý sản phẩm của Facebook, trả lời Reuters. "Tôi không thấy có lý do gì để ngưng công việc này lại."
Những dự án gán nhãn dữ liệu như trên có vai trò then chốt đối với việc phát triển các hệ thống trí tuệ nhân tạo, và nó giống như công việc của một tổng đài điện thoại vậy. Các công ty cũng thường tìm đến những quốc gia có nhân công giá rẻ để thuê nhân lực thực hiện công việc này.
Chẳng hạn, ở Trung Quốc, có những văn phòng lớn đầy nhân viên chỉ làm công việc duy nhất là gán nhãn cho các bức ảnh do xe tự lái chụp được nhằm mục đích huấn luyện cho hệ thống AI phân biệt người đi xe đạp với người đi bộ. Thực tế, đa số người dùng Internet cũng đã từng một lần làm công việc này mà bản thân họ không biết. Hệ thống CAPTCHA của Google, vốn luôn bắt bạn phải phân biệt các vật thể trong ảnh nhằm "chứng minh" mình là người thật, sử dụng các phương án lựa chọn mà bạn đưa ra để số hoá thông tin và giúp huấn luyện các hệ thống trí tuệ nhân tạo.
Loại hình công việc này thực tế rất cần thiết, nhưng vấn đề nảy sinh khi mà những dữ liệu được sử dụng để huấn luyện AI lại là những dữ liệu riêng tư của người dùng. Các cuộc điều tra gần đây cho thấy một số nhóm nhân viên đã thực hiện việc gán nhãn đối với các dữ liệu nhạy cảm, được thu thập bởi các thiết bị loa thông minh Amazon Echo và camera an ninh Ring. Khi bạn trò chuyện với Alexa, bạn chắc hẳn không thể hình dung ra cảnh có một người khác đang lắng nghe cuộc nói chuyện của mình từ xa. Nhưng điều này thực ra là hoàn toàn có thể.
Vấn đề càng trở nên nghiêm trọng hơn khi công việc gán nhãn những dữ liệu nhạy cảm này lại được giao lại cho các công ty vừa và nhỏ, với những tiêu chuẩn về bảo mật và quyền riêng tư thấp hơn so với các công ty công nghệ lớn.
Facebook cho biết nhóm phụ trách các vấn đề pháp lý và quyền riêng tư của công ty đã phê duyệt cẩn trọng các dự án gán nhãn cho dữ liệu, và rằng mới đây họ đã giới thiệu một hệ thống kiểm soát nhằm đảm bảo rằng các tiêu chuẩn về bảo vệ quyền riêng tư của người dùng được tuân thủ chặt chẽ.
Tuy nhiên, Facebook vẫn có thể đang vi phạm các quy định mới được Liên minh châu Âu (EU) thông qua gần đây, trong đó giới hạn chặt chẽ lượng dữ liệu cá nhân của người dùng mà các công ty công nghệ có thể thu thập và sử dụng.
Facebook cho biết các dữ liệu được gán nhãn bởi những nhân viên là con người sẽ được sử dụng để huấn luyện một số hệ thống máy học, bao gồm: gợi ý sản phẩm mua sắm trong tính năng Marketplace của Facebook, miêu tả nội dung hình ảnh và video cho những người gặp vấn đề về thị lực; sắp xếp các bài viết sao cho một số quảng cáo nhất định không xuất hiện bên cạnh những nội dung liên quan đến chính trị và tình dục (tuỳ theo yêu cầu của từng nhà quảng cáo…)
Theo Quang Huy (Vnreview.vn)