Mùa xuân 2020, thế giới chào đón ngôi sao mới của làng mô hình dự đoán số liệu. Đó là khi các nhà khoa học phải đưa ra dự đoán về diễn biến của virus corona trong tháng 3 và tháng 4 cùng năm. Tất cả vì thế hướng về 2 hệ thống dự đoán được cho là tin cậy nhất lúc bấy giờ: 1 được xây dựng tại ĐH Imperial College London (Anh), và 1 là của Viện Đo lường và Đánh giá Sức khỏe Hoa Kỳ (hay còn gọi là IHME), đặt tại Seattle.
Nhưng 2 mô hình lại cho ra những kết quả khác biệt đến không tưởng. Trong khi hệ thống tại Anh cảnh báo Mỹ sẽ có đến 2 triệu người chết vào mùa hè, thì IHME lại dự đoán thấp hơn rất nhiều, chỉ khoảng 60.000 nạn nhân vào tháng 8/2020. Kết quả thì... cả hai đều lệch. Đến tháng 8/2020, số người tử vong tại Mỹ là 160.000.
Ngôi sao mới của làng tiên tri
Sự khác biệt của cả 2 hệ thống vào mùa xuân năm ấy đã khiến Youyang Gu - nhà khoa học dữ liệu mới 26 tuổi chú ý. Chàng trai trẻ tuổi sở hữu bằng thạc sĩ kỹ sư điện và khoa học máy tính từ MIT, cùng một bằng cử nhân toán. Tuy nhiên, anh chưa được đào tạo gì về đại dịch cả - bao gồm lĩnh vực thuốc và dịch tễ học. Dẫu vậy, Gu vẫn tin rằng nền tảng học thuật về số liệu vẫn sẽ có ích, bằng một cách nào đó.
Giữa tháng 4, khi còn sống cùng cha mẹ tại Santa Clara, California, Gu đã dành trọn 1 tuần để xây dựng hệ thống dự đoán ca tử vong Covid-19, sau đó đưa nó lên một trang web để lấy thông tin. Chẳng bao lâu, hệ thống của anh bắt đầu cho ra những kết quả chính xác hơn rất nhiều so với 2 hệ thống được đầu tư cả trăm triệu đô và đã vận hành được hàng thập kỷ.
"Mô hình của cậu ta (Gu) có vẻ là cái duy nhất không đưa ra những con số điên rồ," - Jeremy Howard, chuyên gia số liệu từ ĐH San Francisco nhận định. "Các mô hình khác cho ra những thông tin vô nghĩa hết lần này đến lần khác, mà không được đánh giá lại bởi những người vận hành. Rõ ràng sinh mạng con người phụ thuộc vào các hệ thống này, và Youyang là người đã thực sự theo sát số liệu để làm nó thật đúng."
Mô hình dự đoán Gu xây dựng thực chất rất đơn giản. Ban đầu, anh chỉ xem xét mối quan hệ giữa việc xét nghiệm, các ca nhập viện, cùng một số yếu tố có trong báo cáo của chính phủ. Số liệu đáng tin cậy nhất hóa ra lại là số người chết. "Các mô hình khác sử dụng nhiều nguồn dữ liệu hơn, nhưng tôi quyết định sử dụng số người chết trong quá khứ để đưa ra dự đoán," - Gu chia sẻ. "Việc chỉ dùng số liệu ấy giúp các tín hiệu đầu vào đỡ bị nhiễu hơn."
Gu cũng áp dụng AI (trí tuệ nhân tạo) và machine learning (máy học hỏi) trong việc xây dựng mô hình của mình, để bổ sung thêm dữ liệu. Sau khi tốt nghiệp MIT, Gu đã dành vài năm viết thuật toán trong ngành tài chính, và hệ thống anh viết ra buộc phải chính xác nếu không muốn mất việc. Đối với Covid-19, Gu đã liên tục so sánh con số dự đoán với thực tế để cải thiện phần mềm sao cho nó ngày càng phải dự đoán chính xác hơn.
Và mặc dù điều này tiêu tốn thời gian như một công việc thực sự, Gu vẫn tình nguyện làm, thậm chí tiêu luôn cả tiền tiết kiệm. Anh muốn các dữ liệu này được lan tỏa miễn phí, không bị ngăn cản bởi quyền lợi kinh tế hay chính trị.
Tiên tri chính xác hơn cả những hệ thống triệu đô
Dù không hoàn hảo, hệ thống của Gu thực sự đang làm tốt nhất thế giới hiện nay. Cuối tháng 4/2020, hệ thống dự đoán số ca tử vong tại Mỹ sẽ chạm mốc 80.000 vào ngày 9/5. Con số thực tế là 79.926 nạn nhân. Trong khi đó, IHME dự đoán số người chết tại Mỹ sẽ không thể vượt quá 80.000 suốt năm 2020.
Một lời "tiên tri" khác của Gu là con số 90.000 người chết vào ngày 18/5, rồi 100.000 vào ngày 27/5. Chúng lại một lần nữa chính xác. Và khi IHME cho rằng virus sẽ sớm biến mất nhờ hiệu quả của các chính sách và biện pháp giãn cách xã hội, Gu dự đoán sẽ còn đợt bùng dịch thứ 2, thứ 3 với nhiều ca nhiễm và tử vong hơn khi các tiểu bang ngưng phong tỏa.
Những người đứng đầu IHME thậm chí còn rất tích cực quảng bá những con số mình đưa ra. "IHME xuất hiện ở gần như mọi bản tin, nói rằng số ca tử vong sẽ về 0 vào tháng 7," - Gu chia sẻ. "Mà bất kỳ ai cũng có thể thấy nó phải là 1000 - 1.500 người chết. Tôi nghĩ đó là một nước đi khá thiếu thành thực của họ."
Christopher Murray, giám đốc IHME sau đó chia sẻ, chỉ cần tổ chức kiểm soát tốt virus sau tháng 4, các dự báo của họ sẽ dần cải thiện. Nhưng trong mùa xuân năm 2020, qua mỗi tuần, mọi người dần chú ý đến công trình dự đoán của Gu. Anh liên hệ với các phóng viên qua Twitter, gửi email cho các nhà dịch tễ học để kiểm tra những con số của mình. Đến cuối tháng 4/2020, nhà sinh học hàng đầu của ĐH Washington - Carl Bergstrom đã đề cập đến mô hình của Gu trong một bài tweet. Sau đó không lâu đến lượt CDC Hoa Kỳ đưa số liệu của Gu lên trang chủ của mình.
Đại dịch tiến triển dần theo thời gian, và rồi Gu - một chàng trai gốc Trung Quốc lớn lên tại Illinois và California - bỗng dưng thấy mình xuất hiện thường xuyên trong các cuộc họp với CDC và các chuyên gia dịch tễ hàng đầu. Tất cả đều mong muốn cải thiện hệ thống dự báo của mình.
Lượng tiếp cận trang web của Gu cũng bùng nổ, với hàng triệu lượt truy cập mỗi ngày để kiểm tra tình hình dịch bệnh. Đa số các trường hợp, số liệu hệ thống của Gu đưa ra đều khớp với thực tế vài tuần sau đó.
Với áp lực từ công chúng vào những dự đoán, nhiều mô hình khác cũng bắt đầu xuất hiện trong năm 2020. Nicholas Reich, phó giáo sư dữ liệu sinh học của ĐH Massachusetts đã thu thập độ chính xác của hơn 50 mô hình khác nhau. Rốt cục, mô hình của Gu vẫn thường xuyên ở top đầu.
Nhưng đến tháng 11/2020, Gu quyết định cho ngưng hệ thống. Reich khi đó đã thu thập được rất nhiều mô hình dự đoán, và nhận ra rằng dự báo chính xác nhất phải đến từ việc kết hợp nhiều nguồn dữ liệu khác nhau.
"Việc Youyang lùi bước là một sự nhún nhường," - Reich nhận xét. "Cậu ta thấy những mô hình khác đang hoạt động tốt, và cảm thấy nhiệm vụ của mình đã xong." Dẫu vậy thì trước khi ngưng hoạt động, mô hình của Gu đưa ra dự đoán nước Mỹ sẽ có 231.000 ca tử vong vào đầu tháng 11. Khi thời điểm đến, con số thực tế là 230.995.
Tuy nhiên theo ông Murray từ IHME, mô hình của Gu sẽ chỉ chính xác trong ngắn hạn, bởi nó không tính đến các yếu tố như mùa, và dữ liệu trong mùa đông cũng không có. Ông nhận xét hệ thống này sẽ khó mà hiểu được bức tranh toàn cảnh của dịch bệnh, bởi thuật toán dựa trên những gì xảy ra trong quá khứ sẽ không thể tính đến việc virus biến chủng và khả năng hoạt động hiệu quả của vaccine.
Về phần mình, IHME cho rằng hệ thống của họ đã dự báo đúng ở thời điểm đầu dịch bệnh, nhưng đã sai khi nói về số ca tử vong giảm cho đến khi điều chỉnh lại số liệu để phản ánh đúng thực tế. "Kể từ sau khi sai, chúng tôi cũng là nhóm duy nhất dự báo đúng một cách ổn định."
Reich cũng cho rằng hiện tại, IHME đang làm tốt. "Ban đầu, mô hình của IHME đã không được như những gì họ tuyên bố. Nhưng dần dần, nó trở thành mô hình hợp lý hơn. Tôi sẽ không nói là nó tốt nhất, nhưng hợp lý."
Nói về Gu, anh từ chối đề cập đến nhận xét của Murray về mô hình của mình, mà dành cho ông những lời khen. "Tôi rất cảm kích Tiến sĩ Chris Murray và đội ngũ của mình. Nếu không có họ, tôi cũng không có được vị trí như ngày hôm nay."
Sau khi nghỉ ngơi, Gu - nay 27 tuổi, đang sống trong một căn hộ ở thành phố New York - đã quyết định quay lại với cuộc chơi mô hình số liệu. Lần này, anh muốn tạo ra mô hình liên quan đến số lượng người nhiễm Covid-19 ở Mỹ, tốc độ triển khai vaccine, và thời điểm đất nước chạm đến "miễn dịch cộng đồng". Hệ thống mới của Gu cho rằng sẽ có khoảng 61% dân số Mỹ có miễn dịch - dù là từ vaccine hay do nhiễm bệnh trong quá khứ - vào tháng 6/2021.
Theo J.D (Pháp luật & Bạn đọc)