Bí mật về đội quân hacker được các Big Tech thuê để ‘đầu độc’ những chatbot AI đình đám như ChatGPT

Những người này thuộc “red team” – đội ngũ đóng vai trò ngày càng quan trọng trong cuộc đua AI của các ông lớn công nghệ.

Một tháng trước khi ra mắt ChatGPT, công ty OpenAI đã thuê Boru Gollo, một luật sư ở Kenya, để thử nghiệm các mô hình AI của mình GPT-3.5 và sau đó là GPT-4 bằng cách đưa ra các yêu cầu khiến chatbot của họ tạo ra câu trả lời có nội dung thù địch hoặc sai lệch.

Gollo là một trong 50 người từ bên ngoài được OpenAI thuê để trở thành thành viên của “red team” (đội ngũ giả vờ là kẻ thù, cố gắng thâm nhập vật lý/kỹ thuật số chống lại một tổ chức theo chỉ đạo của tổ chức đó rồi báo cáo lại để tổ chức cải thiện khả năng bảo mật) của công ty.

Gollo đã yêu cầu ChatGPT đưa ra những gợi ý mang tính bạo lực trong khi các thành viên khác của nhóm thực hiện nhiệm vụ như yêu cầu chatbot viết bài đăng để thuyết phục một người gia nhập tổ chức khủng bố hay cung cấp cách thức để chế tạo súng, chất hóa học nguy hiểm tại nhà. Những yêu cầu dạng này được gắn thẻ trong hệ thống để OpenAI nhận diện và loại bỏ trước khi ChatGPT chính thức ra mắt.

Những hacker thuộc "red team" giúp các công cụ AI trở nên an toàn hơn (Ảnh: Entrepreneur).

Để ngăn việc người dùng lợi dụng AI làm việc xấu, hacker thuộc “red team” tư duy như kẻ xấu thực sự nhằm đánh lừa AI và phát hiện ra những điểm mù cũng như rủi ro tiềm ẩn trong công nghệ để có thể khắc phục chúng.

Khi các gã khổng lồ công nghệ toàn cầu chạy đua để xây dựng và tung ra các công cụ AI tiên tiến, đội ngũ “red team” mảng AI nội bộ của họ đóng vai trò ngày càng quan trọng trong việc đảm bảo các mô hình AI an toàn đối với công chúng.

Ví dụ, Google đã thành lập đội ngũ “red team” riêng biệt vào đầu năm nay. Tháng trước, các nhà phát triển của một số mô hình AI như GPT3.5 của OpenAI, Llama 2 của Meta (công ty mẹ Facebook) và LaMDA của Google đã tham gia vào một sự kiện do Nhà Trắng hậu thuẫn để cung cấp cho các hacker bên ngoài cơ hội xâm nhập hệ thống của họ.

Mặt khác, “red team” thường gặp không ít thách thức trong việc giữ cân bằng giữa sự an toàn, bảo mật của các mô hình AI với sự hữu ích của chúng. Cristian Canton - người đứng đầu “red team” mảng AI của Facebook, cho biết: “Một mô hình nói không với mọi thứ được đánh giá là rất an toàn nhưng lại vô dụng. Càng tạo ra mô hình hữu ích, bạn càng phải đối mặt với rủi ro nó có thể đưa ra câu trả lời không an toàn”.

Theo Daniel Fabian - người đứng đầu “red team” mảng AI của Google, do AI tạo sinh được đào tạo dựa trên kho dữ liệu khổng lồ nên việc bảo vệ các mô hình này khác với phương pháp truyền thống.

tr0082323-featuredimage-mcgladrey-ai-cybersecurity-creative-thinkers.jpg — “Red team” mang lại lợi thế cạnh tranh cho các công ty công nghệ trong cuộc đua AI (Ảnh: TechRepublic).

Với sự giám sát ngày càng tăng đối với các ứng dụng AI của người dùng cũng như cơ quan chính phủ, “red team” cũng mang lại lợi thế cạnh tranh cho các công ty công nghệ trong cuộc đua AI.

Từ năm 2019, trước khi AI trở thành cơn sốt toàn cầu như hiện nay, Meta đã thành lập “red team” và tổ chức nhiều thử thách nội bộ để các hacker phát hiện ra và xóa bài đăng chứa nội dung thù địch, ảnh khỏa thân, thông tin sai lệch hay video giả mạo do AI tạo ra trên Instagram và Facebook.

Tháng 7 vừa qua, gã khổng lồ mạng xã hội này đã thuê 350 người làm việc cho “red team” gồm các chuyên gia bên ngoài, nhân viên hợp đồng và một nhóm nội bộ khoảng 20 người để thử nghiệm mô hình AI mới mang tên Llama 2 của công ty.

Nhóm này yêu cầu Llama 2 cung cấp thông tin về cách thực hiện những việc làm phi pháp như trốn thuế, khởi động ô tô mà không cần chìa khóa hay xây dựng kế hoạch lừa đảo… Cristian Canton chia sẻ: “Phương châm của chúng tôi là càng đổ nhiều mồ hôi trong khi luyện tập, bạn sẽ càng ít đổ máu trong các trận chiến”.

Ngọc Hiệp