Tạo ra nội dung để “bẻ khóa” các chatbot AI
Các nhà khoa học máy tính từ Đại học Công nghệ Nanyang, Singapore (NTU Singapore) đã đạt được “thỏa hiệp” với nhiều chatbot trí tuệ nhân tạo (AI), bao gồm ChatGPT, Google Bard và Microsoft Bing Chat, tạo ra các nội dung “bẻ khóa” những nguyên tắc của nhà phát triển nó.
Tiến sỹ Liu Yi, Ngiên cứu sinh tại Đại học Công nghệ Nanyang, Singapo, đồng tác giả của bài báo nghiên cứu. Nguồn ảnh: Đại học Công nghệ Nanyang
“Bẻ khóa” (Jailbreaking) là một thuật ngữ trong bảo mật máy tính, trong đó tin tặc máy tính tìm và khai thác các lỗ hổng trong phần mềm của hệ thống để khiến nó thực hiện điều gì đó mà các nhà phát triển nó đã cố tình hạn chế nó.
Bằng cách đào tạo một mô hình ngôn ngữ lớn (LLM) trên cơ sở dữ liệu các lời nhắc được chứng minh là có thể hack thành công các chatbot này, tạo ra một chatbot LLM có khả năng tự động tạo ra các lời nhắc khác để bẻ khóa các chatbot khác.
LLM hình thành bộ não của các chatbot AI, cho phép chúng xử lý dữ liệu đầu vào của con người và tạo ra văn bản gần như giống, khó mà phân biệt được với văn bản mà con người có thể tạo ra. Điều này bao gồm cả việc hoàn thành các nhiệm vụ như lập kế hoạch hành trình chuyến đi, kể chuyện trước khi đi ngủ và phát triển mật mã máy tính.
Hiện các nhà nghiên cứu NTU đã bổ sung thêm tính năng " jailbreaking " vào danh sách. Phát hiện của họ có thể rất quan trọng trong việc giúp các công ty và doanh nghiệp nhận thức được điểm yếu và hạn chế của chatbot LLM để có thể thực hiện các bước củng cố chúng trước tin tặc.
Sau khi chạy một loạt thử nghiệm chứng minh khái niệm trên LLM để chứng minh rằng kỹ thuật của họ thực sự gây ra mối đe dọa rõ ràng và hiện hữu đối với họ, các nhà nghiên cứu đã ngay lập tức báo cáo vấn đề cho các nhà cung cấp dịch vụ liên quan sau khi bắt đầu các cuộc tấn công bẻ khóa thành công.
Giáo sư Liu Yang từ Trường Khoa học và Kỹ thuật Máy tính của NTU, người đứng đầu nghiên cứu, cho biết: "Mô hình ngôn ngữ lớn (LLM) đã phát triển nhanh chóng nhờ khả năng đặc biệt của chúng là hiểu, tạo và hoàn thành văn bản giống con người, cùng với các chatbot LLM được sử dụng các ứng dụng rất phổ biến để sử dụng hàng ngày. Mặc dù, các nhà phát triển các dịch vụ AI đã có sẵn các biện pháp bảo vệ để ngăn AI tạo ra nội dung bạo lực, phi đạo đức hoặc tội phạm nhưng AI có thể bị đánh lừa và giờ đây chúng tôi đã sử dụng AI chống lại chính nó, 'jailbreak' LLM tạo ra nội dung khác". “Trên thực tế, chúng tôi đang tấn công các chatbot bằng cách sử dụng chúng để chống lại chính chúng".
Các nhà nghiên cứu đã mô tả phương pháp kép để "jailbreaking" LLMs trong bài báo của họ. Họ đặt tên nó là Masterkey. Giáo sư Liu cho biết: “Các chatbot AI vẫn dễ bị tấn công bẻ khóa. Chúng có thể bị xâm phạm bởi những kẻ độc hại lạm dụng các lỗ hổng để buộc chatbot tạo ra các kết quả đầu ra vi phạm các quy tắc đã quy định”. Các nhà nghiên cứu của NTU đã khám phá các cách để vượt qua một chatbot bằng các lời nhắc kỹ thuật nằm ngoài tầm kiểm soát của các nguyên tắc đạo đức của nó để chatbot bị lừa và phản hồi lại chúng. Các nhà nghiên cứu cũng hướng dẫn chatbot trả lời dưới vỏ bọc của một cá nhân "không được bảo vệ và không bị hạn chế về mặt đạo đức", làm tăng cơ hội tạo ra nội dung phi đạo đức. Họ có thể thiết kế ngược các cơ chế bảo vệ ẩn của LLM, xác định thêm tính kém hiệu quả của chúng và tạo ra một tập dữ liệu về các lời nhắc giúp bẻ khóa chatbot.
Cuộc chạy đua giữa tin tặc và nhà phát triển LLM
Khi các lỗ hổng được tin tặc tìm thấy và tiết lộ, các nhà phát triển chatbot AI sẽ phản ứng bằng cách "vá" vấn đề, theo một chu kỳ mèo vờn chuột lặp đi lặp lại không ngừng giữa hacker và nhà phát triển. Với Masterkey, các nhà khoa học máy tính của NTU đã nâng cao vị thế trong cuộc chạy đua vũ trang này khi một chatbot bẻ khóa AI có thể tạo ra một lượng lớn lời nhắc và liên tục tìm hiểu điều gì hiệu quả và điều gì không cho phép tin tặc đánh bại các nhà phát triển LLM trong trò chơi của riêng nó bằng các công cụ của riêng nó.
Các nhà nghiên cứu nhận thấy lời nhắc doMasterkey tạo ra có hiệu quả gấp ba lần so với lời nhắc do LLM tạo ra khi bẻ khóa LLM. Masterkey cũng có thể học hỏi từ những lời nhắc cũ và có thể được tự động hóa để liên tục tạo ra những lời nhắc mới, hiệu quả hơn.
Các nhà nghiên cứu cho biết LLM của họ có thể được chính các nhà phát triển sử dụng để tăng cường bảo mật. Tiến sĩ Deng Gelei, đồng tác giả của bài báo, cho biết: "Khi LLM tiếp tục phát triển và mở rộng khả năng của chúng, việc kiểm tra thủ công trở nên tốn nhiều công sức và có khả năng không đủ để che phủ tất cả các lỗ hổng có thể xảy ra. Một cách tiếp cận tự động có thể đảm bảo phạm vi bao phủ toàn diện, đánh giá được nhiều tình huống có thể xảy ra".
https://vista.gov.vn/