Đánh giá hiệu suất của các mô hình ngôn ngữ lớn
Trong thời đại công nghệ số hiện nay, các mô hình ngôn ngữ lớn (LLMs) như GPT-4, BERT đã trở thành những công cụ mạnh mẽ và đa năng, góp phần quan trọng trong nhiều lĩnh vực khác nhau, từ giáo dục đến y tế. Những mô hình này có thể giúp sinh viên soạn thảo email, hỗ trợ bác sĩ lâm sàng trong việc chẩn đoán bệnh, và thậm chí đóng góp vào việc phân tích dữ liệu trong kinh doanh. Tuy nhiên, mặc dù các LLM sở hữu khả năng giải quyết nhiều nhiệm vụ phức tạp, việc đánh giá chính xác năng lực của chúng vẫn đang đặt ra nhiều thách thức. Nghiên cứu mới đây từ Học viện Công nghệ Massachusetts (MIT) đã chỉ ra rằng, đánh giá một mô hình ngôn ngữ không thể chỉ dựa trên dữ liệu hay thuật toán mà cần dựa vào cách con người hình thành niềm tin và đánh giá về chúng.
Theo các nhà nghiên cứu từ MIT, một trong những yếu tố quan trọng trong việc đánh giá LLM là phải hiểu được cách con người tổng quát hóa khả năng của mô hình này sau khi tiếp xúc và tương tác với nó. Nghiên cứu do Giáo sư Ashesh Rambachan cùng các cộng sự tại Phòng thí nghiệm Hệ thống Thông tin và Quyết định của MIT (LIDS) thực hiện đã phát hiện ra rằng, cách mà người dùng con người hình thành niềm tin về các mô hình này có thể ảnh hưởng trực tiếp đến hiệu suất sử dụng chúng trong các tình huống quan trọng.
Cụ thể, khi con người tương tác với các LLM, họ thường hình thành niềm tin dựa trên các phản hồi trước đó mà mô hình đưa ra. Nếu mô hình không đáp ứng kỳ vọng, người dùng có thể trở nên quá tự tin hoặc thiếu tự tin về khả năng của nó. Điều này có thể dẫn đến những quyết định sai lầm, đặc biệt trong các tình huống quan trọng như chẩn đoán y khoa hay dự đoán thị trường tài chính. Điều đáng chú ý là, các mô hình này không hoạt động giống như con người, do đó, sự tổng quát hóa của con người về khả năng của chúng có thể bị lệch lạc. Điều này đồng nghĩa với việc con người có xu hướng dự đoán hiệu suất của LLM không chính xác so với việc đánh giá hiệu suất của chính mình.
Nghiên cứu của MIT còn chỉ ra rằng, khi LLM trả lời sai, người dùng thường dễ dàng điều chỉnh niềm tin của mình hơn so với khi nó trả lời đúng. Điều này làm tăng tính phức tạp trong việc sử dụng các mô hình ngôn ngữ này trong những tình huống đòi hỏi sự chính xác cao. Hơn nữa, nhiều người tin rằng khả năng trả lời đúng của LLM trên các câu hỏi đơn giản không có liên quan mật thiết đến khả năng trả lời các câu hỏi phức tạp hơn. Trong khi đó, các mô hình đơn giản có thể vượt trội hơn trong một số tình huống đặc biệt, mặc dù các LLM tinh vi như GPT-4 thường được đánh giá cao về mặt công nghệ.
Một khía cạnh khác được nghiên cứu là sự thiếu kinh nghiệm của con người khi tương tác với các LLM. Vì đây là các công nghệ mới, nên người dùng còn chưa có đủ thời gian để làm quen với các mô hình này và học cách tổng quát hóa chúng một cách hiệu quả. Giáo sư Rambachan cho rằng, nếu con người có thể tương tác thường xuyên hơn với LLM, họ sẽ cải thiện được khả năng đánh giá và tổng quát hóa về chúng.
MIT cũng đã tạo ra một bộ dữ liệu gồm gần 19.000 ví dụ để đo lường cách con người tổng quát hóa hiệu suất của LLM trên 79 nhiệm vụ khác nhau. Dữ liệu này có thể trở thành tiêu chuẩn để so sánh hiệu suất của các LLM với các yếu tố liên quan đến niềm tin và sự tổng quát hóa của con người, từ đó giúp điều chỉnh và phát triển các mô hình một cách hiệu quả hơn.
Nghiên cứu của MIT không chỉ góp phần vào việc hiểu rõ hơn về cách con người tương tác và đánh giá các mô hình ngôn ngữ lớn, mà còn đặt ra nền tảng quan trọng cho việc cải thiện và phát triển các công cụ trí tuệ nhân tạo trong tương lai. Kết quả của nghiên cứu cho thấy, để huấn luyện và điều chỉnh LLM một cách hiệu quả, cần phải xem xét cách con người hình thành và điều chỉnh niềm tin về khả năng của các mô hình này. Bộ dữ liệu và khung đánh giá do MIT phát triển có tiềm năng trở thành công cụ hỗ trợ quan trọng trong việc cải thiện hiệu suất và tính ứng dụng của các LLM trong thực tế. Nghiên cứu này không chỉ có giá trị đối với giới khoa học mà còn có tác động sâu rộng đến người dùng LLM trong nhiều lĩnh vực khác nhau.