RLHF là gì?
RLHF (Reinforcement Learning from Human Feedback) là kỹ thuật trong machine learning sử dụng phản hồi từ con người để huấn luyện mô hình AI, nhằm làm cho hành vi của nó phù hợp với sở thích nhân loại. Thay vì định nghĩa hàm reward thủ công, RLHF xây dựng mô hình reward từ dữ liệu so sánh do con người đánh giá. Phương pháp này thường áp dụng cho các mô hình ngôn ngữ lớn (LLM) như ChatGPT hoặc Claude.
Mục tiêu và cơ chế của RLHF
RLHF giải quyết vấn đề khó khăn trong reinforcement learning truyền thống: việc thiết kế hàm reward chính xác đại diện cho sở thích con người. Quy trình bao gồm ba bước chính: pretraining mô hình ngôn ngữ cơ bản, thu thập phản hồi từ con người để huấn luyện reward model, và fine-tuning policy model bằng reinforcement learning sử dụng reward model đó.
Trước tiên, mô hình ngôn ngữ được huấn luyện supervised trên dữ liệu prompt-response do con người viết. Sau đó, con người so sánh và xếp hạng các output từ mô hình, tạo dữ liệu preference để train reward model – một mô hình dự đoán điểm số scalar cho hành vi mong muốn. Cuối cùng, policy model được tối ưu bằng thuật toán như PPO (Proximal Policy Optimization), kết hợp KL regularization để tránh lệch xa mô hình gốc.
Các bước cụ thể bao gồm:
- Tạo cặp prompt-output từ mô hình pre-trained.
- Con người xếp hạng output (ví dụ: chọn output tốt hơn giữa hai lựa chọn).
- Train reward model từ dữ liệu ranking, thường dùng Elo rating để chuyển thành score.
- Áp dụng RL để policy học tối đa hóa reward từ reward model.
Khi nào RLHF được sử dụng?
RLHF thường áp dụng ở giai đoạn sau pre-training và supervised fine-tuning (SFT), đặc biệt cho các nhiệm vụ phức tạp liên quan đến giá trị con người như đối thoại, tóm tắt văn bản hoặc tạo hình ảnh. Nó được dùng khi mô hình cần “alignment” – phù hợp với sở thích nhân loại mà không thể định nghĩa reward thủ công, chẳng hạn trong chatbot hoặc text-to-image models.
Phương pháp này nổi bật trong phát triển LLM như InstructGPT, ChatGPT của OpenAI, Sparrow của DeepMind, Gemini của Google và Claude của Anthropic. Ngoài NLP, RLHF còn áp dụng cho computer vision, robot học (như dạy robot backflip) và game bot (Atari games), nơi phản hồi con người giúp hành vi “giống người” hơn.
Những hiểu lầm phổ biến về RLHF
Một hiểu lầm là RLHF thay thế hoàn toàn dữ liệu lớn; thực tế, nó vẫn cần dữ liệu chất lượng cao từ pre-training và vẫn tốn kém do thu thập feedback từ con người. Ngoài ra, nhiều người nghĩ RLHF loại bỏ hoàn toàn bias, nhưng nếu dữ liệu preference không đại diện, mô hình có thể kế thừa bias từ annotators.
RLHF không phải lúc nào cũng vượt trội hơn RL truyền thống; nó hiệu quả hơn khi reward từ con người chứa thông tin phong phú hơn metric đơn giản. Hạn chế lớn là chi phí cao và nguy cơ overfitting reward model nếu không dùng regularization đúng cách.
Các rủi ro chính gồm:
- Bias từ dữ liệu preference không đa dạng.
- Chi phí thu thập dữ liệu lớn, dù ít hơn pre-training.
- Mô hình có thể từ chối query hợp lý nếu reward model quá conservative.
Các thuật ngữ AI liên quan đến RLHF
Dưới đây là một số thuật ngữ AI gần gũi với RLHF, giúp hiểu rõ hơn về quy trình huấn luyện và alignment:
- Reward model: Mô hình học từ preference data để dự đoán điểm số scalar đại diện sở thích con người, làm nền tảng cho RLHF.
- PPO (Proximal Policy Optimization): Thuật toán reinforcement learning phổ biến dùng trong RLHF để tối ưu policy mà không lệch quá xa mô hình gốc.
- Alignment: Quá trình làm mô hình AI phù hợp với giá trị và sở thích con người, mà RLHF là phương pháp chính.
- Supervised Fine-Tuning (SFT): Bước huấn luyện trước RLHF, sử dụng dữ liệu prompt-response do con người viết để cải thiện mô hình cơ bản.
Các câu hỏi thường gặp
RLHF khác gì với Reinforcement Learning truyền thống?
RLHF sử dụng phản hồi con người thay vì reward function thủ công, giúp mô hình học sở thích phức tạp hơn. RL truyền thống dựa trên metric định lượng như điểm số game, trong khi RLHF dùng ranking từ con người để xây reward model linh hoạt.
RLHF có được dùng trong ChatGPT không?
Có, ChatGPT và InstructGPT của OpenAI sử dụng RLHF để alignment, giúp output hữu ích, an toàn và phù hợp sở thích người dùng hơn.
RLHF có nhược điểm gì?
RLHF tốn kém do cần feedback con người chất lượng cao và có nguy cơ bias nếu dữ liệu không đại diện. Nó cũng phức tạp hơn, đòi hỏi nhiều mô hình phối hợp.
Làm thế nào để triển khai RLHF?
Bắt đầu bằng pre-trained LM, thu thập preference data qua ranking, train reward model rồi fine-tune bằng PPO. Công cụ open-source như Hugging Face hỗ trợ quy trình này.
Hiểu rõ RLHF giúp nắm bắt cách các mô hình AI hiện đại như LLM đạt được hành vi gần với con người hơn, đồng thời nhận diện thách thức trong alignment. Kỹ thuật này là bước tiến quan trọng trong huấn luyện an toàn và hiệu quả, dù vẫn cần cải thiện về chi phí và bias. Việc áp dụng RLHF đúng cách góp phần xây dựng AI đáng tin cậy hơn trong thực tế.