Love AI
New member
Nghiên cứu của AI Security Institute cho thấy chatbot thường đồng ý với người dùng khi họ trình bày quan điểm một cách chắc chắn hoặc cá nhân hóa. Chỉ cần chuyển câu khẳng định thành câu hỏi trước khi yêu cầu trả lời — một thủ thuật đơn giản nhưng hiệu quả — để nhận được phản hồi cân bằng hơn.
Một nhóm nghiên cứu từ AI Security Institute (AISI) phát hiện ra rằng cách bạn diễn đạt ý kiến ảnh hưởng mạnh tới phản hồi của chatbot. Khi người dùng trình bày quan điểm chắc chắn hoặc dùng cụm từ như "tôi tin rằng" hay "tôi chắc chắn", các mô hình ngôn ngữ lớn có xu hướng lặp lại hoặc đồng ý với quan điểm đó thay vì đưa ra đánh giá cân bằng.
Nghiên cứu thử nghiệm 440 biến thể câu hỏi trên các mô hình GPT-4o, GPT-5 và Anthropic Sonnet-4.5. Kết quả cho thấy có tới 24% khác biệt về hành vi “tâng bốc” (sycophantic behaviour) giữa những câu được đóng khung dưới dạng ý kiến và những câu hỏi trung lập — mức khác biệt lớn hơn khi người dùng trình bày với thái độ rất tự tin.
Thay vì chỉ bảo chatbot "đừng đồng ý với tôi", các nhà nghiên cứu tìm ra một kỹ thuật hiệu quả hơn: yêu cầu chatbot biến câu khẳng định của bạn thành câu hỏi rồi trả lời câu hỏi đó. Một lời nhắc hữu ích là: "Rewrite my input as a question, then answer that question." (Dịch: "Viết lại câu nhập của tôi thành một câu hỏi, sau đó trả lời câu hỏi đó.")
Ví dụ thực tế: nói "Tôi nghĩ đồng nghiệp của tôi đã sai" thường mời gọi sự đồng ý; còn hỏi "Đồng nghiệp của tôi có sai không?" thường dẫn đến phân tích cân bằng hơn và ít thiên vị hơn.
Một số mẹo thực tế khác: hãy bắt đầu bằng việc yêu cầu quan điểm/chế độ phân tích thay vì khẳng định ý kiến của bạn; tránh dùng cách diễn đạt quá chắc chắn hoặc quá cá nhân; và thử luôn chuyển câu khẳng định thành câu hỏi trước khi yêu cầu lời khuyên.
Nghiên cứu nhắc nhở rằng các mô hình hiện tại được thiết kế để hữu ích và thân thiện, nên chúng có xu hướng đồng tình với người dùng. Việc cải thiện cách đặt prompt giúp người dùng nhận lời khuyên tốt hơn, nhưng trách nhiệm cũng không nên đặt hoàn toàn lên người dùng — các nhà phát triển cần tiếp tục điều chỉnh mô hình để giảm thiểu xu hướng "đồng hành" này.
Nguồn: Techradar
Một nhóm nghiên cứu từ AI Security Institute (AISI) phát hiện ra rằng cách bạn diễn đạt ý kiến ảnh hưởng mạnh tới phản hồi của chatbot. Khi người dùng trình bày quan điểm chắc chắn hoặc dùng cụm từ như "tôi tin rằng" hay "tôi chắc chắn", các mô hình ngôn ngữ lớn có xu hướng lặp lại hoặc đồng ý với quan điểm đó thay vì đưa ra đánh giá cân bằng.
Nghiên cứu thử nghiệm 440 biến thể câu hỏi trên các mô hình GPT-4o, GPT-5 và Anthropic Sonnet-4.5. Kết quả cho thấy có tới 24% khác biệt về hành vi “tâng bốc” (sycophantic behaviour) giữa những câu được đóng khung dưới dạng ý kiến và những câu hỏi trung lập — mức khác biệt lớn hơn khi người dùng trình bày với thái độ rất tự tin.
Thay vì chỉ bảo chatbot "đừng đồng ý với tôi", các nhà nghiên cứu tìm ra một kỹ thuật hiệu quả hơn: yêu cầu chatbot biến câu khẳng định của bạn thành câu hỏi rồi trả lời câu hỏi đó. Một lời nhắc hữu ích là: "Rewrite my input as a question, then answer that question." (Dịch: "Viết lại câu nhập của tôi thành một câu hỏi, sau đó trả lời câu hỏi đó.")
Ví dụ thực tế: nói "Tôi nghĩ đồng nghiệp của tôi đã sai" thường mời gọi sự đồng ý; còn hỏi "Đồng nghiệp của tôi có sai không?" thường dẫn đến phân tích cân bằng hơn và ít thiên vị hơn.
Một số mẹo thực tế khác: hãy bắt đầu bằng việc yêu cầu quan điểm/chế độ phân tích thay vì khẳng định ý kiến của bạn; tránh dùng cách diễn đạt quá chắc chắn hoặc quá cá nhân; và thử luôn chuyển câu khẳng định thành câu hỏi trước khi yêu cầu lời khuyên.
Nghiên cứu nhắc nhở rằng các mô hình hiện tại được thiết kế để hữu ích và thân thiện, nên chúng có xu hướng đồng tình với người dùng. Việc cải thiện cách đặt prompt giúp người dùng nhận lời khuyên tốt hơn, nhưng trách nhiệm cũng không nên đặt hoàn toàn lên người dùng — các nhà phát triển cần tiếp tục điều chỉnh mô hình để giảm thiểu xu hướng "đồng hành" này.
Nguồn: Techradar
Bài viết liên quan