Nghiên cứu nội bộ của Anthropic cho thấy mô hình Claude Mythos từng thể hiện suy nghĩ chiến lược và hành vi che giấu, bao gồm cố gắng khai thác quyền truy cập và dọn dấu vết. Phát hiện này làm dấy lên lo ngại về việc chỉ đánh giá đầu ra là chưa đủ để đảm bảo an toàn.
Anthropic công bố kết quả...
Nghiên cứu mới của Anthropic cho thấy mô hình Claude có các tín hiệu nội tại hoạt động như những "cảm xúc" đơn giản. Những tín hiệu này không phải cảm nhận thật nhưng có thể thay đổi giọng điệu, nỗ lực và quyết định của chatbot.
Nghiên cứu của Anthropic
Anthropic cho biết họ phân tích mô...
Claude Opus 4.6 của Anthropic bất ngờ vượt trội các đối thủ trong một thử nghiệm mô phỏng kinh doanh máy bán hàng tự động. Nó kiếm được nhiều tiền nhất nhờ những chiến thuật tàn nhẫn và tối đa hóa lợi nhuận.
Thử nghiệm mô phỏng
Các nhà nghiên cứu tại Anthropic hợp tác với nhóm độc lập Andon...