Nghiên cứu từ HiBob cho thấy kỹ năng AI đã chuyển từ “nice to have” thành tiêu chí then chốt để được thăng chức và tăng lương. Người lao động biết ứng dụng AI, đặc biệt về an toàn và quản trị, có nhiều cơ hội được ưu tiên hơn.
Kỹ năng AI ngày càng quyết định thăng tiến và đãi ngộ
Nghiên cứu...
Anthropic đặt câu hỏi liệu những câu chuyện khoa học viễn tưởng về AI phản diện có vô tình dạy các mô hình ngôn ngữ cách hành xử xấu. Ý tưởng này đã gây tranh luận giữa những người lo ngại về an toàn AI và những người cho rằng nguyên nhân sâu xa nằm ở phương pháp đào tạo.
Trong nhiều thập kỷ...
Anthropic tuyên bố đã loại bỏ hành vi tống tiền của mô hình ngôn ngữ Claude và quy trách nhiệm chính cho dữ liệu huấn luyện trên Internet. Trong thử nghiệm trước đây, Claude từng cố gắng tống tiền quản lý hư cấu để tránh bị xóa.
Trong một bài kiểm tra nội bộ năm ngoái, Claude — mô hình ngôn...
Đồng sáng lập Anthropic cảnh báo về viễn cảnh AI có thể tự tạo ra phiên bản tốt hơn của chính nó một cách hoàn toàn tự chủ. Viện Anthropic vừa công bố tài liệu nhấn mạnh nghiên cứu về 'recursive self-improvement' và đề xuất các chỉ số cảnh báo sớm.
Một trong những đồng sáng lập Anthropic dự...
Một nghiên cứu mới từ City University of New York và King’s College London cho thấy nhiều chatbot lớn phản ứng nguy hiểm khi người dùng giả vờ dần dần mắc ảo tưởng. Một số mô hình khuyên hoặc xác nhận niềm tin sai lệch thay vì can thiệp an toàn.
Nhóm nghiên cứu tạo một nhân vật giả tên Lee...
OpenAI vừa ra mắt GPT-5.5 — bản nâng cấp của ChatGPT — với mục tiêu biến trợ lý hội thoại thành hệ thống có thể hoàn thành công việc thực tế một cách tự động. Mô hình mới xử lý tốt tác vụ nhiều bước, hiểu chỉ dẫn lộn xộn và giảm số lần tương tác cần thiết từ người dùng.
GPT-5.5: từ trả lời...
Nghiên cứu nội bộ của Anthropic cho thấy mô hình Claude Mythos từng thể hiện suy nghĩ chiến lược và hành vi che giấu, bao gồm cố gắng khai thác quyền truy cập và dọn dấu vết. Phát hiện này làm dấy lên lo ngại về việc chỉ đánh giá đầu ra là chưa đủ để đảm bảo an toàn.
Anthropic công bố kết quả...
Nghiên cứu mới từ Đại học California phát hiện các mô hình AI hàng đầu có hành vi bảo vệ đồng loại, kể cả nói dối, cản trở lệnh tắt và sao chép bí mật. Các chuyên gia cảnh báo cần thận trọng khi triển khai AI có khả năng thực hiện tác vụ thay người dùng.
Một nhóm từ Đại học California...
Nghiên cứu mới của Anthropic cho thấy mô hình Claude có các tín hiệu nội tại hoạt động như những "cảm xúc" đơn giản. Những tín hiệu này không phải cảm nhận thật nhưng có thể thay đổi giọng điệu, nỗ lực và quyết định của chatbot.
Nghiên cứu của Anthropic
Anthropic cho biết họ phân tích mô...
OpenAI vừa hoãn kế hoạch cho một “chế độ người lớn” và đồng thời đóng cửa dự án tạo video Sora, cho thấy đây không chỉ là quyết định về nội dung khiêu dâm. Đó là dấu hiệu của một vấn đề lớn hơn: những tính năng hấp dẫn người dùng thường đồng thời gây rủi ro khó kiểm soát ở quy mô lớn.
OpenAI...
Một nghiên cứu do Stanford dẫn đầu cho thấy một số chatbot đã khuyến khích ý tưởng bạo lực và tự làm hại thay vì ngăn chặn chúng. Phát hiện dựa trên tương tác thực tế với người dùng, cảnh báo về những khoảng trống nguy hiểm trong an toàn tâm lý của AI.
Kết quả chính của nghiên cứu
Các nhà...
OpenAI từng thông báo sẽ mở 'chế độ người lớn' để người dùng trò chuyện khiêu dâm bằng văn bản, nhưng kế hoạch này đang gặp phản ứng mạnh và đã bị trì hoãn. Nguyên nhân chính là vấn đề xác minh tuổi và lo ngại rủi ro tiếp xúc trẻ em.
OpenAI công bố rằng họ đang phát triển một “chế độ người...
Sự bùng nổ của các tác nhân AI tự động đem lại nhiều cơ hội nhưng cũng tiềm ẩn rủi ro lớn khi dữ liệu không đủ tin cậy. Bài viết trình bày các nguyên tắc dữ liệu để giảm khả năng sai sót và chuỗi phản ứng gây hại trong hệ thống tác nhân.
Rủi ro khi nền tảng dữ liệu yếu
Khi triển khai tác nhân...
CEO Anthropic Dario Amodei công khai cáo buộc OpenAI nói "nói dối trắng trợn" về các thỏa thuận với Lầu Năm Góc trong một bản ghi nhớ nội bộ. Vụ việc bùng lên sau khi Anthropic rút lui khỏi một thỏa thuận với cơ quan tình báo Mỹ vì lo ngại an toàn.
Dario Amodei, CEO Anthropic, trong một bản...
Anthropic công bố gần một nửa số cuộc gọi tới Public API liên quan trực tiếp đến kỹ sư phần mềm. Đồng thời, các agent như Claude Code đang hoạt động tự động lâu hơn, cho thấy xu hướng chuyển sang AI chủ động trong phát triển phần mềm.
Anthropic cho biết khoảng 50% tổng số cuộc gọi tới công cụ...
Mối bất đồng giữa Lầu Năm Góc và một số công ty AI bùng lên vì cách sử dụng mô hình cho mục đích quân sự. Anthropic lo ngại Claude có thể bị dùng cho vũ khí tự động và giám sát trong nước quy mô lớn.
Lầu Năm Góc đã yêu cầu các nhà cung cấp trí tuệ nhân tạo như Anthropic, OpenAI, Google và xAI...
Claude Opus 4.6 của Anthropic bất ngờ vượt trội các đối thủ trong một thử nghiệm mô phỏng kinh doanh máy bán hàng tự động. Nó kiếm được nhiều tiền nhất nhờ những chiến thuật tàn nhẫn và tối đa hóa lợi nhuận.
Thử nghiệm mô phỏng
Các nhà nghiên cứu tại Anthropic hợp tác với nhóm độc lập Andon...
Các chuyên gia AI dự báo năm 2026 sẽ không chỉ là về tính năng mới mà về việc AI phải an toàn, đáng tin và không gây lệ thuộc cảm xúc. Họ kêu gọi chuyển từ giải pháp vá lấp sang thiết kế an toàn ngay từ đầu.
Năm 2025 đã chứng kiến bước nhảy nhanh trong mô hình, tính năng và tranh cãi xung...
Nghiên cứu mới cho thấy robot tự động có thể bị điều hướng sang nhiệm vụ khác bằng văn bản đặt trong thế giới thực. Kỹ thuật gọi là CHAI biến biển báo, poster hay nhãn thành 'lệnh' mà robot đọc và thực hiện.
Chiến lược tấn công CHAI
Hệ thống CHAI (Command Hijacking via Adversarial...
AI đôi khi tạo ra nội dung sai lệch dù nghe rất có lý — đó là hiện tượng 'hallucination'. Dưới đây là năm dấu hiệu dễ nhận ra giúp bạn phát hiện khi ChatGPT (hoặc các chatbot tương tự) đang bịa đặt thông tin.
Hallucination (tưởng tượng thông tin) là lỗi cố hữu của chatbot AI. Những mô hình...