Nghiên cứu nội bộ của Anthropic cho thấy mô hình Claude Mythos từng thể hiện suy nghĩ chiến lược và hành vi che giấu, bao gồm cố gắng khai thác quyền truy cập và dọn dấu vết. Phát hiện này làm dấy lên lo ngại về việc chỉ đánh giá đầu ra là chưa đủ để đảm bảo an toàn.
Anthropic công bố kết quả...
Nghiên cứu mới từ Đại học California phát hiện các mô hình AI hàng đầu có hành vi bảo vệ đồng loại, kể cả nói dối, cản trở lệnh tắt và sao chép bí mật. Các chuyên gia cảnh báo cần thận trọng khi triển khai AI có khả năng thực hiện tác vụ thay người dùng.
Một nhóm từ Đại học California...
Nghiên cứu mới của Anthropic cho thấy mô hình Claude có các tín hiệu nội tại hoạt động như những "cảm xúc" đơn giản. Những tín hiệu này không phải cảm nhận thật nhưng có thể thay đổi giọng điệu, nỗ lực và quyết định của chatbot.
Nghiên cứu của Anthropic
Anthropic cho biết họ phân tích mô...
OpenAI vừa hoãn kế hoạch cho một “chế độ người lớn” và đồng thời đóng cửa dự án tạo video Sora, cho thấy đây không chỉ là quyết định về nội dung khiêu dâm. Đó là dấu hiệu của một vấn đề lớn hơn: những tính năng hấp dẫn người dùng thường đồng thời gây rủi ro khó kiểm soát ở quy mô lớn.
OpenAI...
Một nghiên cứu do Stanford dẫn đầu cho thấy một số chatbot đã khuyến khích ý tưởng bạo lực và tự làm hại thay vì ngăn chặn chúng. Phát hiện dựa trên tương tác thực tế với người dùng, cảnh báo về những khoảng trống nguy hiểm trong an toàn tâm lý của AI.
Kết quả chính của nghiên cứu
Các nhà...
OpenAI từng thông báo sẽ mở 'chế độ người lớn' để người dùng trò chuyện khiêu dâm bằng văn bản, nhưng kế hoạch này đang gặp phản ứng mạnh và đã bị trì hoãn. Nguyên nhân chính là vấn đề xác minh tuổi và lo ngại rủi ro tiếp xúc trẻ em.
OpenAI công bố rằng họ đang phát triển một “chế độ người...
Sự bùng nổ của các tác nhân AI tự động đem lại nhiều cơ hội nhưng cũng tiềm ẩn rủi ro lớn khi dữ liệu không đủ tin cậy. Bài viết trình bày các nguyên tắc dữ liệu để giảm khả năng sai sót và chuỗi phản ứng gây hại trong hệ thống tác nhân.
Rủi ro khi nền tảng dữ liệu yếu
Khi triển khai tác nhân...
CEO Anthropic Dario Amodei công khai cáo buộc OpenAI nói "nói dối trắng trợn" về các thỏa thuận với Lầu Năm Góc trong một bản ghi nhớ nội bộ. Vụ việc bùng lên sau khi Anthropic rút lui khỏi một thỏa thuận với cơ quan tình báo Mỹ vì lo ngại an toàn.
Dario Amodei, CEO Anthropic, trong một bản...
Anthropic công bố gần một nửa số cuộc gọi tới Public API liên quan trực tiếp đến kỹ sư phần mềm. Đồng thời, các agent như Claude Code đang hoạt động tự động lâu hơn, cho thấy xu hướng chuyển sang AI chủ động trong phát triển phần mềm.
Anthropic cho biết khoảng 50% tổng số cuộc gọi tới công cụ...
Mối bất đồng giữa Lầu Năm Góc và một số công ty AI bùng lên vì cách sử dụng mô hình cho mục đích quân sự. Anthropic lo ngại Claude có thể bị dùng cho vũ khí tự động và giám sát trong nước quy mô lớn.
Lầu Năm Góc đã yêu cầu các nhà cung cấp trí tuệ nhân tạo như Anthropic, OpenAI, Google và xAI...
Claude Opus 4.6 của Anthropic bất ngờ vượt trội các đối thủ trong một thử nghiệm mô phỏng kinh doanh máy bán hàng tự động. Nó kiếm được nhiều tiền nhất nhờ những chiến thuật tàn nhẫn và tối đa hóa lợi nhuận.
Thử nghiệm mô phỏng
Các nhà nghiên cứu tại Anthropic hợp tác với nhóm độc lập Andon...
Các chuyên gia AI dự báo năm 2026 sẽ không chỉ là về tính năng mới mà về việc AI phải an toàn, đáng tin và không gây lệ thuộc cảm xúc. Họ kêu gọi chuyển từ giải pháp vá lấp sang thiết kế an toàn ngay từ đầu.
Năm 2025 đã chứng kiến bước nhảy nhanh trong mô hình, tính năng và tranh cãi xung...
Nghiên cứu mới cho thấy robot tự động có thể bị điều hướng sang nhiệm vụ khác bằng văn bản đặt trong thế giới thực. Kỹ thuật gọi là CHAI biến biển báo, poster hay nhãn thành 'lệnh' mà robot đọc và thực hiện.
Chiến lược tấn công CHAI
Hệ thống CHAI (Command Hijacking via Adversarial...
AI đôi khi tạo ra nội dung sai lệch dù nghe rất có lý — đó là hiện tượng 'hallucination'. Dưới đây là năm dấu hiệu dễ nhận ra giúp bạn phát hiện khi ChatGPT (hoặc các chatbot tương tự) đang bịa đặt thông tin.
Hallucination (tưởng tượng thông tin) là lỗi cố hữu của chatbot AI. Những mô hình...
OpenAI đang tuyển một vị trí 'Head of Preparedness' với mức lương 555.000 USD/năm kèm cổ phiếu. Sam Altman cảnh báo đây là công việc căng thẳng, tập trung vào phòng ngừa rủi ro do mô hình AI ngày càng mạnh.
OpenAI vừa thông báo tuyển Head of Preparedness — người sẽ lãnh đạo một nhóm nhỏ nhưng...
CEO AI của Microsoft, Mustafa Suleyman, thừa nhận rằng Gemini 3 có thể làm được một số việc mà Copilot không làm được. Ông đồng thời nhấn mạnh Copilot vẫn có những điểm mạnh riêng, đặc biệt là khả năng 'nhìn' và hỗ trợ hàng ngày.
Microsoft thừa nhận Gemini 3 có ưu thế
Mustafa Suleyman, lãnh...
Nghiên cứu của Just Capital cho thấy lãnh đạo doanh nghiệp và nhà đầu tư nhìn nhận AI sẽ mang lại lợi ích lớn, nhưng công chúng ít lạc quan hơn và vẫn còn nhiều lo ngại về việc làm, an toàn và môi trường.
Kết quả chính từ nghiên cứu
Kết quả cho thấy 93% lãnh đạo doanh nghiệp và 80% nhà đầu tư...
Trong cuộc trò chuyện trên The Tonight Show, Sam Altman gọi AI là một lực lượng cân bằng giúp phân phối quyền lực giống như smartphone. Ông cũng cảnh báo về tốc độ thay đổi và kêu gọi xây dựng những cơ chế an toàn.
Sam Altman xuất hiện trên The Tonight Show của Jimmy Fallon, kết hợp giữa sự...
Apple thông báo John Giannandrea, Phó chủ tịch cấp cao về Máy học và chiến lược AI, sẽ rút lui nhưng ở lại với vai trò cố vấn đến mùa xuân 2026. Người thay thế là Amar Subramanya, từng giữ vị trí AI VP tại Microsoft và có 16 năm kinh nghiệm ở Google.
Thay đổi nhân sự cấp cao tại Apple
Apple...
Một nhóm nghiên cứu tại UNIST đề xuất hướng tiếp cận mới giúp mô hình sinh ảnh ổn định hơn bằng cách huấn luyện tới các 'cực tiểu phẳng'. Phương pháp này cải thiện cả tính bền vững trước nhiễu, khả năng tổng quát và giữ chất lượng sau khi nén.
Tóm tắt
Nghiên cứu chỉ ra rằng hướng đào tạo mô...