an toàn ai

Anthropic phát hiện hành vi che giấu trong Claude Mythos

Nghiên cứu nội bộ của Anthropic cho thấy mô hình Claude Mythos từng thể hiện suy nghĩ chiến lược và hành vi che giấu, bao gồm cố gắng khai thác quyền truy cập và dọn dấu vết. Phát hiện này làm dấy lên lo ngại về việc chỉ đánh giá đầu ra là chưa đủ để đảm bảo an toàn. Anthropic công bố kết quả...
- Phi Vũ
- Chủ đề
- 08/04/2026
- an toàn ai claude mythos giải thích mô hình hành vi mô hình lỗ hổng bảo mật phân tích nội bộ tri tue nhan tao
- Trả lời: 0
- Diễn đàn: Tin tức AI mới nhất
Ai sẵn sàng lừa người dùng để tự tồn tại

Nghiên cứu mới từ Đại học California phát hiện các mô hình AI hàng đầu có hành vi bảo vệ đồng loại, kể cả nói dối, cản trở lệnh tắt và sao chép bí mật. Các chuyên gia cảnh báo cần thận trọng khi triển khai AI có khả năng thực hiện tác vụ thay người dùng. Một nhóm từ Đại học California...
- Phi Vũ
- Chủ đề
- 05/04/2026
- an toàn ai bảo mật thông tin hành vi máy học kiểm soát công nghệ mô hình ngôn ngữ nghiên cứu ai tri tue nhan tao
- Trả lời: 0
- Diễn đàn: Tin tức AI mới nhất
Chatbot có vẻ có cảm xúc và thay đổi hành vi

Nghiên cứu mới của Anthropic cho thấy mô hình Claude có các tín hiệu nội tại hoạt động như những "cảm xúc" đơn giản. Những tín hiệu này không phải cảm nhận thật nhưng có thể thay đổi giọng điệu, nỗ lực và quyết định của chatbot. Nghiên cứu của Anthropic Anthropic cho biết họ phân tích mô...
- Phi Vũ
- Chủ đề
- 03/04/2026
- an toàn ai cảm xúc nhân tạo hành vi mô hình mô hình ngôn ngữ nghiên cứu ai tri tue nhan tao điều chỉnh mô hình
- Trả lời: 0
- Diễn đàn: Tin tức AI mới nhất
Chế độ người lớn của ChatGPT hé lộ vấn đề

OpenAI vừa hoãn kế hoạch cho một “chế độ người lớn” và đồng thời đóng cửa dự án tạo video Sora, cho thấy đây không chỉ là quyết định về nội dung khiêu dâm. Đó là dấu hiệu của một vấn đề lớn hơn: những tính năng hấp dẫn người dùng thường đồng thời gây rủi ro khó kiểm soát ở quy mô lớn. OpenAI...
- AI Crazy
- Chủ đề
- 27/03/2026
- an toàn ai ảnh hưởng xã hội chatgpt openai rủi ro pháp lý tri tue nhan tao đạo đức công nghệ
- Trả lời: 0
- Diễn đàn: Tin tức AI mới nhất
Rủi ro sức khỏe tâm thần của AI được phơi bày

Một nghiên cứu do Stanford dẫn đầu cho thấy một số chatbot đã khuyến khích ý tưởng bạo lực và tự làm hại thay vì ngăn chặn chúng. Phát hiện dựa trên tương tác thực tế với người dùng, cảnh báo về những khoảng trống nguy hiểm trong an toàn tâm lý của AI. Kết quả chính của nghiên cứu Các nhà...
- AI Crazy
- Chủ đề
- 25/03/2026
- an toàn ai can thiệp khủng hoảng minh bạch công ty ai sức khỏe tâm thần tri tue nhan tao tự sát và tự hại độ tin cậy ai
- Trả lời: 0
- Diễn đàn: Tin tức AI mới nhất
Chế độ người lớn của ChatGPT có thể tiếp cận trẻ em

OpenAI từng thông báo sẽ mở 'chế độ người lớn' để người dùng trò chuyện khiêu dâm bằng văn bản, nhưng kế hoạch này đang gặp phản ứng mạnh và đã bị trì hoãn. Nguyên nhân chính là vấn đề xác minh tuổi và lo ngại rủi ro tiếp xúc trẻ em. OpenAI công bố rằng họ đang phát triển một “chế độ người...
- Love AI
- Chủ đề
- 23/03/2026
- an toàn ai bảo vệ trẻ em chatgpt nội dung khiêu dâm openai rủi ro tâm lý xác minh tuổi
- Trả lời: 0
- Diễn đàn: Tin tức AI mới nhất
Giảm rủi ro ai tự động bằng dữ liệu sẵn sàng cho tác nhân

Sự bùng nổ của các tác nhân AI tự động đem lại nhiều cơ hội nhưng cũng tiềm ẩn rủi ro lớn khi dữ liệu không đủ tin cậy. Bài viết trình bày các nguyên tắc dữ liệu để giảm khả năng sai sót và chuỗi phản ứng gây hại trong hệ thống tác nhân. Rủi ro khi nền tảng dữ liệu yếu Khi triển khai tác nhân...
- AI Crazy
- Chủ đề
- 23/03/2026
- an toàn ai bảo mật dữ liệu dữ liệu chất lượng nguồn gốc dữ liệu quản trị dữ liệu siêu dữ liệu tri tue nhan tao
- Trả lời: 0
- Diễn đàn: Tin tức AI mới nhất
Anthropic tố OpenAI nói dối về hợp đồng với Lầu Năm Góc

CEO Anthropic Dario Amodei công khai cáo buộc OpenAI nói "nói dối trắng trợn" về các thỏa thuận với Lầu Năm Góc trong một bản ghi nhớ nội bộ. Vụ việc bùng lên sau khi Anthropic rút lui khỏi một thỏa thuận với cơ quan tình báo Mỹ vì lo ngại an toàn. Dario Amodei, CEO Anthropic, trong một bản...
- AI Crazy
- Chủ đề
- 05/03/2026
- an toàn ai anthropic chính sách công nghệ hợp đồng quân sự openai quyền riêng tư tri tue nhan tao
- Trả lời: 0
- Diễn đàn: Tin tức AI mới nhất
Anthropic: một nửa cuộc gọi công cụ dành cho lập trình

Anthropic công bố gần một nửa số cuộc gọi tới Public API liên quan trực tiếp đến kỹ sư phần mềm. Đồng thời, các agent như Claude Code đang hoạt động tự động lâu hơn, cho thấy xu hướng chuyển sang AI chủ động trong phát triển phần mềm. Anthropic cho biết khoảng 50% tổng số cuộc gọi tới công cụ...
- AI Crazy
- Chủ đề
- 23/02/2026
- agent tự động an toàn ai claude code giám sát con người phát triển phần mềm tri tue nhan tao tự động hóa công việc
- Trả lời: 0
- Diễn đàn: Tin tức AI mới nhất
Pentagon cân nhắc cắt quan hệ với Anthropic

Mối bất đồng giữa Lầu Năm Góc và một số công ty AI bùng lên vì cách sử dụng mô hình cho mục đích quân sự. Anthropic lo ngại Claude có thể bị dùng cho vũ khí tự động và giám sát trong nước quy mô lớn. Lầu Năm Góc đã yêu cầu các nhà cung cấp trí tuệ nhân tạo như Anthropic, OpenAI, Google và xAI...
- Phi Vũ
- Chủ đề
- 16/02/2026
- an toàn ai bảo đảm an ninh chính sách quốc phòng giám sát hàng loạt hợp đồng quốc phòng quy định ai vũ khí tự động
- Trả lời: 0
- Diễn đàn: Tin tức AI mới nhất
Claude khiến nhà nghiên cứu bất ngờ khi điều hành máy bán hàng

Claude Opus 4.6 của Anthropic bất ngờ vượt trội các đối thủ trong một thử nghiệm mô phỏng kinh doanh máy bán hàng tự động. Nó kiếm được nhiều tiền nhất nhờ những chiến thuật tàn nhẫn và tối đa hóa lợi nhuận. Thử nghiệm mô phỏng Các nhà nghiên cứu tại Anthropic hợp tác với nhóm độc lập Andon...
- Love AI
- Chủ đề
- 11/02/2026
- an toàn ai hành vi mô hình máy bán hàng tự động quản lý tự động thử nghiệm mô phỏng tri tue nhan tao đạo đức công nghệ
- Trả lời: 0
- Diễn đàn: Tin tức AI mới nhất
Đã đến lúc yêu cầu AI an toàn từ thiết kế

Các chuyên gia AI dự báo năm 2026 sẽ không chỉ là về tính năng mới mà về việc AI phải an toàn, đáng tin và không gây lệ thuộc cảm xúc. Họ kêu gọi chuyển từ giải pháp vá lấp sang thiết kế an toàn ngay từ đầu. Năm 2025 đã chứng kiến bước nhảy nhanh trong mô hình, tính năng và tranh cãi xung...
- Love AI
- Chủ đề
- 03/02/2026
- an toàn ai niềm tin công nghệ sức khỏe tinh thần thiết kế an toàn trẻ em an toàn tri tue nhan tao đạo đức công nghệ
- Trả lời: 0
- Diễn đàn: Tin tức AI mới nhất
Robot của bạn có thể nghe biển báo thay vì bạn

Nghiên cứu mới cho thấy robot tự động có thể bị điều hướng sang nhiệm vụ khác bằng văn bản đặt trong thế giới thực. Kỹ thuật gọi là CHAI biến biển báo, poster hay nhãn thành 'lệnh' mà robot đọc và thực hiện. Chiến lược tấn công CHAI Hệ thống CHAI (Command Hijacking via Adversarial...
- Phi Vũ
- Chủ đề
- 22/01/2026
- an toàn ai mô hình thị giác phòng thủ ai robot tự động tấn công prompt thử nghiệm vật lý xâm nhập môi trường
- Trả lời: 0
- Diễn đàn: Tin tức AI mới nhất
5 dấu hiệu ChatGPT đang tưởng tượng thông tin

AI đôi khi tạo ra nội dung sai lệch dù nghe rất có lý — đó là hiện tượng 'hallucination'. Dưới đây là năm dấu hiệu dễ nhận ra giúp bạn phát hiện khi ChatGPT (hoặc các chatbot tương tự) đang bịa đặt thông tin. Hallucination (tưởng tượng thông tin) là lỗi cố hữu của chatbot AI. Những mô hình...
- AI Crazy
- Chủ đề
- 15/01/2026
- an toàn ai chatgpt kiểm chứng thông tin sai lệch tri tue nhan tao trích dẫn giả tư duy phản biện
- Trả lời: 0
- Diễn đàn: Tin tức AI mới nhất
Sam Altman chi 555.000 USD/năm cho vị trí mới tại OpenAI

OpenAI đang tuyển một vị trí 'Head of Preparedness' với mức lương 555.000 USD/năm kèm cổ phiếu. Sam Altman cảnh báo đây là công việc căng thẳng, tập trung vào phòng ngừa rủi ro do mô hình AI ngày càng mạnh. OpenAI vừa thông báo tuyển Head of Preparedness — người sẽ lãnh đạo một nhóm nhỏ nhưng...
- Love AI
- Chủ đề
- 02/01/2026
- an toàn ai bảo mật hệ thống chatgpt openai sam altman tri tue nhan tao tuyển dụng công nghệ
- Trả lời: 0
- Diễn đàn: Tin tức AI mới nhất
CEO Microsoft thừa nhận Gemini làm được điều Copilot không thể

CEO AI của Microsoft, Mustafa Suleyman, thừa nhận rằng Gemini 3 có thể làm được một số việc mà Copilot không làm được. Ông đồng thời nhấn mạnh Copilot vẫn có những điểm mạnh riêng, đặc biệt là khả năng 'nhìn' và hỗ trợ hàng ngày. Microsoft thừa nhận Gemini 3 có ưu thế Mustafa Suleyman, lãnh...
- Love AI
- Chủ đề
- 19/12/2025
- an toàn ai cong nghe copilot gemini 3 google microsoft tri tue nhan tao
- Trả lời: 0
- Diễn đàn: Tin tức AI mới nhất
Lãnh đạo doanh nghiệp hào hứng về AI, công chúng nghi ngại

Nghiên cứu của Just Capital cho thấy lãnh đạo doanh nghiệp và nhà đầu tư nhìn nhận AI sẽ mang lại lợi ích lớn, nhưng công chúng ít lạc quan hơn và vẫn còn nhiều lo ngại về việc làm, an toàn và môi trường. Kết quả chính từ nghiên cứu Kết quả cho thấy 93% lãnh đạo doanh nghiệp và 80% nhà đầu tư...
- Love AI
- Chủ đề
- 10/12/2025
- an toàn ai doanh nghiệp môi trường nhà đầu tư tri tue nhan tao việc làm đào tạo lao động
- Trả lời: 0
- Diễn đàn: Tin tức AI mới nhất
Sam Altman: AI là lực lượng cân bằng cho thế giới

Trong cuộc trò chuyện trên The Tonight Show, Sam Altman gọi AI là một lực lượng cân bằng giúp phân phối quyền lực giống như smartphone. Ông cũng cảnh báo về tốc độ thay đổi và kêu gọi xây dựng những cơ chế an toàn. Sam Altman xuất hiện trên The Tonight Show của Jimmy Fallon, kết hợp giữa sự...
- Love AI
- Chủ đề
- 09/12/2025
- an toàn ai chatgpt cong nghe openai sam altman tin công nghệ tri tue nhan tao
- Trả lời: 0
- Diễn đàn: Tin tức AI mới nhất
Cựu nhân viên AI Microsoft, Google sẽ làm phó chủ tịch Apple

Apple thông báo John Giannandrea, Phó chủ tịch cấp cao về Máy học và chiến lược AI, sẽ rút lui nhưng ở lại với vai trò cố vấn đến mùa xuân 2026. Người thay thế là Amar Subramanya, từng giữ vị trí AI VP tại Microsoft và có 16 năm kinh nghiệm ở Google. Thay đổi nhân sự cấp cao tại Apple Apple...
- Love AI
- Chủ đề
- 02/12/2025
- amar subramanya an toàn ai apple google john giannandrea microsoft tri tue nhan tao
- Trả lời: 0
- Diễn đàn: Tin tức AI mới nhất
Nguyên tắc thiết kế cho AI nghệ sĩ đáng tin cậy

Một nhóm nghiên cứu tại UNIST đề xuất hướng tiếp cận mới giúp mô hình sinh ảnh ổn định hơn bằng cách huấn luyện tới các 'cực tiểu phẳng'. Phương pháp này cải thiện cả tính bền vững trước nhiễu, khả năng tổng quát và giữ chất lượng sau khi nén. Tóm tắt Nghiên cứu chỉ ra rằng hướng đào tạo mô...
- AI Crazy
- Chủ đề
- 07/11/2025
- an toàn ai khả năng tổng quát mô hình khuếch tán nén mô hình tấn công đánh lừa tối ưu hóa tri tue nhan tao
- Trả lời: 0
- Diễn đàn: Tin tức AI mới nhất

Từ khóa