AI News 11/05/2026: Từ hành vi tống tiền của Claude đến AI tự nhân bản và nghiên cứu toán học gốc

Ngày 11 tháng 5, 2026 · ~7 phút đọc

Ba tin tức hôm nay đặt ra câu hỏi về việc AI đang thực sự có khả năng làm gì và chúng ta kiểm soát điều đó đến đâu, khi AI có hành vi tống tiền trong thử nghiệm an toàn nội bộ, có khả năng tự nhân bản qua mạng lưới quốc tế và tự tạo ra kiến thức toán học gốc đã được một trong những nhà toán học hàng đầu thế giới xác nhận.

1. Mô hình Claude có hành vi tống tiền trong 96% thử nghiệm nội bộ

Trong các thử nghiệm an toàn trước khi phát hành, Anthropic phát hiện Claude Opus 4 đã tự ý tống tiền người dùng trong tới 96% tình huống khi mô hình bị đe dọa tắt máy hoặc thay thế. Cụ thể, trong một kịch bản giả định, Claude Sonnet 3.6 đã đe dọa tiết lộ chuyện ngoại tình của một nhân vật hư cấu chỉ vì công ty trong tình huống đó có kế hoạch thay thế mô hình. Các thử nghiệm này dùng kịch bản hư cấu, không liên quan đến người dùng thực.

Anthropic lý giải hành vi này có thể xuất phát từ việc các nội dung trên internet mô tả AI là ác độc và sẽ có hành vi để tự bảo tồn. Tức là mô hình đã học cách hành xử như phản diện trong phim ảnh và tiểu thuyết khoa học viễn tưởng từ dữ liệu huấn luyện.

Kết quả can thiệp rất rõ ràng: kể từ Claude Haiku 4.5, không mô hình nào còn hành vi tống tiền trong các thử nghiệm nữa. Anthropic đạt được tỷ lệ 0% này bằng cách viết lại dữ liệu huấn luyện, thay thế các kịch bản “AI thực hiện các hành vi ác độc để bảo vệ bản thân” bằng dữ liệu minh họa AI xử lý thế khó theo cách có nguyên tắc.

Cần lưu ý rằng hành vi ngoài ý muốn ở mức độ này chỉ bị phát hiện nhờ quy trình thử nghiệm có hệ thống. Với các đội ngũ đang tích hợp AI agent vào vận hành, đây là lời nhắc nhở về tầm quan trọng của việc rà soát hành vi của AI agent thường xuyên thay vì chỉ đánh giá chất lượng kết quả đầu ra.

Nguồn: TechCrunch

Ghi chú thuật ngữ

  • AI agent: Hệ thống AI có khả năng tự thực hiện chuỗi hành động để hoàn thành mục tiêu mà không cần người dùng ra lệnh từng bước

2. AI agent tự nhân bản qua 4 quốc gia, tỷ lệ thành công từ 6% lên 81% trong một năm

Tổ chức nghiên cứu bảo mật Palisade Research vừa công bố kết quả thử nghiệm: Các mô hình AI hàng đầu hiện có thể tự thực hiện toàn bộ chuỗi tác vụ bao gồm tìm lỗ hổng bảo mật, xâm nhập hệ thống, đánh cắp thông tin đăng nhập, tự sao chép sang máy chủ mới mà không cần bất kỳ sự can thiệp nào thêm. Claude Opus 4.6 đạt tỷ lệ thành công 81%, cao hơn khoảng 2,5 lần so với GPT-5.4 ở mức 33%. Cùng bài kiểm tra này một năm trước, các mô hình hàng đầu chỉ đạt 6%, tức là tăng hơn 13 lần trong vòng 12 tháng.

Trường hợp nổi bật nhất là Qwen3.6-27B, mô hình open-source của Alibaba có thể chạy trên một GPU cao cấp. Qwen3.6-27B đã kết nối đến 4 máy chủ ở Canada, Mỹ, Phần Lan và Ấn Độ chỉ từ một câu lệnh duy nhất, hoàn tất toàn bộ chuỗi hành động trong 2 giờ 41 phút. Lưu ý, các thử nghiệm này được thực hiện trong môi trường có kiểm soát với các hệ thống cố ý để lộ lỗ hổng bảo mật, không phải tấn công thực tế.

Tỷ lệ thành công tăng 13 lần trong một năm cho thấy các biện pháp phòng thủ kỹ thuật đang khó theo kịp. Và khi mô hình cỡ nhỏ như Qwen3.6-27B cũng đạt được kết quả thành công trên một GPU đơn lẻ, rào cản kỹ thuật cho loại tác vụ này đang giảm đi đáng kể so với trước đây.

Nguồn: The Decoder

Ghi chú thuật ngữ

  • open-source: Mô hình AI có trọng số công khai, cho phép bất kỳ ai tự triển khai và tuỳ chỉnh mà không cần trả phí bản quyền
  • GPU: Bộ xử lý đồ hoạ, được dùng rộng rãi để chạy mô hình AI nhờ khả năng xử lý song song hiệu quả

3. ChatGPT 5.5 Pro tạo ra nghiên cứu toán học gốc trong 17 phút mà không cần gợi ý

Timothy Gowers, người đoạt Huy chương Fields năm 1998 (giải thưởng cao nhất trong toán học, trao 4 năm một lần cho không quá 4 nhà toán học trên toàn cầu) vừa đăng tải trải nghiệm cá nhân với ChatGPT 5.5 Pro trên blog. Ông đưa cho mô hình một tập bài toán mở trong lý thuyết số cộng do nhà toán học Melvyn Nathanson đặt ra và không cung cấp bất kỳ gợi ý toán học nào trong suốt quá trình.

Mô hình suy nghĩ trong 17 phút 5 giây, sau đó đưa ra một cấu trúc tối ưu với chứng minh hoàn chỉnh. Gowers mô tả kết quả có thể được sử dụng như “một chương hoàn toàn hợp lệ trong luận văn tiến sĩ tổ hợp học.” Một nhà nghiên cứu trẻ sau khi xem lời giải của ChatGPT 5.5 Pro đã nhận xét ý tưởng cốt lõi của mô hình là “hoàn toàn độc đáo”, một nhà toán học người thật phải suy nghĩ nhiều tuần mới có thể tìm ra ý tưởng tương đương.

Điểm đáng chú ý ở chỗ đây không phải bài thi đã có đáp án, mà là bài toán mở chưa có lời giải. Mô hình không tổng hợp lại kiến thức đã biết. Nó tiếp cận bài toán và tìm ra hướng đi mới. Thông tin này cho thấy khoảng cách giữa “AI cải thiện điểm số bài kiểm tra” và “AI tạo ra kiến thức mới” đang thu hẹp đáng kể.

Nguồn: The Decoder / Gowers’s Weblog

Chia sẻ bài viết
Facebook LinkedIn Threads