Ngày 26/05, hai kết quả nghiên cứu về AI trong toán học đặt cạnh nhau như hai mặt của cùng một câu hỏi: AI giỏi toán đến mức nào, và liệu nó có biết giới hạn của mình không? Bên này, DeepMind chứng minh AI có thể giải các bài toán mà nhiều thế hệ nhà toán học chưa tìm được lời giải, với chi phí chỉ vài trăm đô la mỗi bài. Bên kia, công bố của SOOHAK tiết lộ không mô hình hiện tại nào vượt 50% khi gặp bài toán được thiết kế để không có đáp án. Trong khi đó, tại Vatican, Giáo hoàng Leo XIV công bố Magnifica Humanitas, thông điệp giáo hoàng đầu tiên trong lịch sử về AI, đặt câu hỏi trực tiếp về quyền lực trong thiết kế và quản trị AI.
1. Google DeepMind AI chứng minh bài toán 56 năm chưa giải được
Google DeepMind vừa công bố AlphaProof Nexus, hệ thống AI tự xây bằng chứng toán học đạt chuẩn chứng minh hình thức. Trong số 353 bài toán mở của nhà toán học Paul Erdős, AI giải được 9 bài, trong đó có 2 bài chưa ai trả lời được suốt 56 năm. Ngoài ra, hệ thống chứng minh thêm 44 trong 492 dự đoán toán học từ cơ sở dữ liệu OEIS. Chi phí xử lý mỗi bài chỉ vài trăm đô la, thấp hơn nhiều so với chi phí nghiên cứu hàng thập kỷ của các nhóm toán học chuyên nghiệp.
Điều tạo ra sự khác biệt là cơ chế hoạt động. AlphaProof Nexus dùng Gemini 3.1 Pro để tạo từng bước chứng minh hình thức bằng ngôn ngữ Lean. Mỗi bước được một hệ thống xác minh logic độc lập kiểm tra trước khi đi tiếp. Kết quả không phải “trông có vẻ đúng” mà là đúng theo nghĩa máy tính có thể kiểm chứng lại từng dòng, loại bỏ hoàn toàn khả năng AI bịa đặt bằng chứng.
Theo nhóm DeepMind, đây là bước tiến quan trọng bởi AlphaProof Nexus xây dựng bằng chứng hoàn toàn mới, không phải tái tạo từ mẫu có sẵn trong dữ liệu huấn luyện. Kết quả được công bố trên arXiv ngày 21/5 (mã 2605.22763) và toàn bộ bằng chứng hình thức được đưa lên GitHub để cộng đồng kiểm tra.
Với các nhóm phân tích và nghiên cứu, hàm ý rõ ràng: AI agent đang mở rộng sang tác vụ đòi hỏi suy luận nhiều bước và kiểm chứng kết quả theo chuẩn hình thức. Khoảng cách giữa AI “hỗ trợ viết lách” và AI “tham gia nghiên cứu” đang thu hẹp lại với tốc độ nhanh hơn phần lớn dự báo.
Nguồn: The Decoder
Ghi chú thuật ngữ
- Chứng minh hình thức: Bằng chứng toán học có thể kiểm chứng tự động bởi máy tính, không chỉ dựa vào đánh giá của con người.
- OEIS: Online Encyclopedia of Integer Sequences, cơ sở dữ liệu lớn về dãy số nguyên và các dự đoán toán học liên quan.
- Lean: Ngôn ngữ lập trình dùng cho chứng minh toán học hình thức, cho phép máy tính xác minh từng bước logic.
- arXiv: Kho lưu trữ bản thảo nghiên cứu khoa học chưa qua phản biện, dùng phổ biến trong cộng đồng AI và toán học.
2. Benchmark SOOHAK: AI tự tin trả lời bài toán không có đáp án
Nhóm 64 nhà toán học từ Carnegie Mellon University, EleutherAI và Seoul National University vừa công bố SOOHAK, benchmark đánh giá năng lực nghiên cứu toán học của các mô hình ngôn ngữ lớn. Đội ngũ xây dựng gồm 38 giáo sư, 25 nghiên cứu sinh và sau tiến sĩ, cùng 5 huy chương vàng IMO. Trong 439 bài của SOOHAK, 340 bài ở mức nghiên cứu sinh tiến sĩ và 99 bài được thiết kế cố tình vô nghiệm.
Hiệu suất trên tập bài nghiên cứu: Gemini-3-Pro dẫn đầu với 30,4%, GPT-5 đạt 26,4%, Claude Opus 4.5 chỉ đạt 10,4%, trong khi các mô hình mã nguồn mở lớn như Qwen3-235B, GPT-OSS-120B và Kimi-2.5 đều dưới 15%. Con số đáng lo hơn nằm ở tập bài vô nghiệm: không mô hình nào vượt 50% trong việc nhận ra đề bài không có đáp án. Thay vì từ chối hoặc báo lỗi, tất cả đều tự tin đưa ra câu trả lời.
Nhóm nghiên cứu nhận định đây là vấn đề huấn luyện, không phải lỗi kỹ thuật. Các mô hình ngôn ngữ hiện tại được tối ưu theo hướng luôn đưa ra câu trả lời, không phải theo hướng phát hiện khi nào câu hỏi không có nghiệm. Toàn bộ dữ liệu SOOHAK chưa được công bố; đội ngũ sẽ giữ riêng đến cuối năm 2026 để tránh nhiễm dữ liệu huấn luyện, và đánh giá các mô hình theo yêu cầu trong thời gian này.
Hàm ý với các nhóm dùng AI trong phân tích pháp lý, tài chính hay kỹ thuật: bước rà soát kết quả AI vẫn cần con người, không phải vì AI “chưa đủ thông minh”, mà vì AI chưa đủ khôn để nhận ra khi nào mình chưa đủ thông minh.
Nguồn: The Decoder
Ghi chú thuật ngữ
- Benchmark: Bộ bài kiểm tra chuẩn dùng để đánh giá và so sánh hiệu suất giữa các mô hình AI.
- IMO: International Mathematical Olympiad, kỳ thi toán học quốc tế uy tín nhất dành cho học sinh phổ thông.
- Mô hình mã nguồn mở: Mô hình AI có trọng số và mã nguồn được công bố công khai, cho phép triển khai và tùy chỉnh tự do.
3. Giáo hoàng Leo XIV công bố Magnifica Humanitas: thông điệp đầu tiên trong lịch sử về đạo đức AI
Giáo hoàng Leo XIV phê chuẩn Magnifica Humanitas vào ngày 15/5/2026, đúng ngày kỷ niệm 135 năm thông điệp Rerum Novarum của Giáo hoàng Leo XIII, văn bản đặt nền tảng học thuyết xã hội Công giáo về quyền người lao động. Ngày 25/5, văn kiện 245 đoạn, 5 chương được công bố chính thức; Chris Olah, đồng sáng lập Anthropic, đứng cùng Giáo hoàng trong buổi ra mắt.
Lập luận trung tâm của văn kiện không bắt đầu từ quy định mà từ câu hỏi về quyền lực. “Magnifica Humanitas” tuyên bố AI không phải công cụ trung lập về mặt đạo đức: cách thiết kế quan trọng không kém cách sử dụng. Văn kiện trích dẫn: AI “khuếch đại quyền lực của những ai đã có sẵn nguồn lực kinh tế, chuyên môn và quyền truy cập dữ liệu.” Leo XIV cũng cảnh báo rằng “định nghĩa về đạo đức AI vẫn còn hạn chế nếu định nghĩa đó được quyết định bởi một số ít tổ chức.”
Chương 5 của văn kiện bàn về nguy cơ AI bình thường hóa chiến tranh, khi công nghệ làm giảm ngưỡng tâm lý ra quyết định tấn công. Đây không phải một chương trừu tượng mà là phân tích trực tiếp về hệ thống vũ khí tự động và thiết bị bay không người lái.
Khi tổ chức tôn giáo lớn nhất thế giới lần đầu chính thức đặt câu hỏi về quyền lực trong quản trị AI, văn kiện này có trọng lượng vượt ra ngoài phạm vi tôn giáo. Tại Việt Nam, nơi đang xây dựng khung pháp lý về AI, Magnifica Humanitas là tài liệu mà các nhà hoạch định chính sách và doanh nghiệp xây dựng hệ thống AI trong giáo dục, y tế hay tài chính nên tham khảo.
Nguồn: Vatican News / CNN
Bài viết của đội ngũ ZTO Labs, chuyên đào tạo và nghiên cứu AI tại Việt Nam.
