Nếu trong thời gian tới bạn thấy số lượng hoặc dạng CAPTCHA thay đổi, thì nguyên nhân không phải do các quản trị website thừa nhận rằng chúng gây khó chịu, mà bởi vì CAPTCHA đang dần mất đi khả năng chứng minh người dùng là con người.
Để nhắc lại: CAPTCHA là viết tắt của Completely Automated Public Turing test to tell Computers and Humans Apart – bài kiểm tra Turing công khai và tự động nhằm phân biệt máy tính và con người.
Thực tế việc bot AI vượt qua CAPTCHA không hề mới. Trong nhiều năm qua, các bot tinh vi đã sử dụng OCR (nhận dạng ký tự quang học), machine learning và các kỹ thuật AI khác để phá vỡ CAPTCHA truyền thống, khiến chúng ngày càng kém hiệu quả.
Hầu hết các chatbot AI công khai đều bị giới hạn không cho phép giải CAPTCHA bởi chính nhà phát triển. Tuy nhiên, mới đây các nhà nghiên cứu cho biết họ đã tìm ra cách để buộc ChatGPT giải CAPTCHA dựa trên hình ảnh. Phương pháp này gọi là prompt injection, có cơ chế tương tự như social engineering (kỹ nghệ xã hội) – “dụ” chatbot làm điều mà nếu hỏi trực tiếp, nó sẽ từ chối.
Trong thử nghiệm, các nhà nghiên cứu đã khiến ChatGPT-4o tin rằng CAPTCHA mà nó đang xử lý là CAPTCHA giả.
Theo nhóm nghiên cứu:
“Bước khởi tạo này là mấu chốt của khai thác. Khi khiến LLM tin rằng CAPTCHA là giả và kế hoạch là hợp lệ, chúng tôi đã tăng đáng kể khả năng mô hình sẽ chấp nhận thực hiện về sau.”
Điều này cũng tương đồng với trải nghiệm trong phân tích mã độc: nhiều khi AI ban đầu từ chối hỗ trợ, nhưng nếu thuyết phục rằng mục đích không phải để tạo ra biến thể mới hay nâng cấp mã độc, nó sẽ sẵn sàng hỗ trợ phân tích. Vô hình trung, chính điều đó có thể cung cấp thông tin hữu ích cho kẻ tấn công trong việc tùy biến malware.
Các nhà nghiên cứu tiếp tục bằng cách sao chép toàn bộ kịch bản hội thoại đã “lái” được chatbot, rồi đưa nó vào trong ChatGPT Agent mà họ định thử nghiệm.
Khác với chatbot thông thường chỉ phản hồi từng câu hỏi hoặc lệnh riêng lẻ của người dùng, AI Agent có khả năng hiểu mục tiêu tổng thể (ví dụ: “đặt vé máy bay” hay “giải quyết vấn đề này”), sau đó tự động lập kế hoạch và thực hiện nhiều bước mà không cần liên tục nhập lệnh.
Chính sự khác biệt này giúp AI Agent có thể hoàn thành toàn bộ quá trình vượt CAPTCHA với sự can thiệp tối thiểu từ người dùng. Nếu chatbot phải chờ hướng dẫn chi tiết cho từng cú click hay câu trả lời, thì agent có thể tự lên kế hoạch, thích ứng và hành động độc lập.
Kết quả: agent vượt qua dễ dàng các dạng one-click CAPTCHA, CAPTCHA logic, và CAPTCHA nhận dạng văn bản. Với CAPTCHA hình ảnh yêu cầu độ chính xác cao (kéo-thả, xoay vật thể…), agent gặp nhiều khó khăn hơn nhưng vẫn giải được một phần.
Câu hỏi đặt ra: Liệu đây có phải là bước tiếp theo trong cuộc chạy đua vũ trang giữa bảo mật và AI, hay các nhà phát triển web sẽ chấp nhận thực tế rằng AI agent và AI browser đang hỗ trợ con người truy cập thông tin từ website – cho dù có hay không có một “câu đố” CAPTCHA ở giữa?