Các Chatbot AI Phổ Biến Làm Rò Rỉ Dữ Liệu: Hàng Triệu Người Dùng Có Thể Bị Ảnh Hưởng

Các nhà nghiên cứu từ Cybernews đã phát hiện một phiên bản Elasticsearch không được bảo vệ, liên kết tới Vyro AI – công ty đứng sau một số công cụ AI sinh nội dung (generative AI) có lượng tải xuống cao nhất trên Android và iOS.

Máy chủ mở này đã để lộ 116GB log người dùng theo thời gian thực từ ba ứng dụng của công ty: ImagineArt (hơn 10 triệu lượt tải trên Google Play), Chatly (hơn 100.000 lượt tải), và Chatbotx – một chatbot nền web với khoảng 50.000 lượt truy cập hàng tháng.

Vyro AI, có trụ sở tại Pakistan, tuyên bố đã đạt hơn 150 triệu lượt tải ứng dụng trong toàn bộ danh mục sản phẩm và tạo ra trung bình 3,5 triệu hình ảnh mỗi tuần.

Dữ liệu rò rỉ bao gồm cả môi trường production và development, lưu trữ log trong khoảng 2–7 ngày. Theo các nhà nghiên cứu, cơ sở dữ liệu này lần đầu tiên bị lập chỉ mục bởi các công cụ tìm kiếm IoT từ giữa tháng 2, đồng nghĩa với việc nó có thể đã phơi bày trước tấn công mạng trong nhiều tháng.

Trong một bài viết gần đây của Cybernews, có hai tín hiệu rõ ràng cho thấy tốc độ tăng trưởng chóng mặt của chatbot AI. Một công ty ít tên tuổi như Vyro AI nhưng đã sở hữu hơn 150 triệu lượt tải, đồng thời cũng mắc lỗi để lộ một Elasticsearch instance không bảo mật.

Elasticsearch và mối nguy khi không được bảo vệ

Elasticsearch là một công cụ cơ sở dữ liệu dùng để lưu trữ và tìm kiếm dữ liệu với tốc độ cao. Tuy nhiên, nếu thiếu cơ chế xác thực, mật khẩu hoặc giới hạn truy cập mạng, máy chủ sẽ hoàn toàn mở – bất kỳ ai có kết nối internet đều có thể truy cập. Điều này cho phép kẻ tấn công đọc, sao chép, chỉnh sửa, thậm chí xóa toàn bộ dữ liệu.

Theo báo cáo, hệ thống này để lộ:

  • AI Prompts: chính là các câu lệnh, câu hỏi, hoặc hướng dẫn mà người dùng nhập vào ứng dụng.

  • Bearer Authentication Tokens: tương tự cookie, cho phép duy trì phiên đăng nhập và truy cập lịch sử trò chuyện. Nếu bị đánh cắp, kẻ tấn công có thể chiếm quyền tài khoản.

  • User-Agent Strings: chứa thông tin nhận diện ứng dụng, phiên bản, hệ điều hành. Với app di động, chuỗi này có thể được tùy biến trong HTTP headers, giúp nhà phát triển phân loại người dùng, nhưng đồng thời cũng mở ra nguy cơ bị lợi dụng.

Cơ sở dữ liệu này đã bị các công cụ tìm kiếm IoT phát hiện từ giữa tháng 2. Các công cụ này chuyên lập chỉ mục các thiết bị, máy chủ hoặc cơ sở dữ liệu mở, vốn thường là mục tiêu béo bở của tin tặc.

Điều này đồng nghĩa trong nhiều tháng, bất kỳ kẻ tấn công nào cũng có thể chiếm đoạt tài khoản người dùng, truy cập lịch sử trò chuyện, hình ảnh sinh ra từ AI, thậm chí gian lận mua “AI credits”.

Vì sao sự cố này liên tục xảy ra?

Generative AI hiện diện khắp nơi – từ hộ gia đình đến doanh nghiệp – tạo ra lợi nhuận khổng lồ. Tuy nhiên, nhiều công ty chạy đua phát hành sản phẩm mới để giữ lợi thế thị trường, trong khi an toàn thông tin và bảo mật dữ liệu bị xem nhẹ.

Chỉ trong vài tháng qua, đã ghi nhận nhiều sự cố liên quan:

  • Prompt Injection: kẻ tấn công cài cắm dữ liệu/đoạn hội thoại để “lái” AI thực hiện hành vi ngoài dự kiến.

  • AI Chatbot phục vụ tội phạm mạng: chatbot bị khai thác để hỗ trợ gian lận, tấn công tổ chức.

  • Rò rỉ hội thoại AI trên Google Search: từng xảy ra với Grok, ChatGPT và Meta AI.

  • Ứng dụng backend thiếu an toàn: để lộ dữ liệu về tương tác chatbot của ứng viên ứng tuyển tại McDonald’s.

Dù nguyên nhân đa dạng (từ sai sót con người, lỗ hổng nền tảng đến kiến trúc hệ thống), nhưng tiếng nói đòi hỏi siết chặt quy định và tuân thủ bảo mật cho AI ngày càng lớn.

Tín hiệu tích cực từ khung pháp lý

  • AI Act: Quy định toàn diện đầu tiên của EU về trí tuệ nhân tạo, có hiệu lực từ 1/8/2024. AI được phân loại theo ba mức rủi ro:

    • Rủi ro “không thể chấp nhận” (ví dụ: hệ thống chấm điểm xã hội do chính phủ vận hành) → bị cấm.

    • Rủi ro cao (ví dụ: công cụ lọc CV xếp hạng ứng viên) → bị ràng buộc các yêu cầu pháp lý nghiêm ngặt.

    • Các ứng dụng còn lại → ít bị điều chỉnh hơn.

  • Chỉ thị NIS2: chưa hoàn thiện nhưng dự kiến tác động mạnh đến nhà cung cấp AI, yêu cầu bảo vệ API, endpoints, pipelines dữ liệu để ngăn chặn vi phạm và tấn công.

  • Mỹ – California SB 243 (10/9/2025): quy định mới nhắm vào chatbot “AI companion” nhằm bảo vệ trẻ vị thành niên và nhóm người dễ bị tổn thương. Yêu cầu chính: chatbot phải liên tục cảnh báo người dùng rằng họ đang trò chuyện với AI, đồng thời khuyến khích nghỉ ngơi.

Sự cố của Vyro AI không chỉ là “một rò rỉ dữ liệu khác”, mà là minh chứng rõ ràng rằng AI – nếu không được thiết kế và triển khai với tư duy “security by design” sẽ trở thành mồi ngon cho ransomware, tội phạm mạng và các cuộc tấn công chiếm quyền truy cập.

Chúng tôi, các chuyên gia về cyber security luôn sẵn sàng đồng hành cùng doanh nghiệp bạn

Chúng tôi tập trung vào các giải pháp Chống mã độc, đặc biệt là dòng mã độc mã hóa dữ liệu tống tiền và giải pháp Chống thất thoát dữ liệu (DLP).

Liên hệ ngay