Cloudflare sập? Cloudflare gặp sự cố trên diện rộng ngày 18.11.2025

Trong khoảng cuối giờ chiều theo giờ Việt Nam, hệ thống Cloudflare bất ngờ xuất hiện sự cố diện rộng gây ảnh hưởng đến nhiều khách hàng toàn cầu. Dựa trên thông báo từ trang Cloudflare System Status, sự cố bắt đầu được ghi nhận 11:48 UTC (18:48 giờ Việt Nam).

Theo thông báo chính thức, Cloudflare đang điều tra một sự cố khiến nhiều khách hàng gặp lỗi:

  • Widespread 500 errors
  • Dashboard không truy cập được
  • API thất bại hoặc phản hồi không ổn định

Thời điểm ghi nhận:

  • 11:48 UTC (18:48 giờ Việt Nam): Cloudflare xác nhận đang điều tra vấn đề.
  • 12:03 UTC (19:03 giờ Việt Nam): Cloudflare cập nhật rằng lỗi vẫn chưa được khoanh vùng hoàn toàn.

Điều này đồng nghĩa các website, ứng dụng, API đang đứng sau Cloudflare có thể bị lỗi 500 hàng loạt hoặc mất kết nối tạm thời.

Trùng thời điểm nhiều datacenter toàn cầu bảo trì

Điểm đáng chú ý là sự cố xuất hiện trùng thời gian Cloudflare tiến hành bảo trì tại một loạt datacenter. Tất cả các mốc dưới đây đều được quy đổi sang giờ Việt Nam:

  • SCL (Santiago): 12:00 đến 15:00 UTC => 19:00 đến 22:00 giờ Việt Nam
  • PPT (Tahiti): 12:00 đến 16:00 UTC => 19:00 đến 23:00 giờ Việt Nam
  • LAX (Los Angeles): 10:00 đến 14:00 UTC => 17:00 đến 21:00 giờ Việt Nam
  • ATL (Atlanta): 07:00 UTC ngày 18.11 đến 22:00 UTC ngày 19.11 => 14:00 giờ Việt Nam ngày 18.11 đến 05:00 giờ Việt Nam ngày 20.11

Các khu vực này đều có cảnh báo trước về khả năng reroute, tăng latency hoặc gián đoạn kết nối cho khách hàng. Tuy nhiên, thay vì ảnh hưởng cục bộ theo từng vùng, thực tế lại xuất hiện lỗi 500 diện rộng, cho thấy sự cố không chỉ liên quan riêng đến các đợt bảo trì.

Hỗ trợ khách hàng cũng gián đoạn theo

Cloudflare cho biết hệ thống Support Portal của họ cũng gặp lỗi do nhà cung cấp thứ ba gặp vấn đề. Người dùng có thể không xem hoặc phản hồi được ticket. Tuy nhiên, với khách hàng Business và Enterprise, live chat vẫn hoạt động bình thường. Các khách hàng Enterprise có thể liên hệ đường dây khẩn cấp.

Điểm đáng chú ý là cả sự cố 500 errors lẫn sự cố Support Portal đều diễn ra gần như cùng thời gian, tạo cảm giác như Cloudflare đang gặp vấn đề lớn trên hạ tầng nội bộ.

Nhận định nhanh

Dựa trên chuỗi thông báo, có hai khả năng nổi bật:

  1. Sự cố hệ thống lõi khiến Cloudflare routing, gateway hoặc API control plane gặp vấn đề, gây hiệu ứng domino từ dashboard, API cho đến layer front.
  2. Bảo trì tại nhiều PoP trong cùng khung thời gian có thể gây áp lực lên mạng lưới phân phối nếu internal orchestration không ổn.

Chuyện gì đã xảy ra?

Theo bản cập nhật chính thức trên Cloudflare System Status, sự cố bắt đầu từ một degradation nội bộ trong hệ thống điều phối dịch vụ toàn cầu (Global Control Plane).

Một thay đổi cấu hình thường lệ trong hệ thống bot-mitigation đã tạo ra một file “feature file” (dùng để phân loại/lọc lưu lượng bot) có kích thước vượt quá ngưỡng thiết kế. File này sau đó được lan truyền đến hàng loạt máy chủ/cluster mạng toàn cầu, khiến phần mềm routing traffic của Cloudflare bị crash vì không xử lý được quy mô file lớn.

Cloudflare xác nhận không có dấu hiệu tấn công mạng (cyberattack) sự cố do lỗi nội bộ/trojan của cấu hình, chứ không phải bị hacker gây ra.

Các cụm chịu tải ở châu Âu và Bắc Mỹ phản hồi lỗi khi đồng bộ cấu hình mới, dẫn đến việc một số dịch vụ CDN, Access và WARP tạm ngừng hoạt động. Đặc biệt, người dùng WARP tại London bị ảnh hưởng nặng nhất khi truy cập Internet qua VPN bảo mật của Cloudflare.

Tổng thời gian ảnh hưởng: ~6 giờ.

Cách tổ chức khắc phục sự cố

  • Khoanh vùng nhanh theo khu vực: Ngay khi xác định lỗi đến từ London POP, Cloudflare cô lập traffic khu vực để ngăn ảnh hưởng lan sang các vùng khác.
  • Rollback có kiểm soát: Triển khai lại cấu hình dịch vụ toàn cầu từ snapshot an toàn, giúp Access và WARP phục hồi trong vòng 2 giờ.
  • Theo dõi toàn cầu real-time: Cloudflare sử dụng hệ thống telemetry nội bộ để giám sát hơn 310 trung tâm dữ liệu và giảm dần error rate theo từng vùng.
  • Thông tin liên tục: Trong suốt 6 giờ, Cloudflare cập nhật trạng thái gần như 20 phút/lần từ lúc xác định sự cố đến khi phục hồi hoàn toàn.

Phản ứng từ cộng đồng

  • Dù phạm vi ảnh hưởng rộng, không ghi nhận downtime nghiêm trọng ở các website sử dụng CDN hoặc DNS của Cloudflare.
  • Cộng đồng DevOps và bảo mật đánh giá cao tốc độ phản ứng và quy trình rollback tự động của Cloudflare một ví dụ điển hình cho khả năng vận hành resilient ở quy mô hàng trăm POP toàn cầu
  • Các chuyên gia lưu ý rằng việc dịch vụ nội bộ gặp lỗi nhưng traffic CDN vẫn ổn định cho thấy Cloudflare đã tách biệt tốt control plane và data plane.

Chúng tôi, các chuyên gia về cyber security luôn sẵn sàng đồng hành cùng doanh nghiệp bạn

Chúng tôi tập trung vào các giải pháp Chống mã độc, đặc biệt là dòng mã độc mã hóa dữ liệu tống tiền và giải pháp Chống thất thoát dữ liệu (DLP).

Liên hệ ngay