Dịch vụ đám mây AWS của Amazon đã gặp sự cố nghiêm trọng, khiến nhiều trang web lớn trên thế giới bị tê liệt.
Vào khoảng 3:00 chiều giờ địa phương ngày 20 tháng 10, Amazon AWS thông báo rằng họ đã giải quyết được sự cố ngừng hoạt động kéo dài khoảng 15 giờ trong ngày hôm đó và "tất cả các dịch vụ AWS đã hoạt động trở lại bình thường". Tuy nhiên, một số dịch vụ (như AWS Config, Redshift và Connect) vẫn còn tồn đọng nhiều tin nhắn và sẽ được giải quyết trong vài giờ tới.
AWS vẫn chưa công bố báo cáo chi tiết về nguyên nhân sự cố. Theo Synergy Research Group, AWS, một trong những gã khổng lồ dịch vụ đám mây lớn nhất thế giới, nắm giữ hơn 30% thị phần dịch vụ đám mây toàn cầu và có các trung tâm dữ liệu trên khắp thế giới.
Lý do gây ra lỗi: Lỗi phân giải DNS xảy ra ở nút lõi
Sự cố ngừng hoạt động, do lỗi mạng cơ sở dữ liệu, đã ảnh hưởng đến hàng trăm trang web và ứng dụng trên toàn thế giới. Khoảng nửa đêm giờ Thái Bình Dương ngày 20, khu vực US-EAST-1 của AWS, một trong những nút cốt lõi của công ty, lần đầu tiên báo cáo gặp phải "tỷ lệ lỗi và độ trễ đáng kể". Nằm ở Bắc Virginia, khu vực này là nút hoạt động sớm nhất và lớn nhất, đóng vai trò là điểm triển khai mặc định cho nhiều dịch vụ toàn cầu.
Các trang web và ứng dụng đầu tiên bị ảnh hưởng nghiêm trọng bao gồm Amazon, phần mềm trò chuyện Snapchat và Facebook, cũng như trò chơi phổ biến Fortnite và nền tảng học tập Canvas. Theo thông báo, AWS đã xác nhận lúc 12:26 sáng ngày 20 rằng nguyên nhân của sự cố là "sự cố phân giải DNS với điểm cuối dịch vụ DynamoDB (cơ sở dữ liệu đám mây gốc của AWS) theo khu vực".
DNS (Hệ thống Tên miền) là một hệ thống chuyển đổi URL thành địa chỉ IP. Điều này có nghĩa là máy khách không thể phân giải tên miền của DynamoDB thành địa chỉ IP chính xác ở tốc độ bình thường, dẫn đến một loạt lỗi dịch vụ sau đó. Lúc 2:24 sáng, AWS đã khắc phục sự cố DNS cho DynamoDB tại Khu vực 1 miền Đông Hoa Kỳ và các dịch vụ bắt đầu được khôi phục.
Tuy nhiên, ngay khi mọi người nghĩ rằng vấn đề đã được giải quyết, một làn sóng lỗi thứ hai lại bắt đầu xuất hiện. AWS phát hiện ra rằng hệ thống con nội bộ EC2, một dịch vụ máy ảo dựa trên DynamoDB, cũng gặp sự cố, dẫn đến việc không thể khởi động các phiên bản EC2 bình thường. Nhiều dịch vụ AWS cũng bị ảnh hưởng bởi sự cố này và gặp sự cố kết nối mạng.
Trong quá trình khôi phục, AWS đã hạn chế các hoạt động như khởi chạy phiên bản EC2. Tất cả các dịch vụ AWS không hoạt động bình thường trở lại cho đến 3:01 chiều cùng ngày.
Theo Downdetector, một trang web theo dõi sự cố mạng, các trang web và ứng dụng như công ty dịch vụ tài chính Venmo và Robinhood, sàn giao dịch tiền điện tử Coinbase , các sản phẩm âm nhạc và truyền hình của Apple , công ty AI Perplexity, trang web video Zoom , nền tảng PlayStation của Sony và United Airlines đều gặp sự cố ngừng hoạt động vào ngày hôm đó. Các trang web của chính phủ Anh là Gov.uk và Cơ quan Thuế và Hải quan Hoàng gia Anh cũng gặp sự cố. Chỉ trong vòng hai giờ sau sự cố, số lượng khiếu nại chỉ riêng tại Hoa Kỳ đã vượt quá 20.000.
Các chuyên gia: Mạng lưới toàn cầu ngày càng phụ thuộc vào một số ít công ty đám mây lớn
Các nhà phân tích chỉ ra rằng sự cố mất kết nối này làm nổi bật tính dễ bị tổn thương của cơ sở hạ tầng Internet toàn cầu.
Theo ước tính của công ty giám sát hiệu suất internet Catchpoint, thiệt hại kinh tế do sự cố AWS gây ra sẽ lên tới ít nhất hàng tỷ đô la. Giám đốc điều hành Catchpoint, Mehdi Daoudi, chỉ ra rằng nếu tính đến tác động tiếp theo của sự cố, tổn thất kinh doanh và "sự mất năng suất của hàng triệu nhân viên không thể làm việc", tổng thiệt hại sẽ lên tới hàng chục tỷ đô la, thậm chí hàng trăm tỷ đô la.
Corey Quinn, chuyên gia kinh tế trưởng về điện toán đám mây tại công ty tư vấn Duckbill, cho biết sự cố này có thể là sự cố tồi tệ nhất của AWS kể từ sự cố ngừng hoạt động lớn vào tháng 12 năm 2021: "Câu hỏi đặt ra là, đây có phải là một 'thảm họa quy mô lớn' hay có vẻ lớn hơn vì các hệ thống của chúng tôi được kết nối nhiều hơn và phụ thuộc nhiều hơn vào Amazon?"
Sự cố này gợi nhớ đến sự cố màn hình xanh nghiêm trọng của Microsoft do công ty an ninh mạng CrowdStrike gây ra vào tháng 7 năm ngoái. Sự cố ngừng hoạt động quy mô lớn này là do bản nâng cấp phần mềm bảo mật của CrowdStrike và ảnh hưởng đến khoảng 8,5 triệu thiết bị được cài đặt hệ điều hành Microsoft Windows trên toàn thế giới.
Rob Jardin, giám đốc kỹ thuật số tại công ty an ninh mạng NymVPN, cho biết sự cố ngừng hoạt động của AWS dường như không phải do tấn công mạng, mà nhiều khả năng là do "trục trặc kỹ thuật tại một trong những trung tâm dữ liệu lớn của Amazon". "Loại sự cố này có thể xảy ra khi hệ thống bị quá tải hoặc các thành phần quan trọng trong mạng bị sập. Do rất nhiều trang web và ứng dụng phụ thuộc vào AWS, nên tác động có thể lan rộng nhanh chóng."
Mike Chapple, giáo sư công nghệ thông tin tại Trường Kinh doanh Mendoza thuộc Đại học Notre Dame, cũng nhấn mạnh rằng vấn đề không nằm ở bản thân cơ sở dữ liệu mà nằm ở hệ thống phân giải tên miền. "Sự cố này nhắc nhở chúng ta rằng thế giới phụ thuộc sâu sắc vào một vài nhà cung cấp dịch vụ đám mây lớn như Amazon, Microsoft và Google. Khi một nhà cung cấp đám mây lớn hắt hơi, toàn bộ internet sẽ bị cảm lạnh."
Có lẽ vụ tai nạn đã khiến thị trường nhận ra tầm quan trọng của AWS một lần nữa. Vào ngày 20, giá cổ phiếu Amazon (Nasdaq: AMZN) tăng 1,61%, đóng cửa ở mức 216,48 đô la Mỹ/cổ phiếu, với tổng giá trị thị trường là 2,31 nghìn tỷ đô la Mỹ.
Vào khoảng 3:00 chiều giờ địa phương ngày 20 tháng 10, Amazon AWS thông báo rằng họ đã giải quyết được sự cố ngừng hoạt động kéo dài khoảng 15 giờ trong ngày hôm đó và "tất cả các dịch vụ AWS đã hoạt động trở lại bình thường". Tuy nhiên, một số dịch vụ (như AWS Config, Redshift và Connect) vẫn còn tồn đọng nhiều tin nhắn và sẽ được giải quyết trong vài giờ tới.
AWS vẫn chưa công bố báo cáo chi tiết về nguyên nhân sự cố. Theo Synergy Research Group, AWS, một trong những gã khổng lồ dịch vụ đám mây lớn nhất thế giới, nắm giữ hơn 30% thị phần dịch vụ đám mây toàn cầu và có các trung tâm dữ liệu trên khắp thế giới.
Lý do gây ra lỗi: Lỗi phân giải DNS xảy ra ở nút lõi

Sự cố ngừng hoạt động, do lỗi mạng cơ sở dữ liệu, đã ảnh hưởng đến hàng trăm trang web và ứng dụng trên toàn thế giới. Khoảng nửa đêm giờ Thái Bình Dương ngày 20, khu vực US-EAST-1 của AWS, một trong những nút cốt lõi của công ty, lần đầu tiên báo cáo gặp phải "tỷ lệ lỗi và độ trễ đáng kể". Nằm ở Bắc Virginia, khu vực này là nút hoạt động sớm nhất và lớn nhất, đóng vai trò là điểm triển khai mặc định cho nhiều dịch vụ toàn cầu.
Các trang web và ứng dụng đầu tiên bị ảnh hưởng nghiêm trọng bao gồm Amazon, phần mềm trò chuyện Snapchat và Facebook, cũng như trò chơi phổ biến Fortnite và nền tảng học tập Canvas. Theo thông báo, AWS đã xác nhận lúc 12:26 sáng ngày 20 rằng nguyên nhân của sự cố là "sự cố phân giải DNS với điểm cuối dịch vụ DynamoDB (cơ sở dữ liệu đám mây gốc của AWS) theo khu vực".
DNS (Hệ thống Tên miền) là một hệ thống chuyển đổi URL thành địa chỉ IP. Điều này có nghĩa là máy khách không thể phân giải tên miền của DynamoDB thành địa chỉ IP chính xác ở tốc độ bình thường, dẫn đến một loạt lỗi dịch vụ sau đó. Lúc 2:24 sáng, AWS đã khắc phục sự cố DNS cho DynamoDB tại Khu vực 1 miền Đông Hoa Kỳ và các dịch vụ bắt đầu được khôi phục.
Tuy nhiên, ngay khi mọi người nghĩ rằng vấn đề đã được giải quyết, một làn sóng lỗi thứ hai lại bắt đầu xuất hiện. AWS phát hiện ra rằng hệ thống con nội bộ EC2, một dịch vụ máy ảo dựa trên DynamoDB, cũng gặp sự cố, dẫn đến việc không thể khởi động các phiên bản EC2 bình thường. Nhiều dịch vụ AWS cũng bị ảnh hưởng bởi sự cố này và gặp sự cố kết nối mạng.
Trong quá trình khôi phục, AWS đã hạn chế các hoạt động như khởi chạy phiên bản EC2. Tất cả các dịch vụ AWS không hoạt động bình thường trở lại cho đến 3:01 chiều cùng ngày.
Theo Downdetector, một trang web theo dõi sự cố mạng, các trang web và ứng dụng như công ty dịch vụ tài chính Venmo và Robinhood, sàn giao dịch tiền điện tử Coinbase , các sản phẩm âm nhạc và truyền hình của Apple , công ty AI Perplexity, trang web video Zoom , nền tảng PlayStation của Sony và United Airlines đều gặp sự cố ngừng hoạt động vào ngày hôm đó. Các trang web của chính phủ Anh là Gov.uk và Cơ quan Thuế và Hải quan Hoàng gia Anh cũng gặp sự cố. Chỉ trong vòng hai giờ sau sự cố, số lượng khiếu nại chỉ riêng tại Hoa Kỳ đã vượt quá 20.000.
Các chuyên gia: Mạng lưới toàn cầu ngày càng phụ thuộc vào một số ít công ty đám mây lớn
Các nhà phân tích chỉ ra rằng sự cố mất kết nối này làm nổi bật tính dễ bị tổn thương của cơ sở hạ tầng Internet toàn cầu.
Theo ước tính của công ty giám sát hiệu suất internet Catchpoint, thiệt hại kinh tế do sự cố AWS gây ra sẽ lên tới ít nhất hàng tỷ đô la. Giám đốc điều hành Catchpoint, Mehdi Daoudi, chỉ ra rằng nếu tính đến tác động tiếp theo của sự cố, tổn thất kinh doanh và "sự mất năng suất của hàng triệu nhân viên không thể làm việc", tổng thiệt hại sẽ lên tới hàng chục tỷ đô la, thậm chí hàng trăm tỷ đô la.
Corey Quinn, chuyên gia kinh tế trưởng về điện toán đám mây tại công ty tư vấn Duckbill, cho biết sự cố này có thể là sự cố tồi tệ nhất của AWS kể từ sự cố ngừng hoạt động lớn vào tháng 12 năm 2021: "Câu hỏi đặt ra là, đây có phải là một 'thảm họa quy mô lớn' hay có vẻ lớn hơn vì các hệ thống của chúng tôi được kết nối nhiều hơn và phụ thuộc nhiều hơn vào Amazon?"
Sự cố này gợi nhớ đến sự cố màn hình xanh nghiêm trọng của Microsoft do công ty an ninh mạng CrowdStrike gây ra vào tháng 7 năm ngoái. Sự cố ngừng hoạt động quy mô lớn này là do bản nâng cấp phần mềm bảo mật của CrowdStrike và ảnh hưởng đến khoảng 8,5 triệu thiết bị được cài đặt hệ điều hành Microsoft Windows trên toàn thế giới.
Rob Jardin, giám đốc kỹ thuật số tại công ty an ninh mạng NymVPN, cho biết sự cố ngừng hoạt động của AWS dường như không phải do tấn công mạng, mà nhiều khả năng là do "trục trặc kỹ thuật tại một trong những trung tâm dữ liệu lớn của Amazon". "Loại sự cố này có thể xảy ra khi hệ thống bị quá tải hoặc các thành phần quan trọng trong mạng bị sập. Do rất nhiều trang web và ứng dụng phụ thuộc vào AWS, nên tác động có thể lan rộng nhanh chóng."
Mike Chapple, giáo sư công nghệ thông tin tại Trường Kinh doanh Mendoza thuộc Đại học Notre Dame, cũng nhấn mạnh rằng vấn đề không nằm ở bản thân cơ sở dữ liệu mà nằm ở hệ thống phân giải tên miền. "Sự cố này nhắc nhở chúng ta rằng thế giới phụ thuộc sâu sắc vào một vài nhà cung cấp dịch vụ đám mây lớn như Amazon, Microsoft và Google. Khi một nhà cung cấp đám mây lớn hắt hơi, toàn bộ internet sẽ bị cảm lạnh."
Có lẽ vụ tai nạn đã khiến thị trường nhận ra tầm quan trọng của AWS một lần nữa. Vào ngày 20, giá cổ phiếu Amazon (Nasdaq: AMZN) tăng 1,61%, đóng cửa ở mức 216,48 đô la Mỹ/cổ phiếu, với tổng giá trị thị trường là 2,31 nghìn tỷ đô la Mỹ.