Các sự cố mất dịch vụ đám mây lớn gần đây rất khó bỏ qua. Các sự cố nghiêm trọng ảnh hưởng đến các nhà cung cấp như AWS, Azure và Cloudflare đã làm gián đoạn nhiều phần lớn của Internet, khiến các trang web và dịch vụ mà nhiều hệ thống khác phụ thuộc vào bị ngừng hoạt động. Hiệu ứng lan truyền đã làm đình trệ các ứng dụng và quy trình làm việc mà nhiều tổ chức dựa vào hàng ngày.
Đối với người tiêu dùng, những sự cố này thường được coi là một sự bất tiện, chẳng hạn như không thể đặt đồ ăn, xem nội dung trực tuyến hoặc truy cập các dịch vụ online. Tuy nhiên, đối với doanh nghiệp, tác động còn nghiêm trọng hơn nhiều. Khi hệ thống đặt vé của một hãng hàng không bị ngoại tuyến, việc mất khả năng hoạt động sẽ trực tiếp dẫn đến mất doanh thu, tổn hại danh tiếng và gián đoạn hoạt động.
Những sự cố này làm nổi bật rằng các sự cố đám mây ảnh hưởng nhiều hơn là chỉ đến điện toán hoặc mạng lưới. Một trong những lĩnh vực quan trọng và có tác động lớn nhất là identity. Khi authentication và authorization bị gián đoạn, kết quả không chỉ là downtime; đó là một sự cố an ninh và hoạt động cốt lõi.
Cơ sở hạ tầng đám mây, một điểm lỗi chung
Các nhà cung cấp dịch vụ đám mây không phải là hệ thống identity. Nhưng các kiến trúc identity hiện đại phụ thuộc sâu sắc vào cơ sở hạ tầng được host trên đám mây và các dịch vụ chia sẻ. Ngay cả khi một dịch vụ authentication tự nó vẫn hoạt động, các lỗi ở những nơi khác trong chuỗi phụ thuộc có thể khiến các luồng identity không thể sử dụng được.
Hầu hết các tổ chức dựa vào cơ sở hạ tầng đám mây cho các thành phần quan trọng liên quan đến identity, chẳng hạn như:
- Datastores lưu trữ các thuộc tính identity và thông tin thư mục
- Dữ liệu chính sách và authorization
- Load balancers, control planes và DNS
Những phụ thuộc chung này tạo ra rủi ro trong hệ thống. Một lỗi ở bất kỳ thành phần nào trong số đó có thể chặn hoàn toàn authentication hoặc authorization, ngay cả khi nhà cung cấp identity về mặt kỹ thuật vẫn đang chạy. Kết quả là một điểm lỗi duy nhất bị ẩn mà nhiều tổ chức, thật không may, chỉ phát hiện ra trong quá trình xảy ra sự cố.
Identity, người gác cổng cho mọi thứ
Authentication và authorization không phải là các chức năng biệt lập chỉ được sử dụng trong quá trình đăng nhập – chúng là những người gác cổng liên tục cho mọi hệ thống, API và dịch vụ. Các mô hình bảo mật hiện đại, đặc biệt là Zero Trust, được xây dựng trên nguyên tắc “never trust, always verify”. Việc xác minh đó hoàn toàn phụ thuộc vào khả năng sẵn sàng của các hệ thống identity.
Điều này áp dụng như nhau cho người dùng là con người và machine identities. Các ứng dụng xác thực liên tục. Các API ủy quyền mọi yêu cầu. Các dịch vụ lấy tokens để gọi các dịch vụ khác. Khi các hệ thống identity không khả dụng, không có gì hoạt động.
Vì lý do này, các sự cố identity trực tiếp đe dọa tính liên tục của doanh nghiệp. Chúng phải kích hoạt mức phản ứng sự cố cao nhất, với việc giám sát và cảnh báo chủ động trên tất cả các dịch vụ phụ thuộc. Coi downtime của identity là một vấn đề thứ yếu hoặc thuần túy kỹ thuật sẽ đánh giá thấp đáng kể tác động của nó.
Sự phức tạp tiềm ẩn của luồng xác thực
Authentication không chỉ bao gồm việc xác minh tên người dùng và mật khẩu, hoặc một passkey, khi các tổ chức ngày càng chuyển sang các mô hình passwordless. Một sự kiện authentication duy nhất thường kích hoạt một chuỗi hoạt động phức tạp đằng sau hậu trường.
Các hệ thống identity thường:
- Giải quyết các thuộc tính người dùng từ directories hoặc databases
- Lưu trữ trạng thái session
- Cấp phát access tokens chứa scopes, claims và attributes
- Thực hiện các quyết định authorization chi tiết bằng cách sử dụng policy engines
Các kiểm tra authorization có thể xảy ra cả trong quá trình cấp phát token và trong thời gian chạy khi các API được truy cập. Trong nhiều trường hợp, các API phải tự xác thực và lấy tokens trước khi gọi các dịch vụ khác.
Mỗi bước này đều phụ thuộc vào cơ sở hạ tầng bên dưới. Datastores, policy engines, token stores và các dịch vụ bên ngoài đều trở thành một phần của luồng authentication. Một lỗi trong bất kỳ thành phần nào trong số này có thể chặn hoàn toàn quyền truy cập, ảnh hưởng đến người dùng, ứng dụng và quy trình kinh doanh.
Tại sao High Availability truyền thống chưa đủ
High availability được triển khai rộng rãi và hoàn toàn cần thiết, nhưng thường không đủ cho các hệ thống identity. Hầu hết các thiết kế high-availability tập trung vào regional failover: một triển khai chính ở một khu vực và một triển khai phụ ở khu vực khác. Nếu một khu vực gặp sự cố, traffic sẽ chuyển sang hệ thống dự phòng.
Cách tiếp cận này bị phá vỡ khi các sự cố ảnh hưởng đến các dịch vụ chia sẻ hoặc toàn cầu. Nếu các hệ thống identity ở nhiều khu vực phụ thuộc vào cùng một cloud control plane, nhà cung cấp DNS hoặc dịch vụ database được quản lý, regional failover sẽ cung cấp ít sự bảo vệ. Trong những trường hợp này, hệ thống dự phòng cũng bị lỗi vì những lý do tương tự như hệ thống chính.
Kết quả là một kiến trúc identity có vẻ kiên cường trên giấy tờ nhưng lại sụp đổ dưới các sự cố đám mây hoặc nền tảng quy mô lớn.
Thiết kế khả năng phục hồi cho các hệ thống Identity
Khả năng phục hồi thực sự phải được thiết kế một cách có chủ ý. Đối với các hệ thống identity, điều này thường có nghĩa là giảm sự phụ thuộc vào một nhà cung cấp hoặc miền lỗi duy nhất. Các cách tiếp cận có thể bao gồm các chiến lược multi-cloud hoặc các giải pháp on-premises được kiểm soát vẫn có thể truy cập ngay cả khi các dịch vụ đám mây bị suy giảm.
Quan trọng không kém là lập kế hoạch cho hoạt động bị suy giảm. Hoàn toàn từ chối quyền truy cập trong thời gian ngừng hoạt động có tác động kinh doanh cao nhất có thể. Cho phép truy cập hạn chế, dựa trên các thuộc tính được lưu trong cache, các quyết định authorization được tính toán trước hoặc chức năng giảm bớt, có thể giảm đáng kể thiệt hại về hoạt động và danh tiếng.
Không phải tất cả dữ liệu liên quan đến identity đều cần mức độ sẵn sàng như nhau. Một số thuộc tính hoặc nguồn authorization có thể ít chịu lỗi hơn những thuộc tính khác và điều đó có thể chấp nhận được. Điều quan trọng là đưa ra những đánh đổi này một cách có chủ ý, dựa trên rủi ro kinh doanh chứ không phải sự tiện lợi về kiến trúc.
Các hệ thống identity phải được thiết kế để fail gracefully. Khi các sự cố cơ sở hạ tầng là không thể tránh khỏi, access control nên suy giảm một cách có thể dự đoán được, chứ không phải sụp đổ hoàn toàn.
Bạn đã sẵn sàng bắt đầu với giải pháp quản lý identity mạnh mẽ chưa? Hãy dùng thử Curity Identity Server miễn phí.