RTO 與 RPO:有何不同?

本文將詳細探討Disaster Recovery規劃中使用的兩個重要概念:復原時間目標 (RTO) 和Recovery Point Objective (RPO)。

RTO vs. RPO

總結

Recovery time objective (RTO) and recovery point objective (RPO) are two concepts that are used in business continuity and disaster recovery planning to establish a business’s tolerance for data loss and recovery time in the event of a failure.

image_pdfimage_print

復原時間目標 (RTO) 和Recovery Point Objective (RPO) 仍是Disaster Recovery規劃的基本概念,但其實作在現今hybrid cloud和 AI 驅動的環境中已大幅進化。雖然這兩者仍代表彈性規劃的關鍵參數,但實現這些參數的技術和策略卻有相當大的進步。

RTO 定義了斷電造成不可接受的損害程度之前,恢復可能需要多久時間。同時,RPO 定義了斷電導致資料遺失變得無法接受的時間點。超過任一門檻,結果也一樣:業務中斷和潛在的財務影響。

本更新指南探討現代企業營運下 RTO 與 RPO 之間的主要差異,提供實作架構,並強調先進技術如何改變復原能力。

對 RTO 的現代化認識:前瞻性

RTO 代表業務營運受到重大影響之前,可接受的停機時間上限。在 2025 年,RTO 變得越來越精細,不僅在系統層級定義,也根據應用程式層級和復原情況定義。

  • 前瞻性的時間指標:RTO 本質上具有前瞻性,專注於事件發生後的未來恢復時間。它回答了關鍵問題:”我們必須多快恢復營運?”
  • 業務影響相關性:RTO 會根據不同系統對業務功能的關鍵性而有所差異。非常關鍵的系統可能需要接近零到四小時的 RTO,而較不關鍵的系統則可能有數小時到數天的 RTO。
  • 資源分配因素:由於沒有任何組織擁有無限的人力或資源,RTO 可協助排定復原工作的優先順序。支援更多重要功能的系統在復原作業期間應優先處理。
  • 情境式規劃:現代的彈性策略現在根據中斷的性質(Ransomware與硬體故障與區域災害)納入了可變 RTO,承認恢復過程在各情境之間大不相同。

現代 RPO 架構:前瞻性

RPO 是指在業務營運受到重大影響之前,通常以時間表示的最大可接受資料遺失量。可容忍的資料遺失量因受影響系統提供的服務而有極大差異。

  • 回溯資料指標:與 RTO 的遠期焦點不同,RPO 是前瞻性的,它定義了您必須能夠還原資料的時間。它有效代表您的備份頻率需求。
  • 資料關鍵性評估:較不關鍵的資料可能不需要頻繁備份,而高度關鍵的資料則需要強大的保護。評估業務流程的資料關鍵性,仍是管理適當復原目標的關鍵。
  • 資料變更速度:有些資料儲存會經歷大量變更,有些則維持相對靜態。現代 RPO 規劃在決定保護頻率時,會考量資料波動。
  • 成本風險分析:備份頻率和方法對成本有直接的影響。謹慎的成本與風險分析對於平衡營運費用的保護仍是不可或缺的。

進化為 3-2-1-1-0 策略

傳統的 3-2-1 備份規則(三份,兩種不同的媒體類型,一種異地)已發展為更全面的 3-2-1-1-0 架構:

3 – 維護至少三份資料(製作加上兩個備份)
2 – 將副本儲存在兩種不同的儲存媒體類型上
1 – 異地保存一份副本
1 – 以不可變或氣隙格式保留一份副本
0 – 透過自動復原驗證確保零錯誤

這種強化的架構能確保至少一份資料副本與網路攻擊完全隔離,進而直接解決Ransomware等現代威脅,同時驗證測試可確認可復原性。

讓 RTO/RPO 變得智慧

在 2025 年,有效的Disaster Recovery規劃需要設定 SMART 目標:

  • 具體:定義每個應用程式層和情境的精細 RTO/RPO 目標,而非整體政策。關鍵資料庫系統可能需要低於小時的 RTO,而分析平台可以承受更長的復原時間。
  • 可測量:定期進行Disaster Recovery測試和桌面練習,以驗證所述目標是否可達成。復原模擬技術現在可對 RTO/RPO 的可達成性進行不中斷驗證。
  • 可行性:在業務永續性計劃中記錄 RTO/RPO,以及特定的復原程序與責任。現代化調度平台可以自動化這些程序,將人為錯誤降到最低。
  • 務實:根據可用的技術和預算限制來設定可實現的目標。了解積極的復原目標與基礎架構投資之間的關係。
  • 有時限:隨著業務需求和技術的發展,定期審查和調整目標。在 2023 年可接受的項目,可能不符合 2025 年的競爭要求。

SLA 認知 vs. 現實:RPO 與 RTO

許多 IT 經理認為達成 RPO 和 RTO 服務等級協議是可以達成的。然而,研究持續顯示期望與成果之間存在重大差距。

最近的研究顯示,雖然組織鎖定快速復原的目標(平均 RPO 為 15-30 分鐘),但實際復原能力通常不足,大多數組織在重大事件情境下,無法復原資料的時間超過 24-48 小時。

  • 數量挑戰:絕大多數 (71%) 的單日復原都涉及不到 50 GB 的資料。然而,經過一天的時間範圍後,復原率會大幅躍升,而更長的時間則代表資料更多,而且可能有更多的復原資源。
  • 驗證差距:雖然組織設定了積極的 RTO,但不到 30% 的人會定期測試他們透過正式的復原練習達成這些目標的能力。

Artificial Intelligence正在改變組織處理 RTO 和 RPO 管理的方式:

  • 預測性故障分析:AI 可以在系統故障發生前就先找出,並採取先佔性行動,避免完全需要復原。
  • 智慧資料分層:AI 透過學習存取模式,並主動將關鍵資料移至高速層,在復原過程中達到所需程度,進而強化 RTO。
  • 異常偵測:現代的保護系統運用 AI 來識別異常的資料存取模式,這些模式可能顯示Ransomware的攻擊,並自動採取保護 RPO 的保護措施。
  • 復原調度:AI 驅動的復原調度工具可以根據相依性和關鍵性自動排列復原任務的順序,大幅減少人工干預並加速復原。

雲端技術的演進改變了Disaster Recovery基礎架構:

  • 多重雲端彈性:組織現在利用多個雲端供應商來消除復原策略中的單點故障,確保地理和供應商多元化。
  • 容器式復原:容器化可透過跨地區的快速實例建立來加速復原,應用程式和相依性也整合在一起,以利快速部署。
  • 跨地區複寫:雲端平台現在提供自動化複寫服務,能在地理邊界維持接近零的 RPO,而不需傳統 DR 解決方案的複雜性。

現代網路彈性架構透過實施健全的備份與復原解決方案,大幅降低 RTO 與 RPO,確保在網路事件發生後能迅速復原系統。

Pure Protect FlashArray//DRaaS 透過為企業及其關鍵資產量身訂做合適的解決方案來提供這項功能。Pure Protect 將您的資料儲存在您所需的位置:隨手可得。Pure Protect //DRaaS 能將資料維持在您的 AWS 雲端,確保您能透過雲端預先設定的工作負載,達到最高的復原速度。

2025 年的增強功能

  • AI 驅動的復原最佳化:運用Machine Learning,根據業務影響分析來排定復原作業的優先順序
  • 防盜快照技術:防止未經授權的備份資料修改,即使系統管理使用者也是如此
  • 自動化復原測試:在不影響生產的情況下,提供復原目標的不中斷驗證
  • 多重雲端調度:在不同雲端環境中實現無縫復原,提供極致彈性

Pure Protect //DRaaS 可協助您在分段式環境中測試備份與復原能力,將災害準備工作發揮到極致,同時避免意外中斷生產環境。

結論

Disaster Recovery規劃對於企業的復原能力仍是不可或缺的。RTO 和 RPO 仍然是將技術能力轉化為業務成果的基礎指標。組織可以考慮在停機時間和潛在的資料遺失方面進行復原,從而有效地傳達業務方面的技術要求。

資料保護技術的演進大幅擴大了Disaster Recovery的可能性。企業組織現在可以使用能提供接近零 RPO 的工具,並大幅降低 RTO,即使是複雜環境也不例外。然而,這些能力必須與適當的規劃、測試和投資相匹配,以確保當災害發生時,可以實現復原目標,而不只是紙本上的目標。

Beyond the Firewall: Insights and Strategies from Leading CISOs