DDIA 第8章：分散システムの難しさ（要約）

概要

第8章は、分散システムがなぜ難しいかを説明する。障害は二値ではなく曖昧に現れることが多い。単一ノードのプログラムならクラッシュは明確だが、分散システムではネットワーク遅延、パケット損失、retry、ノード過負荷、クロックドリフトが、呼び出し側から似た症状に見える。

章の中心メッセージは、信頼性は理想状態を前提にするのではなく、不確実性を前提にした設計から生まれるということ。

分散システムでは、一部コンポーネントだけが失敗し、他は稼働を続ける。1つの要求があるサービスでは成功し、別のサービスでは失敗することで、全体ワークフローが中間の不確実な状態に残る。

ネットワークは非決定的で、メッセージは遅延・損失・重複・順序入れ替わりが起こりうる。したがって、request/response のタイミングだけを真実とみなせない。

timeout は 失敗の証明ではない。次の可能性がある：

この曖昧さが分散システム設計の中心課題になる。

wall clock はドリフトやジャンプが起こり、NTP補正も入る。timestamp を厳密順序保証として使うと、特にリージョン間・ノード間で微妙なバグを生みやすい。

同じ要求を繰り返しても追加副作用が出ない操作にする。これで結果が不確実なときも retry を安全にできる。

意図的に設計する：

backoff（多くは jitter 付き指数）で同時負荷ピークを抑えられる。

ワークフローの状態遷移を durable storage/log に記録する。結果が曖昧なとき、明示的な状態機械は復旧を助け、重複処理を防ぐ。

すべてのサービス間呼び出しを「遅い/落ちる可能性あり」として扱う。circuit breaker、graceful degradation、非クリティカル機能向け fallback を持つ。

複数ノードが値やリーダーに合意する必要があると、ネットワーク不確実性により協調は高コストかつ壊れやすい。多くのシステムは要件に応じて整合性・可用性・レイテンシをトレードオフする。

実務的には、可能ならグローバル協調を避け、必要なときはクリティカルな不変条件を明示的に管理することが重要。

🌐 Claudeによる翻訳