分散ファイルシステム(Distributed File System: DFS)とは、データの格納・管理を簡素化するためのシステムです。ネットワーク上の複数のサーバーの共有ストレージに格納されているデータファイル(PDF、Word ドキュメント、画像、動画、音声など)の一元管理を可能にし、ユーザーやアプリケーションからのアクセスを容易にします。複数のサーバーをクラスタ化することで、別々のマシンに分散するストレージリソースやデータファイルを多くのユーザーが共有できるようにしています。
DFS がエンタープライズ環境で利用される主な理由は次の点にあります。
コンピュータのオペレーティングシステムのサブシステムとして、DFS はデータファイルの管理、整理、格納、保護、取得、共有を可能にします。アプリケーションやユーザーは、ローカルファイルを扱う場合と同様に、データファイルの格納やアクセスができます。DFS では、複数のサーバーにそれぞれ格納されたファイルへのパスが 1 つのツリー構造を形成しており、ユーザーは、単一のパスで、コンピュータやスマートフォンから DFS の共有フォルダを全て参照できます。
DFS には 2 つの重要な要素があります。
DFS では、ネットワークで接続されたワークステーションやサーバーが、ストレージノードのクラスタを持つ 1 つの並列ファイルシステムを構成します。このシステムは、単一の名前空間とストレージプールのもとでグループ化されており、複数のホストまたはサーバーを介した高速・同時のデータアクセスを可能にします。
データ自体は、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、パブリッククラウドなど、多様なストレージデバイスやシステムに格納できます。データの格納場所を問わず、DFS は 1 台のホストサーバーで構成されるスタンドアロン(独立型)の名前空間としても、複数のホストサーバーを使用したドメインベースの名前空間としても設定できます。
ユーザーがファイル名をクリックしてデータにアクセスしようとすると、 DFS は、複数のサーバーをチェックし、ユーザーがどこからアクセスしているかによって、サーバーグループ内で最初に使用可能なファイルのコピーを特定します。これにより、多数のユーザーのファイルへのアクセスが集中してサーバーがダウンする事態を回避し、さらに、サーバーの異常や障害の発生時でもデータの可用性を維持します。
ファイルに加えられた変更は、DFS のファイルレプリケーション機能によって、サーバーノード内の当該ファイルの全てのインスタンスにコピーされます。
エンタープライズにおけるデータファイルの管理や整理、アクセスをサポートする DFS ソリューションは多数存在します。その大半が以下のような機能を提供しています。
DFS の最大のメリットは、ユーザーがさまざまな場所から同一のデータにアクセスできることです。離れた地域間でも、シンプルで効率的な情報共有が可能です。サイト間でのファイルのコピーやフォルダの移動を不要にするため、ユーザーの手間が省けます。
上記以外にも、DFS には次のようなメリットがあります。
DFS と同様に、オブジェクトストレージも、クラスタ化された多数のノードに情報を格納し、迅速、高効率で、耐障害性に優れたデータアクセスを可能にします。DFS とオブジェクトストレージのいずれも、「単一障害点」のリスクを排除します。しかし、両者は同一ではありません。
DFS とオブジェクトストレージの違いには、次のようなものがあります。
DFS ソリューションの選択肢は多数存在します。Ceph や Hadoop DFS などの無料のオープンソースソフトウェアから、AWS S3 や Microsoft Azure などのリモートアクセスソリューション、 Nutanix Files や Nutanix Objects などのプロプライエタリソリューションまで、多岐にわたります。
DFS は、幅広いユースケースに対応できる特性を持っています。主要な特性として、高頻度でランダムな読み取り/書き込みを必要とするワークロードや、データ集約型ジョブ全般に適していることが挙げられます。ジョブの例としては、複雑なコンピュータシミュレーション、高性能コンピューティング(HPC)、ログ処理、機械学習などがあります。