Un sistema de archivos distribuido, o DFS, es un esquema de almacenamiento y gestión de datos que permite a los usuarios o a las aplicaciones acceder a archivos de datos como PDF, documentos de Word, imágenes, archivos de vídeo, archivos de audio, etc., desde un almacenamiento compartido en cualquiera de los múltiples servidores en red. Sus datos compartidos y almacenados en un clúster de servidores permiten a muchos usuarios compartir recursos de almacenamiento y archivos de datos en múltiples equipos.
Hay dos razones principales por las que una empresa usaría un sistema de archivos distribuidos (DFS):
Como subsistema del sistema operativo del equipo, mediante DFS se gestiona, organiza, almacena, protege, recupera y comparte los archivos de datos. Las aplicaciones o los usuarios pueden almacenar o acceder a los archivos de datos en el sistema como lo harían con un archivo local. Desde sus ordenadores o teléfonos inteligentes, los usuarios pueden ver todas las carpetas compartidas de DFS como una ruta única que se ramifica en una estructura arbolada a los archivos almacenados en varios servidores.
El DFS tiene dos componentes críticos:
Mediante DFS, los terminales y servidores se conectan en red para crear un sistema de archivos paralelo con un clúster de nodos de almacenamiento. El sistema se agrupa bajo un único espacio de nombres y un grupo de almacenamiento y puede permitir el acceso rápido a los datos a través de varios hosts, o servidores, simultáneamente.
Los datos en sí pueden residir en diversos dispositivos o sistemas de almacenamiento, desde unidades de disco duro (HDD) hasta unidades de estado sólido (SSD) y la cloud pública. Independientemente de dónde se almacenen los datos, DFS se puede configurar como un espacio de nombres autónomo (o independiente), con solo un servidor host o un espacio de nombres basado en dominios con varios servidores host.
Cuando un usuario hace clic en un nombre de archivo para acceder a esos datos, el DFS comprueba varios servidores, dependiendo de dónde se encuentre el usuario, y luego sirve la primera copia disponible del archivo en ese grupo de servidores. Esto evita que cualquiera de los servidores se atasque demasiado cuando muchos usuarios acceden a los archivos y también mantiene los datos disponibles a pesar de que el servidor funcione mal o falle.
A través de la función de replicación de archivos DFS, cualquier cambio realizado en un archivo se copia en todas las instancias de ese archivo en los nodos del servidor.
Hay muchas soluciones DFS diseñadas para ayudar a las empresas a gestionar, organizar y acceder a sus archivos de datos, pero la mayoría de esas soluciones incluyen las siguientes características:
La principal ventaja de un sistema de archivos distribuido es que permite acceder a los mismos datos desde muchos lugares. También hace que el intercambio de información en todas las geografías sea simple y extremadamente eficiente. DFS puede eliminar por completo la necesidad de copiar archivos de un sitio a otro o de mover carpetas, todo lo cual requiere tiempo y esfuerzo que se puede invertir mejor en otro lugar.
Otras ventajas y beneficios de los sistemas de archivos distribuidos son:
Al igual que DFS, el almacenamiento de objetos también almacena información en muchos nodos de un clúster para un acceso rápido, resiliente y eficiente a los datos. Ambos eliminan el potencial "punto único de fallo". Pero no son lo mismo.
DFS y el almacenamiento de objetos son diferentes en varios aspectos, entre ellos:
Cuando se trata de encontrar una solución DFS, hay muchas opciones. Varían desde software gratuito de código abierto como Ceph y Hadoop DFS, hasta opciones de acceso remoto como AWS S3 y Microsoft Azure, y soluciones patentadas como Nutanix Files y Nutanix Objects.
Las características de DFS lo hacen ideal para muy distintos casos de uso, especialmente porque es en particular adecuado para cargas de trabajo que requieren lecturas y escrituras extensas y aleatorias, y trabajos que requieren muchos datos en general. Esto podría incluir complejas simulaciones informáticas, computación de alto rendimiento, procesamiento de registros y aprendizaje automático.