Saltar al contenido

factor de replicación HDFS

Te sugerimos que pruebes esta solución en un ambiente controlado antes de pasarlo a producción, saludos.

Solución:

Según Hadoop: Guía definitiva

La estrategia predeterminada de Hadoop es colocar la primera réplica en el mismo nodo que el cliente (para los clientes que se ejecutan fuera del clúster, se elige un nodo al azar, aunque el sistema intenta no elegir nodos que estén demasiado llenos o demasiado ocupados). La segunda réplica se coloca en un estante diferente al primero (fuera del estante), elegido al azar. La tercera réplica se coloca en el mismo bastidor que la segunda, pero en un nodo diferente elegido al azar. Las réplicas adicionales se colocan en nodos aleatorios del clúster, aunque el sistema intenta evitar colocar demasiadas réplicas en el mismo bastidor.

Esta lógica tiene sentido ya que disminuye la vibración de la red entre los diferentes nodos. Pero el libro se publicó en 2009 y hubo muchos cambios en el marco de Hadoop.

Creo que depende de si el cliente es el mismo que un nodo de Hadoop o no. Si el cliente es un nodo de Hadoop, todas las divisiones estarán en el mismo nodo. Esto no proporciona un mejor rendimiento de lectura/escritura a pesar de tener varios nodos en el clúster. Si el cliente no es el mismo que el nodo de Hadoop, el nodo se elige al azar para cada división, por lo que las divisiones se distribuyen entre los nodos de un clúster. Ahora, esto proporciona un mejor rendimiento de lectura/escritura.

Una ventaja de escribir en varios nodos es que incluso si uno de los nodos se cae, un par de divisiones pueden estar caídas, pero al menos algunos datos se pueden recuperar de alguna manera de las divisiones restantes.

Valoraciones y comentarios

Tienes la posibilidad compartir este enunciado si te fue útil.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *