¿Etapa de sincronización lenta en gsutil rsync?

Pregunta:

Recién comencé a usar GCS como respaldo para mis servidores web. Un servidor tiene 1,2 millones de archivos JPEG (3,5 TB) y todo se sincroniza sin problemas durante 10 horas aproximadamente.

El otro tiene 2,5 millones de archivos JPEG (solo miniaturas / vistas previas, 300 GB en total). La primera vez que lo hice, el "estado de sincronización del edificio" pasó por todos los 2,5 millones con bastante rapidez. Unos minutos. Sin embargo, mi sesión se interrumpió (wifi se cayó) y cuando ingresé por SSH para intentar ejecutarlo nuevamente, el mensaje "En la lista de origen" rápidamente pasa por 10000, 20000, 30000. Luego se detiene casi por completo. Media hora después, solo llega a 300.000. Sé que también tiene que determinar qué archivos tiene el destino, pero no creo que eso deba ralentizar significativamente los ecos de "En la lista de origen …".

¿Sugiere un problema con mi sistema de archivos? Si es así, ¿qué debo verificar?

¿O es un comportamiento esperado, por alguna razón?

¿Intentar usar gsutil rsync con 2 millones de archivos en un depósito es una mala idea? No pude encontrar pautas de Google sobre cuántos archivos pueden colocarse en un cubo, así que supongo que son miles de millones / ilimitados.

FWIW los archivos están todos en subdirectorios anidados, con no más de 2000 archivos en un directorio.

Gracias

editar: el comando exacto que estoy usando es:

gsutil -m rsync -r /var/www/ gs://mybucketname/var/www

Respuesta:

He descubierto que cambiando

output_chunk.writelines(unicode(''.join(current_chunk)))

a

output_chunk.write(unicode(''.join(current_chunk)))

en /gsutil/gslib/commands/rsync.py hace una gran diferencia. Gracias a Mike del GS Team por su ayuda; este simple cambio ya se ha implementado en github:

https://github.com/GoogleCloudPlatform/gsutil/commit/a6dcc7aa7706bf9deea3b1d243ecf048a06a64f2

Leave a Comment

Your email address will not be published. Required fields are marked *

web tasarım