Pregunta:
Recién comencé a usar GCS como respaldo para mis servidores web. Un servidor tiene 1,2 millones de archivos JPEG (3,5 TB) y todo se sincroniza sin problemas durante 10 horas aproximadamente.
El otro tiene 2,5 millones de archivos JPEG (solo miniaturas / vistas previas, 300 GB en total). La primera vez que lo hice, el "estado de sincronización del edificio" pasó por todos los 2,5 millones con bastante rapidez. Unos minutos. Sin embargo, mi sesión se interrumpió (wifi se cayó) y cuando ingresé por SSH para intentar ejecutarlo nuevamente, el mensaje "En la lista de origen" rápidamente pasa por 10000, 20000, 30000. Luego se detiene casi por completo. Media hora después, solo llega a 300.000. Sé que también tiene que determinar qué archivos tiene el destino, pero no creo que eso deba ralentizar significativamente los ecos de "En la lista de origen …".
¿Sugiere un problema con mi sistema de archivos? Si es así, ¿qué debo verificar?
¿O es un comportamiento esperado, por alguna razón?
¿Intentar usar gsutil rsync con 2 millones de archivos en un depósito es una mala idea? No pude encontrar pautas de Google sobre cuántos archivos pueden colocarse en un cubo, así que supongo que son miles de millones / ilimitados.
FWIW los archivos están todos en subdirectorios anidados, con no más de 2000 archivos en un directorio.
Gracias
editar: el comando exacto que estoy usando es:
gsutil -m rsync -r /var/www/ gs://mybucketname/var/www
Respuesta:
He descubierto que cambiando
output_chunk.writelines(unicode(''.join(current_chunk)))
a
output_chunk.write(unicode(''.join(current_chunk)))
en /gsutil/gslib/commands/rsync.py hace una gran diferencia. Gracias a Mike del GS Team por su ayuda; este simple cambio ya se ha implementado en github:
https://github.com/GoogleCloudPlatform/gsutil/commit/a6dcc7aa7706bf9deea3b1d243ecf048a06a64f2