neural-networks – ¿Cuáles son los efectos de la profundidad y el ancho en las redes neuronales profundas?

Pregunta:

¿Cómo afecta la profundidad y el ancho de las redes neuronales al rendimiento de la red?

Por ejemplo, He et al. introdujo redes residuales muy profundas y afirmó: "Obtenemos [precisión convincente] a través de un concepto simple pero esencial: profundizar". Por otro lado, Zagoruyko y Komodakis argumentan que las redes residuales amplias "son muy superiores a sus contrapartes finas y muy profundas de uso común".

¿Alguien puede resumir la comprensión (teórica) actual en el aprendizaje profundo sobre los efectos del ancho y la profundidad en las redes neuronales profundas?

Respuesta:

El documento "Redes residuales amplias" vinculado ofrece un buen resumen al final de la página 8:

  • El ensanchamiento mejora constantemente el rendimiento en redes residuales de diferente profundidad;
  • Aumentar tanto la profundidad como el ancho ayuda hasta que el número de parámetros se vuelve demasiado alto y se necesita una regularización más fuerte;
  • No parece haber un efecto de regularización desde una profundidad muy alta en las redes residuales, ya que las redes amplias con el mismo número de parámetros que las delgadas pueden aprender representaciones iguales o mejores. Además, las redes amplias pueden aprender con éxito con un número de parámetros 2 o más veces mayor que las delgadas, lo que requeriría duplicar la profundidad de las redes delgadas, lo que las hace inviablemente caras de entrenar.

El artículo se centró en una comparación experimental entre los dos métodos. No obstante, creo teóricamente (y el artículo también afirma) que una de las principales razones por las que las redes residuales amplias producen resultados más rápidos y precisos que los trabajos anteriores es porque:

Ampliar las capas es más efectivo desde el punto de vista computacional que tener miles de núcleos pequeños, ya que la GPU es mucho más eficiente en cálculos paralelos en tensores grandes.

Es decir, las redes residuales más amplias permiten calcular muchas multiplicaciones en paralelo, mientras que las redes residuales más profundas utilizan cálculos más secuenciales (ya que los cálculos dependen de la capa anterior).

También con respecto a mi tercer punto anterior:

el bloque residual con mapeo de identidad que permite entrenar redes muy profundas es al mismo tiempo una debilidad de las redes residuales. A medida que el gradiente fluye a través de la red, no hay nada que lo obligue a pasar por pesos de bloques residuales y puede evitar aprender algo durante el entrenamiento , por lo que es posible que solo haya unos pocos bloques que aprendan representaciones útiles o que muchos bloques compartan muy poco. información con pequeña contribución al objetivo final.

También hay algunos comentarios útiles en la página de Reddit con respecto a este documento .

Leave a Comment

Your email address will not be published.

Scroll to Top

istanbul avukat

-

web tasarım