Cadernos de Questões

Provas Favoritas

Filtros Salvos

Foram encontradas 295 questões.
#3720346

Referente à arquitetura original do Transformer (conforme o artigo “Attention is All You Need”, de Vaswani et. al. 2017), qual é a principal vantagem do uso do mecanismo Multi-Head Attention em comparação com uma única camada de atenção na arquitetura Transformer?

  • Reduzir o número de parâmetros treináveis do modelo.
  • Permitir que o modelo capture diferentes aspectos das relações entre as palavras em paralelo.
  • Eliminar a necessidade de normalização em camadas.
  • Aumentar a profundidade da rede sem adicionar camadas.
  • Ajustar funções específicas, sem a necessidade do uso global de funções como asigmoidou ReLU.
Fale com IAgo
IAgo - Assistente IAProva
IA
Olá! Sou o IAgo, seu assistente aqui no IAProvatec 😊
Veja como posso te ajudar:
Agora