Cadernos de Questões

Provas Favoritas

Filtros Salvos

Foram encontradas 80 questões.
#3647882

O artigo Attention is All You Need (Vaswani et al., 2017) marcou uma ruptura no processamento de linguagem natural ao apresentar a arquitetura Transformer. Sua abordagem abriu caminho para a criação de modelos de grande escala, como BERT, GPT e diversos outros que dominam o estado da arte em processamento de linguagem natural e em outras áreas, como visão computacional e bioinformática.
Sobre a arquitetura Transformer, é correto afirmar que: 

  • o Transformer substitui mecanismos recorrentes por atenção, mas não utiliza codificação posicional, pois o alinhamento sequencial é aprendido implicitamente pelas cabeças de atenção;
  • a introdução do multi-head attention permite ao modelo aprender relações diferentes entre tokens em subespaços de projeção distintos, preservando a informação posicional por meio de codificadores específicos;
  • o Transformer original evita camadas feed-foward densas para reduzir a complexidade, compensando essa ausência com mais cabeças de atenção por bloco;
  • o mecanismo de scaled dot-product attention multiplica os escores de similaridade pela raiz quadrada da dimensão das keys para intensificar as diferenças entre tokens distantes;
  • a arquitetura de encoder-decoder é composta por blocos distintos no encoder e no decoder, sem reutilização estrutural, a fim de especializar cada parte para tarefas diferentes.
Fale com IAgo
IAgo - Assistente IAProva
IA
Olá! Sou o IAgo, seu assistente aqui no IAProvatec 😊
Veja como posso te ajudar:
Agora