Ícone do site Blog do Hurb

A AI generativa existe por causa do Tranformers

A AI Generativa é uma consequência direta dos avanços trazidos pelos modelos de Transformers.

Corporações globalmente têm embarcado em testes com esta inovação tecnológica, antecipando sua capacidade de revolucionar setores tão diversos quanto comunicação, finanças, direito, serviços profissionais e até mesmo serviços públicos, incluindo o setor educacional. Esses Modelos de Linguagem de Grande Escala (LLMs) são sustentados por um marco científico denominado “modelo Transformers“, uma contribuição significativa feita por pesquisadores do Google em 2017.

“Reconhecemos a natureza pioneira do nosso trabalho com modelos transformers desde o início, mas anos após sua concepção, ainda estamos animados com seu potencial expandido em diversos domínios, que vai de cuidados de saúde a robótica e segurança, amplificando a criatividade humana e muito além”, afirma Slav Petrov, pesquisador sênior do Google envolvido no desenvolvimento de LLMs.

Os LLMs são celebrados por seu potencial em elevar a produtividade através da escrita e análise textual. No entanto, essa mesma eficiência é o que os torna uma ameaça potencial ao emprego humano. Segundo análises da Goldman Sachs, a automação poderia afetar o equivalente a 300 milhões de postos de trabalho em tempo integral nas principais economias, um vetor de desemprego em massa.

Com a rápida adoção desta tecnologia em nossas rotinas diárias, entender como os LLMs geram texto é crucial para reconhecer por que esses modelos são tão versáteis no processamento cognitivo — e o que mais eles poderiam facilitar na criação. Segue exemplo interativo;

Mas não é só isso que torna os LLMs tão inteligentes. O que desbloqueou suas habilidades de analisar e escrever com a mesma fluência que fazem hoje foi uma ferramenta chamada transformador, que acelerou e aumentou radicalmente a maneira como os computadores entendiam a linguagem.

Os transformadores processam uma sequência inteira de uma vez – seja uma frase, um parágrafo ou um artigo inteiro – analisando todas as suas partes e não apenas palavras individuais.

Isso permite que o software capture melhor o contexto e os padrões e traduza – ou gere – texto com mais precisão. Esse processamento simultâneo também torna o treinamento dos LLMs muito mais rápido, melhorando sua eficiência e capacidade de escala.

A pesquisa que descreve o modelo do transformador foi publicada pela primeira vez por um grupo de oito pesquisadores de IA do Google em junho de 2017 . Seu artigo de pesquisa de 11 páginas marcou o início da era da AI ​​generativa.

Um dos maiores e mais avançados LLMs do mundo é o GPT-4, o mais recente modelo de inteligência artificial da OpenAI que, segundo a empresa, exibe “desempenho de nível humano” em vários benchmarks acadêmicos e profissionais, como o exame da ordem dos EUA, testes de nivelamento avançados como testes de SAT.

O GPT-4 pode gerar e ingerir grandes volumes de texto: os usuários podem inserir até 25.000 palavras em inglês, o que significa que ele pode lidar com documentação financeira detalhada, obras literárias ou manuais técnicos.

O produto remodelou a indústria tecnológica, com as maiores empresas de tecnologia do mundo – incluindo Google, Meta e Microsoft, que apoiaram a OpenAI – a competir para dominar o espaço, ao lado de pequenas start-ups.

Os LLMs lançados incluem o modelo PaLM do Google, que alimenta seu chatbot Bard, o modelo Claude da Anthropic, o LLaMA da Meta e o Command da Cohere, entre outros.

Embora esses modelos já estejam sendo adotados por uma série de empresas, algumas das empresas por trás deles estão enfrentando batalhas legais em torno do uso de textos, imagens e áudio protegidos por direitos autorais extraídos da web.

A razão para isso é que os atuais LLMs são treinados na maior parte da Internet em língua inglesa – um volume de informações que os torna muito mais poderosos do que as gerações anteriores.

A partir deste enorme corpus de palavras e imagens, os modelos aprendem como reconhecer padrões e, eventualmente, prever a próxima melhor palavra.

Mas as coisas nem sempre saem conforme o planejado. Embora o texto possa parecer plausível e coerente, nem sempre é factualmente correto. LLMs não são mecanismos de busca que buscam fatos; eles são mecanismos de detecção de padrões que adivinham a próxima melhor opção em uma sequência.

Devido a esta natureza preditiva inerente, os LLMs também podem fabricar informações num processo que os investigadores chamam de “alucinação”. Eles podem gerar números, nomes, datas, citações inventados – até mesmo links da web ou artigos inteiros.

Os utilizadores de LLMs partilharam exemplos de links para artigos de notícias inexistentes no FT e na Bloomberg, referências inventadas a artigos de investigação, autores errados para livros publicados e biografias repletas de erros factuais.

Em um incidente de grande repercussão em Nova York , um advogado usou o ChatGPT para criar um resumo para um caso. Quando a defesa interrogou o relatório, descobriu que estava repleto de opiniões judiciais e citações legais inventadas. “Eu não compreendia que o ChatGPT pudesse fabricar casos”, disse mais tarde o advogado a um juiz durante sua audiência no tribunal.

Embora os pesquisadores afirmem que as alucinações nunca serão completamente apagadas, o Google, a OpenAI e outros estão trabalhando para limitá-las por meio de um processo conhecido como “aterramento”. Isso envolve a verificação cruzada dos resultados de um LLM com os resultados de pesquisa na web e o fornecimento de citações aos usuários para que eles possam verificar.

Os humanos também são usados ​​para fornecer feedback e preencher lacunas de informação — um processo conhecido como aprendizagem por reforço por feedback humano (RLHF) — o que melhora ainda mais a qualidade do resultado. Mas ainda é um grande desafio de investigação compreender quais as questões que podem desencadear estas alucinações, bem como como podem ser previstas e reduzidas.

Apesar destas limitações, o transformador resultou numa série de aplicações de IA de ponta. Além de alimentar chatbots como Bard e ChatGPT, ele aciona o preenchimento automático em nossos teclados móveis e o reconhecimento de fala em nossos alto-falantes inteligentes.

Seu verdadeiro poder, entretanto, está além da linguagem. Seus inventores descobriram que os modelos de transformadores podiam reconhecer e prever quaisquer motivos ou padrões repetidos. Desde pixels em uma imagem, usando ferramentas como Dall-E, Midjourney e Stable Diffusion, até código de computador usando geradores como GitHub CoPilot. Poderia até prever notas na música e DNA em proteínas para ajudar a projetar moléculas de drogas.

Durante décadas, os investigadores construíram modelos especializados para resumir, traduzir, pesquisar e recuperar. O transformador unificou todas essas ações em uma única estrutura capaz de realizar uma enorme variedade de tarefas.

“Pegue este modelo simples que prevê a próxima palavra e ela. . . pode fazer qualquer coisa”, diz Aidan Gomez, executivo-chefe da start-up de IA Cohere e coautor do artigo do transformador.

Agora eles têm um tipo de modelo que é “treinado em toda a internet e o que sai do outro lado faz tudo isso e melhor do que tudo que veio antes”, afirma.

“Essa é a parte mágica da história.”

 

What’s your Reaction?
+1
0
+1
0
+1
0
+1
0
+1
0
+1
0
Sair da versão mobile