A trajetória da linguagem natural até o ChatGPT e suas falhas

Em 2017 o processamento de linguagem natural, ou NPL, ainda era um campo menos conhecido e glamuroso da inteligência artificial. A maior parte dos estudos era focada em visão computacional (diferenciar fotos de gatos e cachorros?) e em análises preditivas. O estado da arte em NLP eram os modelos de word embeddings, como o Word2Vec, publicado por cientistas do Google, e o FastText, do Facebook.

No mesmo ano, um grupo de cientistas, mais uma vez do Google, publicou um artigo chamado “Attention is All You Need”, defendendo o uso de um mecanismo de atenção como uma forma de melhorar a representação de textos nos modelos. Esta arquitetura ficou conhecida como transformers. O paper foi seguido, em 2018, pela publicação do modelo BERT (Bidirectional Encoder Representations from Transformers). De lá pra cá, a quantidade de modelos e aplicações de NLP explodiu.

Em 2020, o OpenAI, uma empresa de inteligência artificial co-fundada por Elon Musk, soltou a terceira versão do seu modelo Generative Pre-trained Transformer. O GPT-3, como foi apelidado, atraiu a atenção do mundo “leigo”. Foram inúmeros posts em blogs e artigos escritos pelo modelo. O mundo se impressionou pela capacidade de um modelo de linguagem para criar textos originais. Talvez a tão sonhada (e temida) inteligência artificial geral (AGI), estava mais perto do que se pensava. Logo, a mídia estava inundada de alusões a um “momento Skynet”.

O GPT-3 é um modelo chamado “generativo”, porque ele prevê a próxima palavra com base nas palavras anteriores, meio como o autocomplete do seu celular. Assim que o modelo decide uma palavra, ela é adicionada ao texto e a palavra seguinte é gerada. Parece um modelo simples, mas os resultados são impressionantes. Como a decisão é tomada com base em uma janela de 2048 tokens (pedaços de palavras), o texto segue uma sequência lógica, mesmo fazendo referência a trechos mais distantes da palavra que está sendo prevista. Além disso, o número gigantesco de parâmetros (175 bilhões, comparado com os 110 milhões do BERT) permite ao modelo uma capacidade de análise sem precedentes.

Uma extensão do GPT-3 lançada pela OpenAI é o Codex. Este é um modelo capaz de gerar programas de computador, e que é o motor por trás do Github Copilot. Os programadores que usam o Copilot dizem que seu trabalho foi acelerado em mais de 50% com a ajuda da ferramenta, que já gera 40% de todo o código escrito por eles.

O desenvolvimento do modelo Codex foi crucial para a próxima evolução dos modelos GPT. Em 2022 a OpenAI soltou a versão 3.5 do modelo, que foi treinada com um volume proporcionalmente muito maior de códigos de computador do que as versões anteriores. Para um programa de computador funcionar como esperado, é necessária uma lógica muito mais rígida do que se exigiria em um conto, por exemplo. Especula-se que este seja um dos fatores cruciais para o novo modelo ser capaz de manter uma conversa com um humano que seja bastante convincente por muito tempo.

Chegando, enfim, ao ChatGPT: o modelo lançado pela OpenAI em novembro de 2022 se tornou a principal “estrela” do mundo de NLP em tempo recorde. Em meros cinco dias, mais de um milhão de pessoas já tinham se inscrito para testar a ferramenta. Além de ter sido treinado em uma quantidade maior de códigos de computador, o modelo também é capaz de considerar 8000 tokens anteriores na hora de gerar o novo texto. O usuário consegue manter um diálogo com o sistema, fazendo referência a partes anteriores da conversa. Uma busca na internet vai trazer milhares de exemplos de como as pessoas estão usando este modelo para as coisas mais diversas, desde receitas de bolo até consultas médicas.

Apesar do hype, o ChatGPT ainda tem vários problemas. Ele não tem nenhum conhecimento do mundo após a data limite de coleta de textos para treino, que foi final de 2021. Ele também tem uma tendência a afirmar com propriedade e confiança coisas que são claramente falsas. Estas são coisas que o CEO da OpenAI, Sam Altman, sugere que podem ser melhoradas quando a empresa soltar o GPT-4 em 2023.

Mas uma coisa não vai ser resolvida na próxima versão e nem em um futuro próximo: o tamanho do modelo. Para gerar estes resultados impressionantes, os modelos são gigantescos. Isto significa que custam centenas de milhares (senão milhões) de dólares para treinar. Servir o modelo para que as pessoas usem também é bastante caro. Por enquanto o ChatGPT ainda não está disponível comercialmente, mas o GPT-3 custa 2 centavos de dólar por mil tokens, o que é um custo proibitivo para muitas aplicações. Como comparação, um modelo baseado no BERT pode rodar continuamente em um servidor da AWS que custa algo como 70 dólares por mês.

Nem todas as aplicações necessitam de um modelo tão grande e complexo. A Beaver tem um produto de processamento inteligente de documentos. É utilizado uma mistura de modelos BERT com uma coleção de modelos mais simples, juntamente com nosso conhecimento dos documentos que nós processamos e das informações que nossos clientes precisam. Desta forma, conseguimos um resultado melhor do que conseguiríamos mesmo com o ChatGPT numa fração do tempo de treinamento, além de conseguirmos oferecer um serviço por um custo razoável. Ainda vai levar um tempo para que esses modelos gigantes se tornem viáveis para aplicações como a da Beaver, mas já estamos estudando como eles podem melhorar nossos produtos. Entendê-las é imprescindível, afinal, é claro que as evoluções recentes de NLP irão impactar o nosso negócio e todos os outros.

Rogério Bromfan – CEO da Beaver Tecnologia

A trajetória da linguagem natural até o ChatGPT e suas falhas

Leia Mais

Cardio-oncologia: Proteção cardíaca em tratamentos contra o câncer

A complexa e polêmica questão dos conselheiros múltiplos

Como melhorar a segurança na movimentação de cargas na construção civil?

Digitalização de processos é fundamental para retomada após catástrofes

Newsletter