Já foi dito ad nauseam: nosso mundo está sendo forjado pela tecnologia, desde a invenção da imprensa até o advento da internet, cada inovação tem sido um trampolim na evolução da humanidade. Mas agora, talvez, estejamos testemunhando uma disrupção tecnológica sem precedentes.

Esta revolução é construída sobre uma tecnologia conhecida como redes neurais artificiais que, em formas muito mais simples, já eram usadas por Gauss e assumiram sua forma atual em meados do século passado. Embora suas potencialidades fossem conhecidas, somente há pouco mais de dez anos elas ganharam notoriedade quando, possibilitadas pela crescente capacidade de cálculo e disponibilidade de dados, foram utilizadas para revolucionar o campo da visão computacional, até atingirem o mercado prestes a se desenvolver. sistemas mais precisos do que os seres humanos.

Estas redes caracterizavam-se não só por serem muito maiores do que as utilizadas até então, mas também por possuírem configurações que lhes permitiam processar as mais diversas informações, como imagens e texto, sem necessitar da intervenção de especialistas humanos no seu pré-processamento . Quero dizer, de certa forma, aprendi a fazer esse pré-processamento por conta própria.

A meio caminho entre esse marco e hoje, o jornal foi publicado “Atenção é tudo que você precisa”, em que foi apresentada uma nova configuração de neurônios artificiais, chamada “transformador”, que deu origem à onda de algoritmos que hoje conhecemos com grandes modelos de linguagem. Entre eles, a família GPT (Generative Pre-trained Transformer), desenvolvida pela OpenAI, que passou de 117 milhões de parâmetros na primeira versão de 2018, para 175 bilhões, na terceira versão, lançada em 2020 e que é o coração do chatGPT .

Ótimos modelos de linguagem. Nada mais do que redes neurais baseadas em transformadores treinadas para prever a próxima palavra em uma sequência de texto. Daí o apelido de pré-treinado (Pré-treinado, o P de GPT): eles não foram ensinados a encontrar o significado de uma frase, ou a detectar o sentimento do texto, ou qualquer outra tarefa específica.

Por que foi feito assim? pela quantidade de dados. Se o modelo deve encontrar a próxima palavra em um texto, todos os textos da história da humanidade são dados viáveis ​​para treiná-lo; enquanto se você quiser treiná-lo para detectar – por exemplo – sentimentos, apenas textos devidamente categorizados (várias ordens de magnitude a menos) seriam úteis.

Por que eles funcionam? Poderíamos especular que a linguagem codificava o conhecimento humano e o ato de predizer adequadamente uma palavra a mais implica compreender o que a precedeu de alguma forma; mas é muito difícil entender – pelo menos para mim – por que essas redes são tão poderosas. É muito mais fácil, no entanto, entender por que eles são tão ferramentas. Para isso, deve-se primeiro observar que eles não se limitam a prever apenas uma palavra, pois cada palavra gerada pode ser adicionada ao texto original para gerar outra, e depois outra e assim por diante.

Além disso, muitas vezes um texto pode ser composto para provocar uma resposta específica. Por exemplo, se eu escrever (ou copiar) um longo artigo que contenha informações que me interessem; Eu adiciono “Em resumo:” no final e peço a uma pessoa para continuar, a maioria escreveria um resumo do que foi dito acima. Bem, um modelo de linguagem faz a mesma coisa, porque foi alterado para continuar os textos da mesma forma que um ser humano faria.

Vida após a morte: um argentino criou um aplicativo que torna isso possível com inteligência artificial

É assim, então, que com textos bem feitos (popularizados como “promts” por seu nome em inglês) essas redes podem ser feitas para exibir comportamentos muito mais complexos do que aqueles ensinados. Se você escrever “América foi descoberta por”, você completará Colombo. Se eu disser a ele “Este é um sistema de equações, a solução para x e y é”, ele não apenas fará o desenvolvimento matemático, mas o explicará em palavras. Se eu der a ele um título e um subtítulo, posso fazer com que ele escreva uma nota completa.

confronto de gigantes Recentemente, vendo seu potencial, a Microsoft tomou a iniciativa e fechou um acordo com a OpenAI para o uso do chatGPT no Bing; tanto na lateral da página de resultados quanto em um chat separado, semelhante ao aplicativo original. Por sua vez, o Google anunciou rapidamente um produto análogo, chamado Bardo (Bardo); baseado no Lambda, aquele modelo que se popularizou no ano passado porque um engenheiro achou que tinha consciência.

A tensão é máxima e parece que vamos presenciar uma guerra entre os gigantes tecnológicos pelo mercado de buscas na web. Mas é realmente assim?

Certamente, este tipo de ferramenta substituiria muitas das buscas que fazemos, mas justamente nos casos em que não estamos interessados ​​em buscar uma página web, mas sim uma resposta específica. Que eu saiba, produtos como chatGPT Eles não estão ameaçando a participação do Google no mercado de buscas, mas o tamanho do próprio mercado, com um substituto superior: o mecanismo de busca. assistente pessoal. Mas um realmente útil, que ofuscaria o HAL 9000 ou faria Jarvis se sentir inseguro.

Esta é uma promessa que eles já nos fizeram e nos decepcionaram: Siri tem mais de dez anos, Alexa e o Google Assistant estão logo atrás. Mas onde esses produtos falharam, o chatGPT parece brilhar. Ele não apenas entende os pedidos que fazemos com poucos erros, como não apenas dá boas respostas desde a primeira tentativa, mas também entende o contexto, podendo receber respostas e correções. Quer dizer, permite um diálogo real entre humano e máquinavivenciamos uma interação com a tecnologia que, bem implementada, pode revolucionar nossa produtividade.

E os tempos para chegar a essa realidade parecem estar se acelerando, apenas nas últimas semanas a Meta AI publicou o LLaMA, um modelo comparável ao GPT-3, mas de código aberto e muito mais rápido e menor. Os cientistas de Stanford criaram o Alpaca, um clone do chatGPT feito a partir do LLaMA com configurações geradas pela própria API do ChatGPT por menos de mil dólares (contra os milhões que custou para treinar os modelos originais). E, claro, a OpenAI lançou o GPT-4, uma versão melhorada de seu modelo principal, que não apenas lê texto, mas também entende imagens.

Todos esses desenvolvimentos junto com a adoção massiva das ferramentas através do Bing e Google Search; a incorporação de assistentes virtuais em Office e Workspaces; desenvolvimento do Github do Copilot e Copilot X; mais a infinidade de startups que tentarão se posicionar naquele mercado, prevêem não apenas um impacto significativo na produtividade de quem as utiliza, mas também uma aceleração vertiginosa na criação e aprimoramento das próprias ferramentas.

Esta nota foi escrita pela inteligência humana. Adoraria seguir a moda do momento e terminar a nota dizendo que foi escrita pela IA, mas não é o caso. Isso não quer dizer que não tenha tido a ajuda dele: usei o chatGPT para obter sugestões de continuações, quebrar um pouco o bloqueio de um escritor novato e melhorar minha gramática. Até pedi a ele para gerar os textos que depois dei para outras redes generativas que vão do texto às imagens (DALL-E 2 e Stable Diffusion 2.1), para gerar as ilustrações que acompanham esta nota. Resumindo, não usei IA para substituir meu trabalho, mas para fazê-lo com muito mais rapidez e qualidade.

*Mestre em Ciência de Dados. Professor no Mestrado em Ciências de Dados da Faculdade de Engenharia da Universidade Austral.

você pode gostar