Traduzido por Julio Batista
Original de Nature
Está claro há vários anos que a inteligência artificial (IA) está ganhando a capacidade de gerar linguagem fluente, produzindo frases cada vez mais difíceis de distinguir do texto escrito por pessoas. No ano passado, a Nature informou que alguns cientistas já estavam usando chatbots como assistentes de pesquisa – para ajudar a organizar seu pensamento, gerar feedback sobre seu trabalho, auxiliar na escrita de código e resumir a literatura de pesquisa. Mas o lançamento do chatbot de inteligência artificial ChatGPT em novembro trouxe os recursos de tais ferramentas, conhecidas como grandes modelos de linguagem (LLMs, na sigla em inglês), para um público muito maior. Seus desenvolvedores, a OpenAI em San Francisco, Califórnia, EUA, tornaram o chatbot gratuito e de fácil acesso para pessoas que não possuem conhecimento técnico. Milhões estão usando, e o resultado tem sido uma explosão de experiências de escrita divertidas e às vezes assustadoras que turbinaram a crescente empolgação e consternação sobre essas ferramentas. O ChatGPT pode escrever redações de alunos com maestria, resumir trabalhos de pesquisa, responder a perguntas bem o suficiente para passar em exames médicos e gerar códigos úteis de computador. Ele produziu resumos de pesquisa bons o suficiente para que os cientistas achassem difícil identificar que um computador os havia escrito. O que é preocupante para a sociedade, também pode facilitar a produção de spam, ransomware e outros conteúdos maliciosos. Embora a OpenAI tenha tentado colocar barreiras no que o chatbot pode fazer, os usuários já estão encontrando maneiras de contorná-las.
A grande preocupação na comunidade de pesquisa é que estudantes e cientistas possam receber enganosamente a aprovação de textos escritos por LLM como seus próprios, ou usar LLMs de maneira simplista (como conduzir uma revisão incompleta da literatura) e produzir trabalhos que não sejam confiáveis. Vários papers publicados e pré-publicados já creditaram ao ChatGPT a autoria formal.
É por isso que já é hora de pesquisadores e editores estabelecerem regras básicas sobre o uso ético de LLMs. A Nature, juntamente com todos os periódicos da Springer Nature, formulou dois princípios, que foram adicionados ao nosso guia existente para autores. Como a equipe de notícias da Nature relatou, outras editoras científicas provavelmente adotarão uma postura semelhante. Primeiro, nenhuma ferramenta LLM será aceita como autor credenciado em um trabalho de pesquisa. Isso ocorre porque qualquer atribuição de autoria acarreta responsabilidade pelo trabalho, e as ferramentas de IA não podem assumir essa responsabilidade.
Em segundo lugar, os pesquisadores que usam ferramentas LLM devem documentar esse uso nas seções de métodos ou agradecimentos. Se um paper não incluir essas seções, a introdução ou outra seção apropriada pode ser usada para documentar o uso de LLM.
Editores e publicadores podem detectar texto gerado por LLMs? Neste momento, a resposta é ‘talvez’. O resultado bruto do ChatGPT é detectável em uma inspeção cuidadosa, particularmente quando mais do que alguns parágrafos estão envolvidos e o assunto está relacionado a trabalhos científicos. Isso ocorre porque LLMs produzem padrões de palavras com base em associações estatísticas em seus dados de treinamento e nos prompts que eles veem, o que significa que seu resultado pode parecer simples e genérico ou conter erros simples. Além disso, eles ainda não podem citar fontes para documentar seus resultados.
Mas, no futuro, os pesquisadores de IA podem contornar esses problemas – já existem alguns experimentos ligando chatbots a ferramentas de citação de fontes, por exemplo, e outros treinando os chatbots em textos científicos especializados.
Algumas ferramentas prometem identificar a produção gerada pelo LLM, e a editora da Nature, Springer Nature, está entre as que estão desenvolvendo tecnologias para fazer isso. Mas LLMs vão melhorar e rapidamente. Há esperanças de que os criadores de LLMs possam marcar os resultados de suas ferramentas com marcas d’água de alguma forma, embora mesmo isso possa não ser tecnicamente infalível.
Desde seus primórdios, a ciência tem funcionado sendo aberta e transparente sobre métodos e evidências, independentemente de qual tecnologia esteja em voga. Os pesquisadores devem se perguntar como a transparência e a confiabilidade de que depende o processo de geração de conhecimento podem ser mantidas se eles ou seus colegas usam softwares que funcionam de maneira fundamentalmente obscura.
É por isso que a Nature está estabelecendo estes princípios: em última análise, a pesquisa deve ter transparência nos métodos e integridade e veracidade dos autores. Essa é, afinal, a base de que a ciência depende para avançar.