Traduzido por Julio Batista
Original de David Nield para o ScienceAlert
A última conquista do ChatGPT? Quase passou no exame de licenciamento médico dos EUA (USMLE). Estamos falando aqui de um exame conhecido por sua dificuldade, que normalmente requer cerca de 300 a 400 horas de preparação para ser concluído e que abrange desde conceitos básicos de ciências até bioética.
O USMLE é na verdade três exames em um, e a competência com que o ChatGPT é capaz de responder às suas perguntas mostra que esses bots de IA podem um dia ser úteis para treinamento médico e até para fazer certos tipos de diagnósticos.
“O ChatGPT teve um desempenho igual ou próximo ao limite de aprovação para todos os três exames sem nenhum treinamento ou reforço especializado”, escreveram os pesquisadores em seu paper publicado. “Além disso, o ChatGPT demonstrou um alto nível de concordância e percepção em suas explicações.”
ChatGPT é um tipo de inteligência artificial conhecida como grande modelo de linguagem ou LLM, na sigla em inglês. Esses LLMs são especificamente voltados para respostas escritas e, por meio de grandes quantidades de texto de amostra e alguns algoritmos inteligentes, eles são capazes de fazer previsões sobre quais palavras devem ser combinadas em uma frase, como o irmão mais velho da função de previsão de texto do seu smartphone.
Isso é uma espécie de simplificação, mas você entendeu: o ChatGPT na verdade não ‘sabe’ nada, mas ao analisar uma grande quantidade de material online, ele pode construir frases que soem plausíveis sobre praticamente qualquer tópico. ‘Soar plausível’ é a chave, no entanto. Dependendo da probabilidade de várias frases, a IA pode parecer estranhamente inteligente ou chegar às conclusões mais ridículas.
Pesquisadores da startup Ansible Health o testaram usando exemplos de perguntas do USMLE, tendo verificado que as respostas não estavam disponíveis no Google – então eles sabiam que o ChatGPT estaria gerando novas respostas com base nos dados em que foi treinado.
Colocado à prova, o ChatGPT pontuou entre 52,4 por cento e 75 por cento nos três exames (a nota de aprovação é geralmente de cerca de 60 por cento). Em 88,9% de suas respostas, produziu pelo menos uma nova perspectiva significativa – descrita como algo “novo, não óbvio e clinicamente válido” pelos pesquisadores.
“Alcançar a nota de aprovação para este exame especializado notoriamente difícil, e fazer isso sem qualquer reforço humano, marca um marco notável na maturação clínica da IA”, disseram os autores do estudo em um comunicado à imprensa.
O ChatGPT também provou ser impressionantemente consistente em suas respostas e foi capaz de fornecer um raciocínio por trás de cada resposta. Ele também superou a taxa de precisão de 50,3% do PubMedGPT, um bot treinado especificamente em literatura médica.
Vale lembrar que as informações sobre as quais o ChatGPT foi treinado incluirão imprecisões: se você perguntar ao próprio bot, ele admitirá que é necessário mais trabalho para melhorar a confiabilidade dos LLMs. Não vai substituir os profissionais médicos em nenhum momento no futuro previsível.
No entanto, o potencial para analisar o conhecimento online é claramente grandioso, especialmente porque esses bots de IA continuam melhorando nos próximos anos. Em vez de substituir os humanos na profissão médica, eles poderiam se tornar assistentes vitais para eles.
“Esses resultados sugerem que grandes modelos de linguagem podem ter o potencial de auxiliar na educação médica e, potencialmente, na tomada de decisões clínicas”, escreveram os pesquisadores.
A pesquisa foi publicada no PLOS Digital Health.