Um novo estudo conduzido por pesquisadores do Mass General Brigham (MGB), um dos maiores sistemas de saúde acadêmicos dos Estados Unidos, revelou que modelos de inteligência artificial generativa apresentam falhas graves na fase inicial do raciocínio clínico. Ao submeter 21 modelos de linguagem a uma série de cenários clínicos, os pesquisadores constataram que os sistemas frequentemente falham em elaborar diagnósticos diferenciais — ou seja, a lista inicial de possíveis causas para um conjunto de sintomas.
O estudo identificou que os chatbots não conseguiram produzir a lista correta de possíveis causas dos sintomas em mais de 80% das vezes quando analisaram apenas as informações básicas de casos reais de pacientes. O diagnóstico diferencial é a etapa em que um médico, com dados ainda limitados, precisa levantar hipóteses e definir os próximos passos da investigação — um momento crítico no atendimento real.
O desempenho melhora significativamente quando os modelos recebem o quadro clínico completo do paciente. Quando fornecidas com informações abrangentes, as IAs conseguiram chegar ao diagnóstico correto em mais de 90% dos casos. O problema, alertam os pesquisadores, é que na prática clínica as informações raramente chegam completas de uma só vez.
Segundo o Dr. Marc Succi, diretor executivo do MESH Incubator do MGB, pacientes que tomam decisões com base nas respostas geradas na fase inicial podem buscar biópsias desnecessárias ou, em situações mais graves, atrasar o tratamento de sintomas que são sinais de um AVC. O pesquisador foi categórico: "Você não pode simplesmente confiar no que o chatbot diz."
Para os autores, a avaliação dos LLMs de forma sequencial — imitando o processo real de um médico, e não apenas como "respondedores de provas" — é o que revela a lacuna mais preocupante: esses modelos são bons em nomear um diagnóstico final quando os dados estão completos, mas têm dificuldades na fase aberta e inicial de um caso, quando há poucas informações disponíveis.
O estudo, publicado no JAMA Network Open, reforça a necessidade de manter um médico humano no centro das decisões clínicas. Os pesquisadores desenvolveram uma nova métrica chamada PrIME-LLM para avaliar a competência clínica dos modelos de IA, e os resultados indicam que, apesar dos avanços, a tecnologia ainda não está pronta para substituir o julgamento médico — especialmente nos momentos mais delicados do diagnóstico.
Fontes:
Mass General Brigham: https://www.massgeneralbrigham.org/en/about/newsroom/press-releases/ai-chatbot-lacks-clinical-reasoning
The Boston Globe: https://www.bostonglobe.com/2026/04/13/business/chatgpt-medical-advice-mass-general-brigham/
Estudo original (JAMA Network Open): DOI 10.1001/jamanetworkopen.2026.4003
