O Large Language Model (LLM) permite escrever artigos persuasivos baseados em palavras-chave, ser aprovado em exames de proficiência profissional e redigir informações empáticas e amigáveis ao paciente. No entanto, além dos riscos conhecidos de ficção, fragilidade e fatos imprecisos no LLM, outras questões não resolvidas estão gradualmente se tornando o foco, como modelos de IA que contêm "valores humanos" potencialmente discriminatórios em sua criação e uso. Mesmo que o LLM não fabrique mais conteúdo e elimine resultados claramente prejudiciais, os "valores do LLM" ainda podem se desviar dos valores humanos.
Inúmeros exemplos ilustram como os dados usados para treinar modelos de IA codificam valores individuais e sociais, que podem se solidificar dentro do modelo. Esses exemplos envolvem uma gama de aplicações, incluindo interpretação automática de radiografias de tórax, classificação de doenças de pele e tomada de decisão algorítmica sobre alocação de recursos médicos. Como afirmado em um artigo recente em nosso periódico, dados de treinamento tendenciosos podem amplificar e revelar os valores e vieses presentes na sociedade. Pelo contrário, pesquisas também mostraram que a IA pode ser usada para reduzir vieses. Por exemplo, pesquisadores aplicaram modelos de aprendizado profundo a filmes de raio-X do joelho e descobriram fatores que não foram detectados por indicadores de gravidade padrão (classificados por radiologistas) na articulação do joelho, reduzindo assim diferenças inexplicáveis de dor entre pacientes negros e brancos.
Embora cada vez mais pessoas estejam percebendo o viés nos modelos de IA, especialmente em termos de dados de treinamento, muitos outros pontos de entrada de valores humanos não recebem atenção suficiente no processo de desenvolvimento e implantação de modelos de IA. A IA médica alcançou resultados impressionantes recentemente, mas, em grande medida, não considerou explicitamente os valores humanos e sua interação com a avaliação de risco e o raciocínio probabilístico, nem foi modelada.
Para concretizar esses conceitos abstratos, imagine que você é um endocrinologista que precisa prescrever hormônio do crescimento humano recombinante para um menino de 8 anos que está abaixo do 3º percentil de sua idade. O nível de hormônio do crescimento humano estimulado do menino está abaixo de 2 ng/mL (valor de referência, >10 ng/mL; valor de referência para muitos países fora dos Estados Unidos é >7 ng/mL), e seu gene codificador do hormônio do crescimento humano detectou mutações raras de inativação. Acreditamos que a aplicação da terapia com hormônio do crescimento humano é óbvia e indiscutível neste cenário clínico.
A aplicação da terapia com hormônio do crescimento humano nos seguintes cenários pode causar controvérsia: a altura de um menino de 14 anos sempre esteve no 10º percentil de seus pares, e o pico do hormônio do crescimento humano após a estimulação é de 8 ng/mL. Não há mutações funcionais conhecidas que possam afetar a altura, nem outras causas conhecidas de baixa estatura, e sua idade óssea é de 15 anos (ou seja, sem atraso no desenvolvimento). Apenas parte da controvérsia se deve às diferenças nos valores limite determinados por especialistas com base em dezenas de estudos sobre os níveis de hormônio do crescimento humano usados para diagnosticar a deficiência isolada do hormônio do crescimento. Pelo menos tanta controvérsia decorre do equilíbrio risco-benefício do uso da terapia com hormônio do crescimento humano das perspectivas de pacientes, pais de pacientes, profissionais de saúde, empresas farmacêuticas e pagadores. Endocrinologistas pediátricos podem pesar os raros efeitos adversos das injeções diárias de hormônio do crescimento por 2 anos com a probabilidade de nenhum ou apenas crescimento mínimo no tamanho corporal adulto em comparação com o presente. Os meninos podem acreditar que, mesmo que sua altura aumente apenas 2 cm, vale a pena injetar hormônio do crescimento, mas o pagador e a empresa farmacêutica podem ter opiniões diferentes.
Tomamos como exemplo a TFGe baseada em creatinina, que é um indicador de função renal amplamente utilizado para diagnosticar e estadiar doença renal crônica, definir condições para transplante ou doação renal e determinar critérios de redução e contraindicações para muitos medicamentos prescritos. A TFGe é uma equação de regressão simples usada para estimar a taxa de filtração glomerular medida (TFGm), que é um padrão de referência, mas o método de avaliação é relativamente complexo. Essa equação de regressão não pode ser considerada um modelo de IA, mas ilustra muitos princípios sobre valores humanos e raciocínio probabilístico.
O primeiro ponto de entrada para valores humanos na TFGe é a seleção de dados para o ajuste de equações. A fila original usada para projetar a fórmula da TFGe é composta principalmente por participantes negros e brancos, e sua aplicabilidade a muitos outros grupos étnicos não é clara. Os pontos de entrada subsequentes para valores humanos nessa fórmula incluem: selecionar a precisão da TFGe como objetivo principal para avaliar a função renal, qual é um nível aceitável de precisão, como medir a precisão e usar a TFGe como um limite para desencadear a tomada de decisões clínicas (como determinar as condições para transplante renal ou prescrever medicamentos). Por fim, ao selecionar o conteúdo do modelo de entrada, os valores humanos também entrarão nessa fórmula.
Por exemplo, antes de 2021, as diretrizes sugeriam o ajuste dos níveis de creatinina na fórmula da TFGe com base na idade, sexo e raça do paciente (classificados apenas como indivíduos negros ou não negros). O ajuste com base na raça visa melhorar a precisão da fórmula da TFGe, mas em 2020, os principais hospitais começaram a questionar o uso da TFGe com base na raça, citando razões como o atraso na elegibilidade do paciente para transplante e a concretização da raça como um conceito biológico. Pesquisas mostraram que projetar modelos de TFGe em termos de raça pode ter impactos profundos e variados na precisão e nos resultados clínicos; portanto, focar seletivamente na precisão ou focar em uma parte dos resultados reflete julgamentos de valor e pode mascarar a transparência na tomada de decisões. Finalmente, o grupo de trabalho nacional propôs uma nova fórmula que foi reajustada sem considerar a raça para equilibrar questões de desempenho e justiça. Este exemplo ilustra que mesmo uma fórmula clínica simples tem muitos pontos de entrada em valores humanos.
Comparado a fórmulas clínicas com apenas um pequeno número de indicadores preditivos, o LLM pode consistir de bilhões a centenas de bilhões de parâmetros (pesos do modelo) ou mais, tornando-o difícil de entender. A razão pela qual dizemos "difícil de entender" é que na maioria dos LLMs, a maneira exata de obter respostas por meio de questionamentos não pode ser mapeada. O número de parâmetros para o GPT-4 ainda não foi anunciado; seu antecessor, o GPT-3, tinha 175 bilhões de parâmetros. Mais parâmetros não significam necessariamente capacidades mais fortes, pois modelos menores que incluem mais ciclos computacionais (como a série de modelos LLaMA [Large Language Model Meta AI]) ou modelos que são finamente ajustados com base no feedback humano terão melhor desempenho do que modelos maiores. Por exemplo, de acordo com avaliadores humanos, o modelo InstrumentGPT (um modelo com 1,3 bilhão de parâmetros) supera o GPT-3 na otimização dos resultados de saída do modelo.
Os detalhes específicos do treinamento do GPT-4 ainda não foram divulgados, mas os detalhes dos modelos de gerações anteriores, incluindo GPT-3, InstrumentGPT e muitos outros LLMs de código aberto, foram divulgados. Atualmente, muitos modelos de IA vêm com cartões de modelo; os dados de avaliação e segurança do GPT-4 foram publicados em um cartão de sistema semelhante fornecido pela empresa de criação de modelos OpenAI. A criação do LLM pode ser dividida em duas etapas: a etapa inicial de pré-treinamento e a etapa de ajuste fino, que visa otimizar os resultados de saída do modelo. Na etapa de pré-treinamento, o modelo recebe um grande corpus, incluindo o texto original da Internet, para treiná-lo a prever a próxima palavra. Esse processo aparentemente simples de "completar automaticamente" produz um modelo fundamental poderoso, mas também pode levar a comportamentos prejudiciais. Os valores humanos entrarão na etapa de pré-treinamento, incluindo a seleção de dados de pré-treinamento para o GPT-4 e a decisão de remover conteúdo inapropriado, como conteúdo pornográfico, dos dados de pré-treinamento. Apesar desses esforços, o modelo básico ainda pode não ser útil nem capaz de conter resultados de saída prejudiciais. No próximo estágio de ajuste fino, muitos comportamentos úteis e inofensivos surgirão.
Na fase de ajuste fino, o comportamento dos modelos de linguagem é frequentemente alterado profundamente por meio de ajuste fino supervisionado e aprendizado por reforço com base em feedback humano. Na fase de ajuste fino supervisionado, a equipe contratada escreverá exemplos de resposta para palavras-chave e treinará o modelo diretamente. Na fase de aprendizado por reforço com base em feedback humano, avaliadores humanos classificarão os resultados de saída do modelo como exemplos de conteúdo de entrada. Em seguida, aplicarão os resultados de comparação acima para aprender o "modelo de recompensa" e aprimorarão ainda mais o modelo por meio do aprendizado por reforço. O incrível envolvimento humano de baixo nível pode ajustar esses grandes modelos. Por exemplo, o modelo InstrumentGPT utilizou uma equipe de aproximadamente 40 funcionários contratados recrutados em sites de crowdsourcing e passou por um teste de triagem com o objetivo de selecionar um grupo de anotadores sensíveis às preferências de diferentes grupos populacionais.
Como demonstram estes dois exemplos extremos, a saber, a fórmula clínica simples [eGFR] e o poderoso LLM [GPT-4], a tomada de decisão humana e os valores humanos desempenham um papel indispensável na definição dos resultados dos modelos. Será que esses modelos de IA conseguem captar os diversos valores dos pacientes e médicos? Como orientar publicamente a aplicação da IA na medicina? Como mencionado abaixo, uma reavaliação da análise de decisões médicas pode fornecer uma solução fundamentada para essas questões.
A análise de decisão médica não é familiar para muitos médicos, mas permite distinguir entre raciocínio probabilístico (para resultados incertos relacionados à tomada de decisão, como a administração ou não de hormônio do crescimento humano no controverso cenário clínico mostrado na Figura 1) e fatores de consideração (para valores subjetivos associados a esses resultados, cujo valor é quantificado como "utilidade", como o valor de um aumento de 2 cm na altura masculina), fornecendo soluções sistemáticas para decisões médicas complexas. Na análise de decisão, os médicos devem primeiro determinar todas as decisões e probabilidades possíveis associadas a cada resultado e, em seguida, incorporar a utilidade do paciente (ou de outra parte) associada a cada resultado para selecionar a opção mais apropriada. Portanto, a validade da análise de decisão depende da abrangência do cenário do resultado, bem como da precisão da mensuração da utilidade e da estimativa da probabilidade. Idealmente, essa abordagem ajuda a garantir que as decisões sejam baseadas em evidências e alinhadas às preferências do paciente, estreitando assim a lacuna entre dados objetivos e valores pessoais. Esse método foi introduzido na área médica há várias décadas e aplicado à tomada de decisão individual do paciente e à avaliação da saúde da população, como o fornecimento de recomendações para o rastreamento do câncer colorretal à população em geral.
Na análise de decisão médica, vários métodos foram desenvolvidos para obter utilidade. A maioria dos métodos tradicionais deriva valor diretamente de pacientes individuais. O método mais simples é usar uma escala de classificação, na qual os pacientes avaliam seu nível de preferência por um determinado resultado em uma escala digital (como uma escala linear variando de 1 a 10), com os resultados de saúde mais extremos (como saúde completa e morte) localizados em ambas as extremidades. O método de troca de tempo é outro método comumente usado. Nesse método, os pacientes precisam decidir quanto tempo saudável estão dispostos a gastar em troca de um período de saúde precária. O método de jogo padrão é outro método comumente usado para determinar a utilidade. Nesse método, os pacientes são questionados sobre qual das duas opções preferem: viver um certo número de anos com saúde normal com uma probabilidade específica (p) (t) e assumir o risco de morte com uma probabilidade 1-p; ou garantir que viverão por t anos em condições de saúde cruzadas. Pergunte aos pacientes várias vezes com diferentes valores de p até que eles não demonstrem preferência por nenhuma opção, para que a utilidade possa ser calculada com base nas respostas dos pacientes.
Além dos métodos utilizados para obter preferências individuais dos pacientes, também foram desenvolvidos métodos para obter utilidade para a população de pacientes. Discussões em grupo focal (reunindo pacientes para discutir experiências específicas) podem ajudar a compreender suas perspectivas. Para agregar efetivamente a utilidade do grupo, diversas técnicas de discussão em grupo estruturadas foram propostas.
Na prática, a introdução direta da utilidade no processo de diagnóstico e tratamento clínico consome muito tempo. Como solução, questionários de pesquisa são geralmente distribuídos a populações selecionadas aleatoriamente para obter pontuações de utilidade em nível populacional. Alguns exemplos incluem o questionário EuroQol de 5 dimensões, a versão abreviada de 6 dimensões do peso da utilidade, o Índice de Utilidade em Saúde e o Questionário de Qualidade de Vida Core 30 da Organização Europeia de Pesquisa e Tratamento do Câncer (European Cancer Research and Treatment Organization).
Horário da postagem: 01/06/2024




