Ciência

Sono e Saúde desvandados com AI

Sono e Saúde desvendados com AI

Por Google Research

Nossa pesquisa apresenta um novo modelo de linguagem ampla que visa compreender e raciocinar sobre questões e dados pessoais de saúde. Para avaliar sistematicamente nosso modelo, selecionamos um conjunto de três conjuntos de dados de referência que testam o conhecimento do domínio especializado, o alinhamento com os resultados relatados pelos pacientes e a capacidade de produzir recomendações de qualidade humana.

Dispositivos móveis e vestíveis podem fornecer dados contínuos, granulares e longitudinais sobre o estado fisiológico e os comportamentos de um indivíduo. Os exemplos incluem contagens de passos, medições brutas de sensores, como variabilidade da frequência cardíaca, duração do sono e muito mais. Os indivíduos podem usar esses dados para monitoramento de saúde pessoal, bem como para motivar comportamentos saudáveis. Isto representa uma área interessante na qual modelos generativos de IA podem ser usados ​​para fornecer insights e recomendações personalizadas adicionais a um indivíduo para ajudá-lo a alcançar seus objetivos de saúde. Para fazer isso, no entanto, os modelos devem ser capazes de raciocinar sobre dados pessoais de saúde que compreendem séries temporais complexas e informações esporádicas (como registros de exercícios), contextualizar esses dados usando conhecimentos relevantes do domínio da saúde pessoal e produzir interpretações e recomendações personalizadas baseadas na saúde de um indivíduo. contexto.

Considere uma pergunta comum sobre saúde: “Como posso dormir melhor?” Embora seja uma pergunta aparentemente simples, chegar a uma resposta personalizada para o indivíduo envolve a execução de uma série de etapas analíticas complexas, tais como: verificar a disponibilidade de dados, calcular a duração média do sono, identificar anomalias no padrão de sono durante um período de tempo, contextualizar essas descobertas dentro da saúde mais ampla do indivíduo, integrando o conhecimento das normas de sono da população e oferecendo recomendações personalizadas para melhorar o sono. Recentemente, mostramos como o desenvolvimento das capacidades avançadas dos modelos Gemini em multimodalidade e raciocínio de longo contexto poderia permitir um desempenho de última geração em um conjunto diversificado de tarefas médicas . No entanto, tais tarefas raramente utilizam dados complexos provenientes de dispositivos móveis e vestíveis, relevantes para a monitorização da saúde pessoal.

Com base nas capacidades de próxima geração dos modelos Gemini, apresentamos pesquisas que destacam duas abordagens complementares para fornecer informações pessoais precisas sobre saúde e bem-estar com LLMs. O primeiro artigo, “ Towards a Personal Health Large Language Model ”, demonstra que os LLMs ajustados à análise de especialistas e aos resultados auto-relatados são capazes de contextualizar com sucesso dados fisiológicos para tarefas de saúde pessoal. O segundo artigo, “ Transforming Wearable Data into Personal Health Insights Using Large Language Model Agents ”, enfatiza o valor da geração de código e fluxos de trabalho baseados em agentes para analisar com precisão dados de saúde comportamental por meio de consultas em linguagem natural. Acreditamos que reunir estas ideias, para permitir a computação interativa e o raciocínio fundamentado sobre dados pessoais de saúde, será um componente crítico para o desenvolvimento de assistentes de saúde verdadeiramente personalizados. Com estes dois artigos, selecionamos novos conjuntos de dados de referência para uma série de tarefas de saúde pessoal, que ajudam a avaliar a eficácia destes modelos.

Rumo a um grande modelo de linguagem de saúde pessoal

Personal Health Large Language Model (PH-LLM) é uma versão aprimorada do Gemini, projetada para gerar insights e recomendações para melhorar os comportamentos de saúde pessoal relacionados aos padrões de sono e condicionamento físico. Ao usar um codificador multimodal, o PH-LLM é otimizado para compreensão e raciocínio textual, bem como para interpretação de dados brutos de sensores de série temporal, como variabilidade da frequência cardíaca e frequência respiratória de wearables.

Para avaliar sistematicamente o PH-LLM, criamos e selecionamos um conjunto de três conjuntos de dados de referência que testam:

  1. A capacidade do modelo de produzir insights e recomendações detalhadas para indivíduos com base em seus padrões de sono medidos, atividade física e respostas fisiológicas.
  2. Conhecimento de domínio de nível especializado.
  3. Predição de avaliações autorrelatadas da qualidade do sono.
PHLLM1-HeroOvrview

Para avaliar o PH-LLM, selecionamos três conjuntos de dados de referência que abrangem tarefas de recomendação de coaching de longo prazo, avaliações de conhecimento de domínio especializado e previsão de resultados de sono autorrelatados.

Para as tarefas de insights e recomendações, criamos 857 estudos de caso de usuários com consentimento baseados nos EUA em dois setores de saúde pessoal: sono e condicionamento físico. Esses estudos de caso, elaborados em colaboração com especialistas na área, representam cenários de coaching do mundo real e destacam as capacidades do modelo em compreensão, raciocínio e coaching, interpretando dados fisiológicos de séries temporais usando representações textuais. Através da avaliação abrangente das respostas do modelo, observamos que o desempenho do Gemini Ultra 1.0 e do PH-LLM não é estatisticamente diferente do desempenho de especialistas em fitness. Embora as recomendações escritas por especialistas sejam classificadas como mais altas para o sono, o desempenho é próximo, e o ajuste fino do PH-LLM melhora significativamente sua capacidade de usar conhecimento de domínio relevante e personalizar informações ao gerar insights e prever possíveis fatores causais.

Barra PHLLM2

Com base em avaliações de especialistas humanos, o ajuste fino do PH-LLM melhora a sua capacidade de gerar insights precisos e potenciais fatores causais no sono. Apresentamos aqui a classificação média dos especialistas (quanto maior, melhor) nas rubricas de avaliação para cada subseção do estudo de caso. O desempenho no condicionamento físico não é estatisticamente diferente do dos especialistas humanos. “∗” indica uma diferença estatisticamente significativa entre dois tipos de resposta após correção de múltiplos testes de hipóteses.

Para avaliar ainda mais o conhecimento do domínio especializado, avaliamos o desempenho do PH-LLM em conjuntos de dados de questões de múltipla escolha no estilo de medicina do sono e exames de certificação de condicionamento físico por meio de testadores manuais usando portais on-line. O PH-LLM alcançou 79% em sono ( N = 629 questões) e 88% em condicionamento físico ( N = 99 questões), ambos excedendo as pontuações médias de uma amostra de especialistas humanos (76% e 71%, respectivamente), bem como referências para receber créditos de educação continuada para manter licenças profissionais nesses domínios.

Tabela PHLLM3

AMA = Associação Médica Americana, PRA = Prêmio de Reconhecimento do Médico, ABIM = Conselho Americano de Medicina Interna, MOC = Manutenção da Certificação, CME = Educação Médica Continuada, NSCA = Associação Nacional de Força e Condicionamento, CSCS = Especialistas Certificados em Força e Condicionamento.

Finalmente, para permitir que o PH-LLM preveja avaliações autorrelatadas da qualidade do sono, treinamos o modelo em respostas a perguntas de pesquisa validadas sobre perturbações e comprometimento do sono usando representações de codificação textual e multimodal de dados de sensores vestíveis . Mostrado abaixo, demonstramos que a codificação multimodal é necessária e suficiente para alcançar um desempenho equivalente aos modelos discriminativos treinados exclusivamente para prever esses resultados.

PHLLM4-AUROC

Desempenho preditivo do AUROC de variantes do modelo PH-LLM em resultados de sono autorrelatados. A codificação de dados de sensores multimodais com um adaptador supera representações de texto equivalentes para solicitações de zero e poucos disparos para 12 de 16 resultados (denotados com “*”) com significância estatística.

Juntos, esses resultados demonstram o benefício de ajustar o PH-LLM para contextualizar dados fisiológicos para aplicações de saúde pessoal.

Transformando dados vestíveis em insights pessoais de saúde

Os LLMs podem ser aumentados com ferramentas de software para ampliar suas capacidades, exemplos dos quais incluem geração de código e recuperação de informações . A capacidade dos agentes baseados em LLM de raciocinar iterativamente e interagir com ferramentas oferece uma maneira promissora de estender suas habilidades de raciocínio a dados complexos e temporais vestíveis. Em nosso segundo artigo , apresentamos uma estrutura para um agente de insights de saúde pessoal baseado no Gemini Ultra 1.0. O agente aproveita o poder dos modelos Gemini junto com uma estrutura de agente , recursos de geração de código e ferramentas de recuperação de informações para analisar iterativamente dados brutos de wearables e fornecer interpretações e recomendações personalizadas para consultas de saúde. Esta combinação permite ao agente:

  1. Analise dados de dispositivos vestíveis : o agente emprega um interpretador Python para analisar dados multidimensionais de séries temporais de dispositivos vestíveis, realizando cálculos complexos e identificando tendências.
  2. Integrar conhecimentos adicionais de saúde : o agente acessa uma base de conhecimento por meio de um mecanismo de busca, incorporando informações médicas e de saúde atualizadas em suas respostas.
  3. Forneça insights personalizados : o agente conduz um raciocínio iterativo em várias etapas por meio de dados individuais, conhecimento médico e consultas específicas do usuário, gerando insights e recomendações personalizadas.

Um exemplo que mostra como o agente raciocina passo a passo uma consulta pessoal de saúde. Isto é apenas para fins ilustrativos.

Para avaliar as capacidades do agente, selecionamos dois conjuntos de dados: um para testar a precisão numérica do agente em consultas de saúde e outro para avaliar a qualidade de seu raciocínio e código em consultas de saúde abertas por meio de anotações humanas.

No primeiro conjunto de dados, Objective Health Insights Queries, o agente alcançou 84% de precisão em um conjunto de dados de 4.000 consultas objetivas de insights de saúde pessoal, demonstrando sua capacidade de lidar com raciocínio numérico e análise de dados.

Barra PHLLM6

Nosso agente tem pontuação melhor do que as linhas de base de geração de código e raciocínio numérico padrão do LLM em consultas objetivas de insights de saúde pessoal. A precisão é baseada em uma correspondência exata com até dois dígitos de precisão.

No segundo conjunto de dados, Open-Ended Health Insights Queries, avaliamos o desempenho do agente em 172 consultas representativas de saúde pessoal abertas em mais de 600 horas de avaliação humana de mais de 6.000 respostas de modelo. No geral, o agente melhorou significativamente o desempenho em relação a uma linha de base de geração de código sem agente em nove dos 14 eixos de avaliação, incluindo aspectos-chave como conhecimento de domínio, lógica e qualidade de raciocínio.

Resultados PHLLM7

Nossas avaliações humanas e especializadas mostram que nosso agente supera a linha de base de geração de código, indicando a importância do raciocínio iterativo e do uso de ferramentas. “∗” indica uma diferença estatisticamente significativa entre as classificações médias.

Embora o agente se concentre em dados de sono e condicionamento físico, sua estrutura pode ser estendida para analisar uma gama mais ampla de informações de saúde, incluindo registros médicos, dados nutricionais e até mesmo entradas de diário fornecidas pelo usuário. À medida que os LLMs continuam a avançar, os agentes têm o potencial de se tornarem cada vez mais sofisticados e podem oferecer conhecimentos ainda mais profundos e orientações mais eficazes para a gestão da saúde pessoal.

Conclusão

Nossos principais objetivos são pesquisar recursos e capacidades que possam ajudar as pessoas a viver vidas mais longas e saudáveis. O sono e a boa forma física são componentes cruciais da saúde da população e são preditores de mortalidade prematura em todo o mundo . Os recursos possibilitados por nossa pesquisa em estudos de caso, conhecimento do domínio de saúde pessoal e consultas abertas sobre sono e condicionamento físico representam um passo significativo em direção a modelos de IA que suportam insights e recomendações personalizadas que permitem aos indivíduos tirar conclusões precisas e práticas sobre sua própria saúde. Esperamos testar cuidadosamente e compreender quais recursos são mais úteis para os usuários.

What’s your Reaction?
+1
0
+1
0
+1
0
+1
0
+1
0
+1
0
Posts relacionados
CiênciaUncategorized

10 Companhias Aéreas Americanas com melhor avaliação

Ciência

Pesquisadores pretendem usar computação quântica para montar e analisar pangenomas

ArteCiênciaCorporativoCuriosidadesGPTHurbLoon FactoryMachine LearningTecnologia

Quem é João Ricardo Mendes CEO do Hurb?

Ciência

A aviação poderá algum dia ser sustentável?