Conheça o modelo computacional cearense que rastreia sintomas da COVID-19

A pandemia de Covid-19 exigiu dos governos medidas eficientes e aceleradas para o enfrentamento da doença. Nesse contexto, a Ciência de Dados trouxe contribuições fundamentais no entendimento do comportamento do vírus e nas tomadas de decisões de combate.

Uma das soluções desenvolvidas e disponibilizadas para a população no Estado do Ceará foi o Plantão Coronavírus, uma plataforma com mecanismos de triagem que, no primeiro momento, utiliza um chatbot para interagir com o paciente a fim de classificar seu estado de saúde em uma das três categorias: verde, amarelo e vermelho, sendo o nível de criticidade da saúde do paciente leve, moderada ou grave, respectivamente.

 

Trecho da conversa entre paciente e o chatbot

Trecho da conversa entre o paciente e o chatbot

 

As interações entre os pacientes e os profissionais de saúde por meio do Plantão Coronavírus geraram muitos dados que precisavam ser minerados, analisados e transformados em informação de valor.

Com esse objetivo, pesquisadores do Insight Lab e do Laboratório Íris desenvolveram o Sintomatic, um modelo computacional criado para auxiliar a Secretaria da Saúde do Ceará no acompanhamento dos pacientes que buscavam algum tipo de serviço de saúde. Além disso, ele contribuiu na descoberta de novos sintomas presentes em vítimas do coronavírus, sejam estes mais frequentes ou raros, e na identificação de comportamentos psicológicos alterados, como ansiedade, angústia e tristeza em pacientes positivos ou não para COVID19.

Conheça neste artigo a metodologia usada pelos pesquisadores para desenvolver esse modelo computacional.

 

Sintomatic

No serviço de Tele Atendimento gratuito oferecido pelo Governo do Ceará, o paciente inicialmente trocava mensagens com um robô. A partir daí, era triado de acordo com seus sintomas e, posteriormente, encaminhado para uma consulta com um profissional de saúde.

Todo o ciclo de integração com o paciente registrado por meio de textos é passado ao modelo Sintomatic para que este possa detectar sintomas em todas as etapas do atendimento.

No projeto, foi mapeada a identificação de sintomas em texto como um problema de reconhecimento de entidade (em inglês, Named Entity Recognition – NER). NER corresponde à capacidade de identificar as entidades nomeadas nos documentos e rotulá-las em classes definidas de acordo com o tipo de entidade. De forma geral, o robô de captura de sintomas possui uma rede neural que é capaz de reconhecer entidades. Neste caso, uma entidade é um sintoma.

O Sintomatic é uma rede neural que processa textos em Linguagem Natural, capaz de identificar sintomas a partir de mensagens trocadas entre o chatbot e o paciente. Por meio desse processo, o modelo reconhece novos padrões da doença anteriormente inexistentes ou despercebidos, proporcionando grandes ganhos no entendimento da doença.

Aprendizado por transferência (Transfer Learning) 

A detecção de sintomas no idioma português foi um desafio, pois, até o momento, não havia de forma pública nenhum modelo capaz de realizar essa tarefa, de acordo com o conhecimento dos cientistas envolvidos. O robô desenvolvido foi treinado através de um processo de aprendizado conhecido como Transfer Learning, ou em português, aprendizado por transferência.

A técnica de aprendizagem por transferência utiliza o conhecimento adquirido ao resolver um problema e aplicá-lo em outro problema diferente, porém relacionado, permitindo progresso rápido e desempenho aprimorado ao modelar a segunda tarefa. Em outras palavras, a transferência de aprendizado é a melhoria do aprendizado em uma nova tarefa através da transferência de conhecimento de uma tarefa relacionada que já foi aprendida.

A inovação tecnológica promovida pelo Sintomatic é um modelo neural pioneiro no reconhecimento de sintomas em português, principalmente porque a língua portuguesa carece de modelos NER.

 

Etapas de treinamento

Para treinar o Sintomatic foi utilizado o scispaCy, um pacote Python que contém modelos de spaCy para processar textos biomédicos, científicos ou clínicos.

Em particular, há um tokenizador personalizado que adiciona regras de tokenização baseando-se em regras do spaCy, um etiquetador POS e analisador sintático treinado em dados biomédicos e um modelo de detecção de extensão de entidade. Separadamente, também existem modelos NER para tarefas mais específicas.

Para este trabalho, o modelo utilizado foi o en ner bc5cdr md do SciSpacy, em um processo de transfer learning para treinar um novo modelo de reconhecimento e captura de sintomas em português.

A primeira etapa do processo de treino do rastreador foi traduzir os textos que inicialmente estavam em língua portuguesa para o idioma inglês. Em seguida, inserir como parâmetro de entrada cada texto (em inglês) ao modelo do scispacy, analisar o resultado gerado por este modelo e, logo após, traduzir os sintomas capturados pelo modelo do scispacy em inglês para português.

O conjunto de treinamento para o Sintomatic (novo modelo em português), é composto do texto original e os sintomas capturados pelo modelo do scispacy em português. Esse processo foi executado de forma contínua até que a função de erro da rede se estabilizasse.

Ao final, foi possível atingir para o Sintomatic, F1-score de 85.66, o que é competitivo se comparado ao modelo em inglês, que tem F1-score igual a 85.02.

Etapas do processo:

Etapas do processo

Fluxo dos dados

 

Nas etapas de translação dos textos foi utilizada a rede de tradução do Google. Atualmente, essas redes de tradução apresentam resultados muito fiéis ao esperado, tornando os ruídos insignificantes quando analisados no contexto deste trabalho.

Um diferencial do Sintomatic é a não necessidade de classificação manual realizada por um humano para reconhecimento de entidades. Em um cenário onde havia vasta quantidade de dados e pouco tempo para processar essas informações, o ganho com a otimização dessa etapa de treino foi crucial no apoio à tomada de decisão.


Boletim Digital

Para o acompanhamento dos dados capturados pelo robô Sintomatic e monitoramento das demais informações sobre a pandemia, foi desenvolvido o Boletim Digital COVID-19 do Ceará. Essa é uma solução tecnológica construída por cientistas de dados onde é feito todo o processo de mineração do dado bruto até sua exposição em painéis gráficos acompanhados de textos explicativos a respeito de cada uma das análises abaixo:

  • número de pacientes atendidos;
  • sintomas mais frequentes e raros;
  • evolução dos sintomas por semana epidemiológica;
  • sintomas ao longo do tempo.

Veja no vídeoabaixo uma demonstração do funcionamento do Sintomatic:

 

Atualmente, o Sintomatic é utilizado na plataforma de Tele Atendimento do Estado do Ceará, onde desempenha papel pioneiro na área da saúde.


Fonte: Rastreador de sintomas da COVID19

 

 

 

Autores

Gestora Negocial do Insight Lab