Artigo

DEFINIÇÃO DE RELAÇÕES SEMÂNTICAS DE CONCEITOS CLÍNICOS

GEBELUCA, Caroline Pilatti1; SILVA, Adalniza Moura Pucca Da3; OLIVEIRA, Lucas Emanuel Silva E3; ANDRADE, Gabriel Herman Bernardim3; MÉDICA, Ana Carolina Peters -3; BARRA, Claudia Maria Cabral Moro2;

Resumo

Introdução:O prontuário eletrônico do paciente (PEP) é o conjunto de informações do paciente, as quais, quando armazenadas em texto livre, são chamadas de narrativas clínicas. Por serem textos livres, podem ser extraídas de maneira automatizada por meio de técnicas de Processamento de Linguagem Natural (PLN), utilizando como base terminologias clínicas. Os algoritmos de PLN se baseiam na morfologia, sintaxe e semântica das palavras e frases e necessitam de um corpus anotado como modelo. Atualmente, não existem corporas clínicos anotados em língua portuguesa, dificultando a utilização de métodos de PLN em textos clínicos em português.

Objetivo:Definir relações semânticas de conceitos clínicos em narrativas clínicas.

Metodologia:Primeiramente, foi realizada a revisão bibliográfica em busca de trabalhos sobre anotação semântica de narrativas clínicas através de PLN, uso de terminologias clínicas no mapeamento de conceitos clínicos, com foco nas terminologias Unified Medical Language System (UMLS) e SNOMED CT. Após a revisão bibliográfica, 389 narrativas clínicas foram selecionadas aleatoriamente, a partir de uma base de dados com 564.966 narrativas de quatro hospitais, contendo diferentes tipos de narrativas e múltiplas especialidades. Em seguida, das 389 narrativas, 20 narrativas foram selecionadas e mapeadas manualmente, a partir da UMLS e SNOMED CT, para definir a terminologia a ser utilizada para a anotação. A terminologia escolhida foi a UMLS, pois está disponível em língua portuguesa e trata melhor as variações, contextos e ambiguidades de conceitos clínicos. As ferramentas de anotação semântica disponíveis foram avaliadas e decidiu-se por construir uma ferramenta de anotação semântica semiautomática própria, baseada na UMLS, a qual atendesse as particularidades do mapeamento proposto. Dois anotadores anotaram com a ferramenta de anotação, 389 narrativas, as quais foram adjudicadas por um adjudicador. O anotador seleciona a narrativa, o assistente de anotação sugere ao anotador conceitos clínicos automaticamente encontrados pela ferramenta, os quais são avaliados pelo anotador se foram corretamente mapeados. Após isso, o anotador inicia a anotação manual dos conceitos clínicos não mapeados automaticamente, mapeando-os com os tipos semânticos e tipos de relações da UMLS. Finalizada a anotação, a narrativa clínica se torna disponível para a adjudicação. A padronização das anotações é essencial para a criação de um corpus consistente. Assim, foi desenvolvido um guideline com as diretrizes de como o processo de anotação deve ser realizado. O guideline foi construído de maneira interativa e é atualizado periodicamente.

Resultados:Escolha da UMLS como base terminológica para o processo de anotação. Com a ferramenta de anotação semântica semiautomática desenvolvida, foram anotados 64.412 tokens contidos em 389 narrativas clínicas. Um guideline com diretrizes para o mapeamento foi construído e é periodicamente atualizado, a fim de permitir a criação de um corpus clínico consistente.

Conclusões:O processo de anotação de narrativas clínicas por meio de técnicas de PNL é complexo e multidisciplinar. Porém, a anotação semântica de narrativas, utilizando uma ferramenta semiautomática, permite o mapeamento das narrativas clínicas e possibilita a construção de um corpus clínico anotado em língua portuguesa.

Palavras-chave:Anotação semântica. Narrativas clínicas. Processamento de linguagem natural.

Legendas

    1. Estudante
    2. Orientador
    3. Colaborador