Metodologia

O BrTxGNN utiliza o modelo TxGNN de Harvard combinado com dados regulatórios brasileiros (ANVISA) para prever novas indicações terapêuticas.

Visão Geral do Pipeline

ANVISA → DrugBank → TxGNN → Evidências → Relatórios

1. Coleta de Dados ANVISA

Coletamos dados de medicamentos registrados na ANVISA:

Campo	Descrição
NUMERO_REGISTRO_PRODUTO	Número de registro
NOME_PRODUTO	Nome comercial
PRINCIPIO_ATIVO	Ingrediente ativo
CLASSE_TERAPEUTICA	Classe terapêutica
SITUACAO_REGISTRO	Status (Ativo/Inativo)

2. Mapeamento DrugBank

Mapeamos os princípios ativos da ANVISA para identificadores do DrugBank:

Normalização - Padronização de nomes de ingredientes
Matching - Correspondência com vocabulário DrugBank
Validação - Verificação de correspondências

3. Previsão TxGNN

O modelo TxGNN utiliza:

Grafo de Conhecimento: 17.080 entidades biomédicas
Tipos de Nós: Medicamentos, doenças, genes, proteínas
Tipos de Arestas: Interações, indicações, efeitos adversos

"TxGNN é um modelo de rede neural de grafos que aprende representações de medicamentos e doenças a partir de um grafo de conhecimento biomédico, permitindo prever novas associações terapêuticas." — Huang et al., Nature Medicine (2023)

4. Coleta de Evidências

Para cada previsão, coletamos evidências de:

Fonte	API/Método	Dados
ClinicalTrials.gov	REST API v2	Ensaios clínicos
PubMed	Entrez E-utilities	Literatura científica
ANVISA	Dados abertos	Status regulatório
DrugBank	Vocabulário	Informações farmacológicas

5. Classificação de Evidências

Classificamos em 5 níveis:

Nível	Critérios
L1	≥2 ensaios Fase 3/4
L2	≥1 ensaio Fase 3/4 ou ≥2 ensaios Fase 2
L3	≥1 ensaio clínico
L4	≥1 artigo científico
L5	Apenas previsão TxGNN

Modelo TxGNN

Arquitetura

O TxGNN é composto por:

Encoder de Grafo - Aprende representações de nós
Decoder de Links - Prevê novas arestas
Módulo de Confiança - Estima incerteza

Treinamento

Dados: Grafo de conhecimento biomédico
Tarefa: Predição de links
Validação: Hold-out temporal

Métricas de Desempenho

O modelo original reporta:

Métrica	Valor
AUROC	0.91
AUPRC	0.85

Validação

Validação Interna

Cross-validation - Divisão temporal dos dados
Backtesting - Previsão de indicações conhecidas

Validação Externa

ClinicalTrials.gov - Verificação de ensaios em andamento
PubMed - Revisão de literatura
Aprovações regulatórias - Novas indicações aprovadas

Limitações

Limitações Importantes

O modelo foi treinado com dados internacionais, não específicos para o Brasil
Previsões não consideram aspectos farmacoeconômicos locais
Dados da ANVISA podem ter atrasos em relação a aprovações recentes
Não substitui validação clínica rigorosa

Referências

Huang, K., et al. (2023). A foundation model for clinician-centered drug repurposing. Nature Medicine. DOI: 10.1038/s41591-023-02233-x
ANVISA. Dados Abertos de Medicamentos. dados.anvisa.gov.br
Wishart, D.S., et al. (2018). DrugBank 5.0. Nucleic Acids Research.