Metodologia
O BrTxGNN utiliza o modelo TxGNN de Harvard combinado com dados regulatórios brasileiros (ANVISA) para prever novas indicações terapêuticas.
Visão Geral do Pipeline
ANVISA → DrugBank → TxGNN → Evidências → Relatórios
1. Coleta de Dados ANVISA
Coletamos dados de medicamentos registrados na ANVISA:
| Campo | Descrição |
|---|---|
| NUMERO_REGISTRO_PRODUTO | Número de registro |
| NOME_PRODUTO | Nome comercial |
| PRINCIPIO_ATIVO | Ingrediente ativo |
| CLASSE_TERAPEUTICA | Classe terapêutica |
| SITUACAO_REGISTRO | Status (Ativo/Inativo) |
2. Mapeamento DrugBank
Mapeamos os princípios ativos da ANVISA para identificadores do DrugBank:
- Normalização - Padronização de nomes de ingredientes
- Matching - Correspondência com vocabulário DrugBank
- Validação - Verificação de correspondências
3. Previsão TxGNN
O modelo TxGNN utiliza:
- Grafo de Conhecimento: 17.080 entidades biomédicas
- Tipos de Nós: Medicamentos, doenças, genes, proteínas
- Tipos de Arestas: Interações, indicações, efeitos adversos
"TxGNN é um modelo de rede neural de grafos que aprende representações de medicamentos e doenças a partir de um grafo de conhecimento biomédico, permitindo prever novas associações terapêuticas." — Huang et al., Nature Medicine (2023)
4. Coleta de Evidências
Para cada previsão, coletamos evidências de:
| Fonte | API/Método | Dados |
|---|---|---|
| ClinicalTrials.gov | REST API v2 | Ensaios clínicos |
| PubMed | Entrez E-utilities | Literatura científica |
| ANVISA | Dados abertos | Status regulatório |
| DrugBank | Vocabulário | Informações farmacológicas |
5. Classificação de Evidências
Classificamos em 5 níveis:
| Nível | Critérios |
|---|---|
| L1 | ≥2 ensaios Fase 3/4 |
| L2 | ≥1 ensaio Fase 3/4 ou ≥2 ensaios Fase 2 |
| L3 | ≥1 ensaio clínico |
| L4 | ≥1 artigo científico |
| L5 | Apenas previsão TxGNN |
Modelo TxGNN
Arquitetura
O TxGNN é composto por:
- Encoder de Grafo - Aprende representações de nós
- Decoder de Links - Prevê novas arestas
- Módulo de Confiança - Estima incerteza
Treinamento
- Dados: Grafo de conhecimento biomédico
- Tarefa: Predição de links
- Validação: Hold-out temporal
Métricas de Desempenho
O modelo original reporta:
| Métrica | Valor |
|---|---|
| AUROC | 0.91 |
| AUPRC | 0.85 |
Validação
Validação Interna
- Cross-validation - Divisão temporal dos dados
- Backtesting - Previsão de indicações conhecidas
Validação Externa
- ClinicalTrials.gov - Verificação de ensaios em andamento
- PubMed - Revisão de literatura
- Aprovações regulatórias - Novas indicações aprovadas
Limitações
Limitações Importantes
- O modelo foi treinado com dados internacionais, não específicos para o Brasil
- Previsões não consideram aspectos farmacoeconômicos locais
- Dados da ANVISA podem ter atrasos em relação a aprovações recentes
- Não substitui validação clínica rigorosa
Referências
-
Huang, K., et al. (2023). A foundation model for clinician-centered drug repurposing. Nature Medicine. DOI: 10.1038/s41591-023-02233-x
-
ANVISA. Dados Abertos de Medicamentos. dados.anvisa.gov.br
-
Wishart, D.S., et al. (2018). DrugBank 5.0. Nucleic Acids Research.