-
Notifications
You must be signed in to change notification settings - Fork 0
/
index.qmd
189 lines (178 loc) · 5.94 KB
/
index.qmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
---
title: "Limpeza de dados para projeto de transtorno bipolar latente"
date: 2023-08-24
theme: journal
code-block-border-left: true
highlight-style: github
author:
- name: Bruno Braga Montezano
id: bm
orcid: 0000-0002-4627-1776
roles: [software, methodology, writing, formal analysis, data curation]
email: [email protected]
affiliation:
- name: Universidade Federal do Rio Grande do Sul
city: Porto Alegre
state: RS
url: https://www.ufrgs.br/ppgpsiquiatria/
- name: Taiane de Azevedo Cardoso
id: tc
orcid: 0000-0003-1925-8709
roles: [supervision, investigation, data curation, conceptualization]
abstract: >
O presente documento descreve os passos de limpeza e processamento dos dados
para o projeto de transtorno bipolar latente.
keywords:
- Bipolar Disorder
- Data Cleaning
license:
text: >
Este programa é um software livre: você pode redistribuí-lo e/ou
modificá-lo sob os termos da Licença Pública Geral GNU, conforme
publicado pela Free Software Foundation, seja a versão 3 da Licença
ou (a seu critério) qualquer versão posterior.
Este programa é distribuído na esperança de que seja útil,
mas SEM QUALQUER GARANTIA; sem a garantia implícita de
COMERCIALIZAÇÃO OU ADEQUAÇÃO A UM DETERMINADO PROPÓSITO. Veja a
Licença Pública Geral GNU para obter mais detalhes.
Você deve ter recebido uma cópia da Licença Pública Geral GNU
junto com este programa. Se não, veja <https://www.gnu.org/licenses/>.
type: open-access
url: http://licencas.softwarelivre.org/gpl-3.0.pt-br.html
copyright:
holder: Bruno Braga Montezano
year: 2023
funding: "The author received no specific funding for this work."
lang: pt-br
format: html
---
# Importação, limpeza e exportação dos dados
Os dados foram importados a partir de um arquivo chamado `coorte-t1-t2-24-08-17.sav`
na pasta `data` na raíz do projeto do RStudio. A função `read_sav` do pacote `haven`
foi utilizada para carregar os dados brutos. Na sequência, os nomes das variáveis
foram limpos através da função `clean_names` do pacote `janitor`.
As observações do *dataset* foram filtradas para manter apenas os sujeitos que
foram reavaliados na segunda onda do estudo, e também não apresentaram histórico
de mania ou hipomania na primeira avaliação, levando em conta que o objetivo do
estudo é explorar os casos incidentes de transtorno bipolar. Isso se dá por uma
limitação na coleta de dados da primeira onda. Os participantes não eram perguntados
sobre história de depressão na vida caso não fechassem critérios para episódio
depressivo atual na entrevista diagnóstica.
Após, as variáveis de interesse para o estudo juntamente com o desfecho foram
selecionadas por meio da função `select` do pacote `dplyr`. A variável `rec`
trata-se do identificador de cada uma das observações.
Os itens da CTQ foram transformados em numérico pois estavam originalmente em
formato de caractere (*string*). O processo foi realizado com a função `as.numeric`,
aplicada através da função `mutate` do pacote `dplyr` em conjunto com a função
`across` para iterar por cada item do instrumento.
Ao final os dados foram exportados em formato `.sav` do SPSS para facilitar o
acesso aos rótulos tanto das variáveis quanto de suas categorias.
```{r limpar-dados}
dados_raw <- haven::read_sav("data/coorte-t1-t2-24-08-17.sav")
dados_limpos <- dados_raw |>
janitor::clean_names() |>
dplyr::filter(perdas == 1 &
hipo_t1 == 0 & mania_t1 == 0) |>
dplyr::select(
rec,
# Identificador de cada participante
bipolar_conferido,
# Diagnóstico de transtorno bipolar no tempo 2 - desfecho
sexo_t1,
# Sexo
cpele_t1,
# Cor da pele
abep3_t1,
# Nível socioeconômico (ABEP)
escol_t1,
# Escolaridade
trabatu_t1,
# Trabalha atualmente
estano_t1,
# Estuda no ano de avaliação
cinto_t1,
# Usa cinto
capecet_t1,
# Capacete
siverm_t1,
# Sinal vermelho
dirigibb_t1,
# Dirigir bêbado
acidente_t1,
# Acidente
agress_t1,
# Agressão
afogof_t1,
# Familiar com arma de fogo
abranca_t1,
# Arma branca
afogo_t1,
# Arma de fogo
dplyr::matches("^srq\\d{1,2}_t1$"),
# Itens da SRQ
cons_t1,
# Já consultou
hospner_t1,
# Hospitalizado por nervos
medic_t1,
# Medicação
smae_t1,
# Mãe sofreu de nervos
spai_t1,
# Pai sofreu de nervos
savo_t1,
# Avós sofreram de nervos
sirmao_t1,
# Irmãos sofreram de nervos
sfilho_t1,
# Filhos sofreram de nervos
dplyr::matches("^bsi[1-5]_t1$"),
# Itens de 1 a 5 da BSI
dplyr::matches("^hcl[2-3].*_t1$"),
# Item 2 e itens da parte 3 da HCL-32
dplyr::matches("^bdi.*$"),
# Itens da BDI
dplyr::matches("^qlusou[c-j]1*_t1$"),
# Uso ao longo da vida de substâncias ilícitas
tabaco2_t1,
# Sugestivo de abuso/dependência de tabaco
alcool_t1,
# Sugestivo de abuso/dependência de álcool
forcsex_t1,
# Sexo forçado
dplyr::matches("^ctq.*$"),
# Itens da CTQ
edmat_t1,
# Episódio depressivo atual - baseline
rsat_t1,
# Risco de suicídio - baseline
agoraat_t1,
# Agorafobia - baseline
pansfo_t1,
# Pânico sem fobia - baseline
pancfo_t1,
# Pânico com fobia - baseline
agospan_t1,
# Agorafobia sem pânico - baseline
fobsoa_t1,
# Fobia social - baseline
tocat_t1,
# TOC - baseline
tagat_t1,
# TAG - baseline
teptat_t1 # TEPT - baseline
) |>
dplyr::mutate(
dplyr::across(dplyr::matches("^ctq.*$"),
\(x) as.numeric(x))
)
# Os dados foram exportados em formato sav para manter os labels originais
# das variáveis e dos valores de cada categoria
dados_limpos |>
haven::write_sav("data/latent_bipolar_data_2023_08_24.sav")
```
# Como ficaram os dados após os filtros?
```{r mostrar-dados}
dados_limpos |>
dplyr::glimpse()
```