Procrustes analysis, multivariate regression, variable selection and outlier detection in compositional data for social vulnerability

Conteúdo do artigo principal

Paulo Meira e Silva de Oliveira

Resumo

Vulnerabilidade significa delicado e fraco tanto no comportamento das pessoas, como objetos, situações e ideias. Pessoas consideradas “vulneráveis sociais” são aquelas que perdem sua representatividade na sociedade e geralmente dependem de auxílios de terceiros para garantirem sobrevivência. Principais características que marcam essa vulnerabilidade são condições precárias de moradia, saneamento, meios de subsistência inexistentes e ausência de ambiente familiar. Entre os diferentes tipos destacam juvenil na área da saúde, marginalização, exclusão e territorial. Índice de Vulnerabilidade Social (IVS) é composto por indicadores de comprometimento de renda e sociais de dimensões como identificação, moradia, instrução, renda, pobreza, família, trabalho e outros bens. Seleção de variáveis é encontrar um subconjunto de variáveis que melhor explica um vetor resposta, sem que informações relevantes sejam perdidas. Análise de Procrustes é um método que visa determinar o quanto um subconjunto de variáveis que melhor representa a estrutura dos dados originais. Dados composicionais são descrições quantitativas das partes de um todo, que transmitem informações de forma relativa.  Componentes principais são combinações lineares de todas as variáveis originais, independentes entre si e estimados com o propósito de reter, em ordem de estimação, o máximo de informação pela explicação da variância total. Outliers univariados são observações que apresentam grande afastamento em relação aos demais. Outlier multivariado corresponde a casos que envolve duas ou mais variáveis. Neste trabalho utilizamos método de procrustes e outros métodos de regressão para seleção de variáveis formadas a partir de dados composicionais após detecção de outliers multivariados utilizando Distancia de Mahalanobis e abordagem comediana.

Detalhes do artigo

Como Citar
Oliveira, P. M. e S. de. (2025). Procrustes analysis, multivariate regression, variable selection and outlier detection in compositional data for social vulnerability. REVISTA BRASILEIRA DE BIOMETRIA, 43(1), e–43712. https://doi.org/10.28951/bjb.v43i1.712
Seção
Articles

Referências

Aitchison, J. The Statistical Analysis of Compositional Data. Chapman Hall, The Blackburn Press. 2011. https://doi.org/10.1111/j.2517-6161.1982.tb01195.x

Barbosa, J.J.; Pereira, T.M.; Oliveira, F..P. Uma proposta para identificação de outliers multivariados. Ciência e Natura vista em 17/04/2021 no link: https://www.repositorio.ufop.br/bitstream/123456789/11454/1/ARTIGO_PropostaIdentifica%c3%a7%c3%a3oOutliers.pdf. 2018.

BARNETT, V.; LEWIS, T. Outliers in statistical data. Wiley & Sons, New York. 1994.

Buccianti, A.; Mateu-Figueras, G.; Pawlowsky-Glahn, V. Compositional Data Analysis in the Geosciences from Theory to Practice. Geological Society Special 264. https://doi.org/10.1111/j.1467-985X.2007.00521_5.x

Bunch, J.R., Nielsen, C.P. AND SORENSEN, D.C. Rank one modification of the symmetric eigenproblem. Numerische Mathematik, 31, 31-48. 1978. https://doi.org/10.1007/BF01396012

Carmo, M. E.; Guizardi, F. L. O conceito de vulnerabilidade e seus sentidos para as políticas públicas de saúde e assistência social. Cadernos de Saúde Pública (3). ISSN 1678-4464. doi:10.1590/0102-311x00101417. Consultado em 27 de novembro de 2021

Costa, M. C. R. Qualidade de vida em adolescentes: Um estudo no terceiro ciclo do ensino básico. 2012. 377 f. Tese. Universidade de Salamanca, Salamanca, 2012. https://doi.org/10.1590/S0047-20852008000300009

Gower, C.J.; Dijksterhuis, G.B. Procrustes Problems. Oxford Statistical Series, 30. Oxford, England. 2004. http://dx.doi.org/10.1093/acprof:oso/9780198510581.001.0001

Ferreira, E.B. . Análise generalizada de procrustes via R: uma aplicação em laticínios. Dissertação de mestrado em Agronomia ULFA, Lavras-MG. 2004

Giroldo, F. R. S. Alguns métodos robustos para detectar outliers multivariados. Dissertação de Mestrado, IME-USP, São Paulo, São Paulo-SP. 2008.

Golub, G.H.; Reinsch, C. Singular value decomposition and least squares solutions. Numerische Mathematik, 14, 403-420. 1970. https://doi.org/10.1007/BF02163027

Jolliffe, I.J. Discarding variables in principal component analysis. I: artificial data. Applied Statistics, 21, 160-173. 1972. https://doi.org/10.2307/2346488

Jolliffe, I.J. Discarding variables in principal component analysis. II: real data. Applied Statistics, 22, 21-31. 1973. https://doi.org/10.2307/2346300

Kranowski, W.J. Selection of variables to preserve multivariate data structure, using principal components. Appl. Statist., 38:139—147, 1989. https://doi.org/10.2307/2347842

Krzanowski, W.J. A stopping rule for structure preserving variable selection. Statistics and Computing, 6, 51-56. 1996. https://doi.org/10.1007/BF00161573

Leite, C.C. Técnicas exploratórias na detecção de outliers em dados composicionais. Dissertação de Mestrado em Matemática e Aplicações. Universidade de Aveiro, Portugal. 2019.

MALTEZ, M.L.S. Novas abordagens na detecção de outliers em dados composicionais. Dissertação de Mestrado em Matemática e Aplicações. Universidade de Aveiro, Portugal. 2020.

Nunes, E. L. G.; Andrade, A. G. Adolescentes em situação de rua: prostituição, drogas e HIV/AIDS em Santo André, Brasil. Psicologia e Sociedade, Florianópolis, SC, v. 21, n. 1, p.45-54. jan./abr. 2009. https://doi.org/10.1590/S0102-71822009000100006

OLIVEIRA, P.T.M.S. Pessoas com deficiência: o que encontramos por trás da inclusão. In: XXI SINAPE, ABE, Natal-RN. 2014.

OLIVEIRA, P.T.M.S. Pessoas com deficiência: questão de risco sob aplicação de regressão logística politômica e sob visão epidemiológica. In: XV Escola de Modelos de Regressão, no período entre 2 a 5 de março de 2015. Centro de Convenções UNICAMP, Campinas-SP, Brasil, 2015.

Pessalacia, J. D. R.; Menezes, E. S.; Massuia, D. A vulnerabilidade do adolescente numa perspectiva das políticas de saúde pública. Revista Bioethikos, São Camilo, RJ. v. 4, n. 4, p. 423-430. out./dez. 2010.

PAWLOWSKY-GLAHN, V.; EGOZCUE, J. J.; TOLOSANA-DELGADO, R. Modeling and analysis of compositional data. John Wiley & Sons, USA. 2015. DOI:10.1002/9781119003144

Sibson, R. Studies in the robustness of multidimensional scaling. Journal of the Royal Statistical Society, B, 40, 234-238. 1978. https://doi.org/10.1111/j.2517-6161.1979.tb01076.x

Sajesh, T.A.; Srinivasan, M.R. An Overview of Multiple Outliers in Multidimensional Data. Sri Lankan Journal of Applied Statistics, 14:(2). 2013. http://dx.doi.org/10.4038/sljastats.v14i2.6214

Sousa, R.C.A. Análise estatística de dados composicionais. Dissertação de Mestrado em Matemática e Aplicações. Universidade de Aveiro, Portugal. 2016.

Van Den Boogaart, K.G.; Tolosana-Delgado, R. Analyzing Compositional data with R. Springer, Germany. 2013.