UMA PROPOSTA PARA ANÁLISE DE COMPONENTES PRINCIPAIS NA PRESENÇA DE VARIÁVEIS NÃO ALEATÓRIAS
Conteúdo do artigo principal
Resumo
Para análise exploratória dos componentes principais (CPs), não é exigida a pressuposição de normalidade multivariada das variáveis e, nem necessariamente, que elas sejam aleatórias. Isso significa que variáveis que não se comportam aleatoriamente também podem ser incluídas nessa análise. Desse modo, a fim de realizar a análise dos CPs com variáveis aleatórias ou não, foi proposta uma correção da matriz baseada nos coeficientes de variação (Campana et al., 2010) por meio da aplicação do método de Lenth (1989), cuja nova matriz foi denominada. Para verificar a sua viabilidade, foram simulados dez conjuntos de dados das variáveis aleatórias Y1, Y2, Y3 e Y4, com 10.000 valores cada e que seguiram distribuição normal multivariada. Após a simulação, foram substituídos 0%, 1%, 2%, 3% e 4% dos valores aleatórios de Y4 pelos mesmos e respectivos percentuais de outliers, com o objetivo de quebrar a aleatoriedade da mesma. Posteriormente, foram realizadas análises de superfícies de respostas para oito diferentes erros percentuais médios absolutos obtidos em relação a oito parâmetros relacionados ao desempenho da análise dos CPs, em função dos percentuais de substituição por outliers de Y4 (0, 1, 2, 3 e 4) e das matrizes utilizadas na análise dos CPs. De acordo com os resultados, concluiu-se que, na presença de apenas variáveis aleatórias normais, é a melhor matriz. Por outro lado, quando há a presença de outliers é a mais recomendada.
Detalhes do artigo
Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.
Authors who publish with this journal agree to the following terms:
- Authors retain copyright and grant the journal right of first publication with the work simultaneously licensed under a Creative Commons Attribution License that allows others to share the work with an acknowledgement of the work's authorship and initial publication in this journal.
- Authors are able to enter into separate, additional contractual arrangements for the non-exclusive distribution of the journal's published version of the work (e.g., post it to an institutional repository or publish it in a book), with an acknowledgement of its initial publication in this journal.
- Authors are permitted and encouraged to post their work online (e.g., in institutional repositories or on their website) prior to and during the submission process, as it can lead to productive exchanges, as well as earlier and greater citation of published work (See The Effect of Open Access).
Referências
CAMPANA, A. C. M.; RIBEIRO JÚNIOR, J. I.; NASCIMENTO, M. Uma proposta de transformação de dados para a análise de componentes principais. Revista Brasileira de Biometria, v.28, p.1-15, 2010.
FERREIRA, D. F. M Estatística multivariada. 2.ed. Lavras: Editora UFLA, 2009. 676p.
HOTELLING, H. Review of the triumph of mediocrity in business. Journal of the American Statistical Association. v. 28, p. 463-465, 1933.
JOHNSON, R. A; WICHERN, D. W. Applied multivariate statistical analysis. 5.ed. New Jersey: Prentice Hall, 2002.767p.
LAWSON, J. SAS macros for analysis of unreplicated 2kand 2k-pdesigns with a possible outlier. Journal of Statistical Software, v. 25, p. 1-17, 2008.
LENTH, R. V. Quick and easy analysis of unreplicated factorials. Technometrics, v.31, p. 469-473, 1989.
MINGOTI, S. A. Análise de dados através de métodos de estatística multivariada –uma abordagem aplicada. Belo Horizonte: Editora UFMG, 2007. 297p.
R Core Team. R: a language and environment for statistical computing. Vienna: R Foundation for Statistical Computing, 2020. URL https://www.r-project.org