Uma solução para detecção de quedas em vídeos baseada em estimativa de poses humanas [Digital]
Dissertação
Português
681.3:621.391
Fortaleza, 2020.
Tecnologias e soluções computacionais modernas têm contribuído para o desenvolvimento de
soluções em monitoramento, possibilitando, via câmeras e sensores, que aspectos da rotina
diária sejam observados, estudados e avaliados. Neste contexto, a ocorrência de quedas em
idosos é um problema com altos... Ver mais
soluções em monitoramento, possibilitando, via câmeras e sensores, que aspectos da rotina
diária sejam observados, estudados e avaliados. Neste contexto, a ocorrência de quedas em
idosos é um problema com altos... Ver mais
Tecnologias e soluções computacionais modernas têm contribuído para o desenvolvimento de
soluções em monitoramento, possibilitando, via câmeras e sensores, que aspectos da rotina
diária sejam observados, estudados e avaliados. Neste contexto, a ocorrência de quedas em
idosos é um problema com altos índices de morbidade e mortalidade associados, prejudicando a qualidade de vida destas pessoas. Recentemente, avanços em Ciência de Dados possibilitaram que uma técnica em Estimativa de Pose, baseada na análise de imagens e vídeos, fosse criada para detectar pessoas e identificar os pontos-chaves de suas juntas, gerando esqueletos da pose humana. Este trabalho apresenta uma solução para detecção de quedas em vídeos, baseada em três soluções de Estimativa de Pose e seus respectivos modelos pré-treinados: OpenPose (três), AlphaPose (seis) e Posenet (dois), totalizando onze modelos, emparelhados com um classificador de rede neural simples, capaz de identificar se houve (ou não) queda. Testes sistemáticos foram realizados frente ao estado-da-arte, usando o conjunto de dados UR Fall Detection, um benchmark publicamente disponível para detecção de quedas. Três conjuntos de vídeos foram selecionados, definindo três cenários de teste.: 30 de quedas, capturados por
uma câmera posicionada no teto da sala; 30 de quedas com as mesmas cenas anteriores, só que capturadas de frente para a cena; e 70 vídeos contendo cenas variadas capturadas frontalmente: 30 de quedas (as mesmas anteriores) acrescidas de 40 outras de atividades diárias. Os resultados mostram que a solução de detecção de quedas mais recomendada para o cenário com a câmera no teto da cena é OpenPose+modelo Body25, por apresentar média geométrica com valor médio acima de 95;1% e valores de 14;3 FPS, aproximadamente. Para um cenário mais próximo do mundo real, com a câmera posicionada frontalmente à cena e a solução sendo treinada com um grande número de vídeos rotulados como ¿queda¿ e ¿não queda¿, Posenet+modelo MobileNet seria a mais recomendada, pois além de ser competitiva (gera taxas de quadros/s de 38 FPS), obteve média geométrica com valor médio de 98;4%, muito próximo do valor gerado neste cenário pela AlphaPose+modelo ResNet152, a qual, embora tenha obtido média geométrica de 99;6%, não foi competitiva em termos de quadros/s (5;34 FPS). Finalmente, estes resultados mostram que, no domínio do problema da detecção de quedas em humanos, métodos baseados em Estimativa de Pose podem ser tão efetivos quanto métodos baseados em sensores vestíveis ou baseados em câmeras.
Palavras-chaves: Detecção de Quedas, Imagens de Vídeo, Estimativa de Pose Humana, Reconhecimento de Atividade Humana, Modelos Pré-Treinados. Ver menos
soluções em monitoramento, possibilitando, via câmeras e sensores, que aspectos da rotina
diária sejam observados, estudados e avaliados. Neste contexto, a ocorrência de quedas em
idosos é um problema com altos índices de morbidade e mortalidade associados, prejudicando a qualidade de vida destas pessoas. Recentemente, avanços em Ciência de Dados possibilitaram que uma técnica em Estimativa de Pose, baseada na análise de imagens e vídeos, fosse criada para detectar pessoas e identificar os pontos-chaves de suas juntas, gerando esqueletos da pose humana. Este trabalho apresenta uma solução para detecção de quedas em vídeos, baseada em três soluções de Estimativa de Pose e seus respectivos modelos pré-treinados: OpenPose (três), AlphaPose (seis) e Posenet (dois), totalizando onze modelos, emparelhados com um classificador de rede neural simples, capaz de identificar se houve (ou não) queda. Testes sistemáticos foram realizados frente ao estado-da-arte, usando o conjunto de dados UR Fall Detection, um benchmark publicamente disponível para detecção de quedas. Três conjuntos de vídeos foram selecionados, definindo três cenários de teste.: 30 de quedas, capturados por
uma câmera posicionada no teto da sala; 30 de quedas com as mesmas cenas anteriores, só que capturadas de frente para a cena; e 70 vídeos contendo cenas variadas capturadas frontalmente: 30 de quedas (as mesmas anteriores) acrescidas de 40 outras de atividades diárias. Os resultados mostram que a solução de detecção de quedas mais recomendada para o cenário com a câmera no teto da cena é OpenPose+modelo Body25, por apresentar média geométrica com valor médio acima de 95;1% e valores de 14;3 FPS, aproximadamente. Para um cenário mais próximo do mundo real, com a câmera posicionada frontalmente à cena e a solução sendo treinada com um grande número de vídeos rotulados como ¿queda¿ e ¿não queda¿, Posenet+modelo MobileNet seria a mais recomendada, pois além de ser competitiva (gera taxas de quadros/s de 38 FPS), obteve média geométrica com valor médio de 98;4%, muito próximo do valor gerado neste cenário pela AlphaPose+modelo ResNet152, a qual, embora tenha obtido média geométrica de 99;6%, não foi competitiva em termos de quadros/s (5;34 FPS). Finalmente, estes resultados mostram que, no domínio do problema da detecção de quedas em humanos, métodos baseados em Estimativa de Pose podem ser tão efetivos quanto métodos baseados em sensores vestíveis ou baseados em câmeras.
Palavras-chaves: Detecção de Quedas, Imagens de Vídeo, Estimativa de Pose Humana, Reconhecimento de Atividade Humana, Modelos Pré-Treinados. Ver menos
Modern computational technologies and solutions have contributed to the development of
monitoring solutions, enabling, through cameras and sensors, that aspects of the daily routine are observed, studied and evaluated. In this context, the occurrence of falls in the elderly is a problem with high... Ver mais
monitoring solutions, enabling, through cameras and sensors, that aspects of the daily routine are observed, studied and evaluated. In this context, the occurrence of falls in the elderly is a problem with high... Ver mais
Modern computational technologies and solutions have contributed to the development of
monitoring solutions, enabling, through cameras and sensors, that aspects of the daily routine are observed, studied and evaluated. In this context, the occurrence of falls in the elderly is a problem with high rates of associated morbidity and mortality, impairing the quality of life of these people. Recently, advances in Data Science enabled a technique in Pose Estimation, based on the analysis of images and videos, to detect people and identify the key points of their joints, generating skeletons of the human pose. This work presents a solution for fall detection in videos, based on three Pose Estimation solutions and their respective pre-trained models: OpenPose
(three), AlphaPose (six) and Posenet (two), totaling eleven models, paired with a simple neural network classifier, which is capable of identifying whether there was (or not) a fall. Systematic tests have been performed against the state-of-the-art, using the data set UR Fall Detection, a publicly available benchmark for detecting falls. Three sets of videos were selected, defining three test scenarios: 30 falls, captured by a camera positioned on the ceiling of a room; 30 falls with the same previous scenes, but captured facing the scene; and 70 videos containing varied scenes captured from the front view of the scene: 30 of falls (the same ones from the above set) plus 40 others of daily activities. The results show that the most recommended fall detection
solution for the scenario with the camera positioned at the top of the scene is OpenPose+Body25 model, as it presents a geometric mean with an average value above 95:1% and values of 14:3 FPS, approximately. For a scenario closer to the real world, with the camera positioned in front of the scene and the solution being trained with a large number of videos labeled as ¿fall¿ and ¿non-fall¿, Posenet+MobileNet model would be the most recommended, because in addition to being competitive (it generates 38 FPS), it obtained geometric mean with an average value of 98:4%, which is very close to value generated in this scenario by AlphaPose+ResNet152 model, which although has obtained a geometric mean of 99:6%, was not competitive in terms of frames/s (5:34 FPS). Finally, these results show that, in the domain of the problem of detecting human falls, methods based on Pose Estimation can be as effective as methods based on wearable sensors or based on cameras.
Keywords: Fall Detection, Video Images, Human Pose Estimation, Human Activity Recognition, Pre-Trained Models. Ver menos
monitoring solutions, enabling, through cameras and sensors, that aspects of the daily routine are observed, studied and evaluated. In this context, the occurrence of falls in the elderly is a problem with high rates of associated morbidity and mortality, impairing the quality of life of these people. Recently, advances in Data Science enabled a technique in Pose Estimation, based on the analysis of images and videos, to detect people and identify the key points of their joints, generating skeletons of the human pose. This work presents a solution for fall detection in videos, based on three Pose Estimation solutions and their respective pre-trained models: OpenPose
(three), AlphaPose (six) and Posenet (two), totaling eleven models, paired with a simple neural network classifier, which is capable of identifying whether there was (or not) a fall. Systematic tests have been performed against the state-of-the-art, using the data set UR Fall Detection, a publicly available benchmark for detecting falls. Three sets of videos were selected, defining three test scenarios: 30 falls, captured by a camera positioned on the ceiling of a room; 30 falls with the same previous scenes, but captured facing the scene; and 70 videos containing varied scenes captured from the front view of the scene: 30 of falls (the same ones from the above set) plus 40 others of daily activities. The results show that the most recommended fall detection
solution for the scenario with the camera positioned at the top of the scene is OpenPose+Body25 model, as it presents a geometric mean with an average value above 95:1% and values of 14:3 FPS, approximately. For a scenario closer to the real world, with the camera positioned in front of the scene and the solution being trained with a large number of videos labeled as ¿fall¿ and ¿non-fall¿, Posenet+MobileNet model would be the most recommended, because in addition to being competitive (it generates 38 FPS), it obtained geometric mean with an average value of 98:4%, which is very close to value generated in this scenario by AlphaPose+ResNet152 model, which although has obtained a geometric mean of 99:6%, was not competitive in terms of frames/s (5:34 FPS). Finally, these results show that, in the domain of the problem of detecting human falls, methods based on Pose Estimation can be as effective as methods based on wearable sensors or based on cameras.
Keywords: Fall Detection, Video Images, Human Pose Estimation, Human Activity Recognition, Pre-Trained Models. Ver menos
Rodrigues, Maria Andreia Formico
Orientador
Rodrigues, Maria Andreia Formico
Banca examinadora
Furtado, João José Vasco Peixoto
Banca examinadora
Vidal, Creto Augusto
Banca examinadora
Universidade de Fortaleza. Programa de Pós-Graduação em Informática Aplicada
Dissertação (mestrado)