Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa [Digital]
Dissertação
Português
681.3.06:510.5
Fortaleza, 2019.
Uma parcela significativa da população brasileira usa as redes sociais como fonte de notícias e, devido ao aumento na velocidade e no alcance do compartilhamento de Fake News, abordagens automatizadas para classificar rumores como verdadeiros ou falsos se tornam urgentes, especialmente para notícias...
Ver mais
Uma parcela significativa da população brasileira usa as redes sociais como fonte de notícias e, devido ao aumento na velocidade e no alcance do compartilhamento de Fake News, abordagens automatizadas para classificar rumores como verdadeiros ou falsos se tornam urgentes, especialmente para notícias curtas veiculadas em redes sociais como o Twitter. Para o avanço científico da tarefa de verificação de rumores em língua portuguesa, é necessário que existam recursos linguísticos como córpus de notícias falsas e verdadeiras, e que este conjunto de textos possa ser sistematicamente evoluído e atualizado, capturando, assim, a dinamicidade e a criatividade da linguagem utilizada em redes sociais. Neste sentido, a questão de pesquisa que norteou o desenvolvimento deste trabalho foi: Como utilizar o trabalho de agências de checagem de notícias (fact-checking agencies) na criação e evolução de córpus de tweets que divulgam notícias falsas e verdadeiras? A revisão bibliográfica indicou a inexistência de córpus de Fake News, veiculadas em Língua Portuguesa através de micropostagens da rede social Twitter. O presente trabalho, portanto, propõe um processo para a construção de córpus de referência de Fake News em língua portuguesa, com microtextos coletados do Twitter. O processo se baseia no trabalho desenvolvido pelas agências de checagens de notícias e define atividades para recuperação das notícias originais, da forma como elas são escritas e compartilhadas pelos usuários. Por fim, este trabalho gerou o primeiro córpus de Fake News do Twitter, em português ¿ FakeTweet.BR, que pode ser utilizado para treinamento de algoritmos de aprendizagem automática. Foram avaliados diferentes algoritmos para a tarefa de verificação de rumores, obtendo-se resultados que suplantaram os trabalhos relacionados para a língua inglesa. Este trabalho também realiza uma análise no impacto da subtarefa de detecção de posicionamento (stance classification) na tarefa principal de verificação da veracidade de um rumor.
Palavras-chave: fake news, linguística de córpus, verificação de rumor, classificação textual.
Ver menos
Palavras-chave: fake news, linguística de córpus, verificação de rumor, classificação textual.
Ver menos
A significant portion of the Brazilian population uses social media as a news source, and due to the increased speed and reach of sharing Fake News, automated approaches to classifying rumors as true or false become urgent, especially for short news broadcasted on social media like Twitter. For the...
Ver mais
A significant portion of the Brazilian population uses social media as a news source, and due to the increased speed and reach of sharing Fake News, automated approaches to classifying rumors as true or false become urgent, especially for short news broadcasted on social media like Twitter. For the scientific advance of the task of verifying rumors in Portuguese, it is necessary to have linguistic resources such as false and true news corpus, and that this set of texts can be systematically evolved and updated, thus capturing dynamism and creativity of the language used in social media. In this sense, the research question that guided the development of this work was: How to use the work of fact-checking agencies in the creation and evolution of tweets that spread false and true news? The literature review indicated the absence of Fake News corpus, published in Portuguese through micro-posts from the Twitter social network. The present work, therefore, proposes a process for the construction of Fake News reference bodies in Portuguese, with micro texts collected from Twitter. The process builds on the work of news check agencies and defines activities for retrieving original news as it is written and shared by users. Finally, this work generated the first Fake News corpus of Twitter, in Portuguese - FakeTweet.BR, which can be used for training automatic learning algorithms. Different algorithms for the rumors verification task were evaluated, obtaining results that superseded the related works for the English language. This work also performs an analysis of the impact of the stance classification subtask on the main task of verifying the accuracy of a rumor.
Keywords: fake news, corpus linguistic, rumour verification, text classification Ver menos
Keywords: fake news, corpus linguistic, rumour verification, text classification Ver menos
Pinheiro, Vladia Celia Monteiro
Orientador
Pinheiro, Vladia Celia Monteiro
Banca examinadora
Furtado, João José Vasco Peixoto
Banca examinadora
Macêdo, José Antônio Fernandes de
Banca examinadora
Universidade de Fortaleza. Programa de Pós-Graduação em Informática Aplicada
Dissertação (mestrado)