Professional Documents
Culture Documents
journal_ktsde_12-4_594987256
journal_ktsde_12-4_594987256
ABSTRACT
Recently, fake news disguises the form of news content and appears whenever important events occur, causing social confusion.
Accordingly, artificial intelligence technology is used as a research to detect fake news. Fake news detection approaches such as
automatically recognizing and blocking fake news through natural language processing or detecting social media influencer accounts that
spread false information by combining with network causal inference could be implemented through deep learning. However, fake news
detection is classified as a difficult problem to solve among many natural language processing fields. Due to the variety of forms and
expressions of fake news, the difficulty of feature extraction is high, and there are various limitations, such as that one feature may
have different meanings depending on the category to which the news belongs. In this paper, emotional change patterns are presented
as an additional identification criterion for detecting fake news. We propose a model with improved performance by applying a
convolutional neural network to a fake news data set to perform analysis based on content characteristics and additionally analyze emotional
change patterns. Sentimental polarity is calculated for the sentences constituting the news and the result value dependent on the sentence
order can be obtained by applying long-term and short-term memory. This is defined as a pattern of emotional change and combined
with the content characteristics of news to be used as an independent variable in the proposed model for fake news detection. We train
the proposed model and comparison model by deep learning and conduct an experiment using a fake news data set to confirm that
emotion change patterns can improve fake news detection performance.
요 약
최근 가짜뉴스는 뉴스 콘텐츠 형식을 가장하고 중요한 사건이 발생할 때마다 등장하여 사회적 혼란을 초래한다. 이에 가짜뉴스를 탐지하기
위한 연구로 인공지능 기술이 사용된다. 자연어 처리를 통해 가짜뉴스를 자동으로 인지 및 차단하거나, 네트워크 인과 추론과 결합함으로써 허위
정보를 확산시키는 소셜미디어 인플루언스 계정을 감지하는 등의 가짜뉴스 탐지 접근법이 딥러닝을 통해 구현될 수 있었다. 그러나 가짜뉴스 탐지는
여러 자연어 처리 분야 중에서도 해결이 어려운 문제로 분류된다. 가짜뉴스가 가지는 형식 및 표현의 다양성으로 특성 추출의 난도가 높고, 뉴스가
속한 범주에 따라 하나의 특성이 서로 다른 의미를 가질 수도 있는 등 다양한 한계점이 존재한다. 본 논문에서는 가짜뉴스를 탐지하기 위한 추가적인
식별 기준으로 감성 변화 패턴을 제시한다. 합성곱 신경망을 가짜뉴스 데이터 세트에 적용하여 콘텐츠 특성에 기반한 분석을 수행하고, 감성 변화
패턴을 추가로 분석함으로써 성능이 개선된 모델을 제안한다. 뉴스를 구성하는 문장에 대하여 감성 극성을 산출하고 장단기 메모리를 적용함으로써
문장 순서에 의존적인 결괏값을 얻을 수 있다. 이를 감성 변화의 패턴으로 정의하고 뉴스의 콘텐츠 특성과 결합하여 가짜뉴스 탐지를 위한 제안
모델의 독립변수로 활용한다. 제안 모델과 비교 모델을 딥러닝으로 학습시키고 가짜뉴스 데이터 세트를 이용한 실험을 진행하여 감성 변화 패턴이
가짜뉴스 탐지 성능을 개선할 수 있음을 확인한다.
1. 서 론
1)
역기능 중 하나이다. 특히 가짜뉴스는 인터넷에 산재한 수많
은 허위 정보 중에서도 뉴스 형식을 갖추고 있는 날조된 정보
익명성을 악용한 허위 정보의 유포는 인터넷의 대표적인 를 의미한다. 가짜뉴스는 정치, 경제, 사회, 문화, 스포츠 등
다양한 분야에서 영향력을 확장하고 있으며 지역감정, 지리
※ 이 논문은 한국방송통신대학교 학술연구비 지원을 받아 작성된 것임. 적 위치에 따른 정당 선호도의 양극화, 성별, 종교, 인종, 세
† 준 회 원 : 한겨레신문(주) 독자서비스국 독자기획부 차장 대, 빈부격차 등으로 인한 차별과 혐오는 가짜뉴스가 대중들
†† 종신회원 : 전주대학교 컴퓨터공학과 교수
††† 종신회원 : 한국방송통신대학교 컴퓨터과학과 교수 의 관심을 끌기 쉬워지게 된 원인이 되고 있다[1].
Manuscript Received : January 31, 2023 가짜뉴스 문제를 해결하기 위한 노력은 다양한 분야에서
Accepted : February 3, 2023
* Corresponding Author : Jin Gon Shon(jgshon@knou.ac.kr) 시도되고 있다. 대한민국은 언론중재법, 정보통신망법, 공직
※ This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/ licenses/by-nc/3.0/)
which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
180 정보처리학회논문지/소프트웨어 및 데이터 공학 제12권 제4호(2023. 4)
∞ ∞
×
∞ ∞
(1)
Table 2. Content Information of Fake News Table 3. Emotion Change Patterns of Fake News
(2)
있다. 또한 Table 3에서 확인할 수 있듯이 감성 변화 패턴이 뉴스로 정의하였다. 최종 분석 대상 데이터는 보충 설명이 비
일관성 있게 부정적인 것을 고려하였을 때 부정적 감성을 의 어있는 데이터를 제외한 2,658개의 데이터이다. 이 중 가짜
도적으로 형성하고 있음을 A, B의 공통적인 특성으로 추출할 뉴스는 1,668개, 가짜가 아닌 뉴스는 990개로 구성되어 있
4. 실험 및 성능 평가
4.2 실 험
['경찰', '무력', '백신', '강제', '접종', '블로그', '방호복', '입다', '사람', '영상', '한국', '경찰',
'동원', '백신', '강제', '접종', '이뤄지다', '해당', '게시', '응급의료', '법률', '개정안', '경찰관',
MorphologicTokenization
'직무', '집행', '개정안', '통과', '되다', '경찰', '가정', '찾아오다', '백신', '강제', '접종', '주장',
'작성자', '경찰', '동원', '백신', '강제', '접종', '가능']
Contents
[232, 2791, 20, 524, 66, 1189, 2920, 741, 72, 226, 6, 232, 1144, 20, 524, 66, 875,
Morphological
80, 121, 14440, 630, 282, 4929, 1364, 911, 282, 357, 2, 232, 2179, 4438, 20, 524,
Information Encoding
66, 4, 1522, 232, 1144, 20, 524, 66, 70]
[0, 0, …, 0, 232, 2791, 20, 524, 66, 1189, 2920, 741, 72, 226, 6, 232, 1144, 20, 524,
Morphological
66, 875, 80, 121, 14440, 630, 282, 4929, 1364, 911, 282, 357, 2, 232, 2179, 4438,
Padding
20, 524, 66, 4, 1522, 232, 1144, 20, 524, 66, 70]
등의 불필요한 단어는 불용어 사전에 등록하여 형태소 분석 시퀀스 형태로 변환된다. 문장 토큰화는 Korean Sentence
과정에서 제거될 수 있도록 하고 고유명사, 전문용어, 외래 Spliter(KSS)[16]를 이용하였다. 정수 시퀀스의 길이는 행렬
어, 신조어 등 사전에 존재하지 않아 형태소 분석 결과를 부 곱을 이용한 병렬 연산이 가능하도록 모든 정수 시퀀스의 길
자연스럽게 하는 단어가 존재하면 사용자 정의 사전에 등록 이를 똑같이 맞춰준다. Table 5는 Table 4의 가짜뉴스를 전
후 형태소 분석을 다시 수행한다. 형태소 분석 결과는 최종적 처리한 결과이다.
으로 정수 인코딩을 통해 컴퓨터에서 처리하기에 적합한 정수 토큰화된 형태소는 모델의 임베딩 층(embedding layer)
CNN 기반 감성 변화 패턴을 이용한 가짜뉴스 탐지 185
Table 7. Comparison Model Performance Evaluation 용자가 많아지면서 현실의 문제가 발생하는 것임을 고려했을
감성분석을 수행하여 얻은 감성 집합에 순환신경망을 적용한 [3] N. Wingfield, M. Isaac, and K. Benner, “Google and
결괏값을 감성 변화 패턴으로 정의하였으며 콘텐츠 특성과 Facebook take aim at fake news sites,” nytimes.com.
감성 변화 패턴을 단일 벡터로 결합하여 가짜뉴스 탐지에 활 https://www.nytimes.com/2016/11/15/technology/googl
용하였다. 콘텐츠 특성을 분석하기 위해서는 CNN을 자연어 e-will-ban-websites-that-host-fake-news-from-using-its
처리에 최적화한 1D CNN을 이용하였고, 감성 변화 패턴을 -ad-service.html (accessed Nov. 30, 2021).
분석하는 방법으로는 순서 의존적 특성 추출에 적합한 순환 [4] T.-W. Yun and H.-C. Ahn, “Prediction of domestic fake
신경망 LSTM을 활용하였다. news using text mining and machine learning,” Journal
SNU팩트체크 데이터 세트를 이용한 비교 실험에서 감성 of Information Technology Applications & Management,
변화 패턴을 추가로 활용한 제안 모델이 콘텐츠 기반의 전통 Vol.25, No.1, pp.19-32, 2018.
적 가짜뉴스 탐지 모델과 비교했을 때 성능 면에서 유의미한 [5] D.-H. Lee, Y.-R. Kim, H.-J. Kim, S.-M. Park, and Y.-J.
개선이 있는 것으로 나타났다. 제안 모델은 감성 변화 패턴을 Yang, “Fake news detection using deep learning,” Journal
적용하기 전과 비교하여 재현율이 29.2%, F1 score가 8.8% of Information Processing Systems, Vol.15, No.5, pp.1119-
감성 변화 패턴의 적용이 가짜뉴스 탐지 모델의 임곗값을 낮 [6] Y. Hyun and N. Kim, “Text-based fake news detection
추는 방향으로 영향을 주고 있음을 의미한다. 사실이 확인된 methodology using news and social data,” Journal of the
뉴스를 가짜뉴스라고 잘못 예측했을 때보다 가짜뉴스를 진짜 Korean Society of Electronic Transactions, Vol.23, No.4,
을 때 감성 변화 패턴을 적용한 제안 모델은 가짜뉴스 근절이 [7] J.-w. Cho, E.-b. Kim, H.-m. Kim, and M.-a. Son, “Devel-
라는 목적에 한층 더 부합한다고 볼 수 있다. opment of attention network with added entity for fake
본 연구의 의의는 다음과 같다. 첫째, 가짜뉴스를 탐지하기 news detection,” Proceedings of the Fall Conference of
위한 추가적인 통찰력을 제공하는 방법으로 감성 변화 패턴 the Korean Industrial Engineering Society, pp.2751-2755,
성분석을 활용하는 기존 접근법과 차별화되는 부분으로서 뉴 [8] Dale E. Brashers, “Communication and uncertainty manage-
스를 긍정 또는 부정의 극성으로 단순 분류하지 않고, 감성이 ment,” Journal of Communication, Vol.51, No.3, pp.477-
뉴스가 갖는 형식과 일탈적 내용이 뉴스 수용자에게 부정적 [9] C. Choi, “The effect of fact-checking efforts on fake news
감성을 비롯하여 여러 가지 감성을 형성하는 것으로 확인되 efforts: Based on uncertainty management theory,” Com-
는 미디어 및 커뮤니케이션 분야의 가짜뉴스 선행 연구를 정 munication Theory, Vol.17, No.1, pp.5-53, 2021.
보과학의 관점에서 실험을 통해 입증하였다. 특히 감성 변화 [10] F. Liu, A. Burton-Jones, and D. Xu, “Rumors on Social
패턴은 가짜뉴스 탐지 성능과 연관이 있으며, 탐지 성능을 향 Media in disasters: Extending Transmission to Retrans-
상하는 데 활용될 수 있는 것으로 나타났다. mission,” Pacific Asia Conference on Information Systems,
같은 시사점을 제공한다. 딥러닝에서 서로 다른 특성을 결합 [11] H. Karimi, P. C. Roy, S. Saba-Sadiya, and J. Tang, “Multi-
하는 것이 언제나 모델의 성능 향상으로 이어지는 것은 아니 source multi-class fake news detection,” Proceedings of
며 특성 간 상성에 따라 성능이 유지되거나 반대로 하락하기 the 27th International Conference on Computational
써 성능을 향상하는 것으로 확인되었다. 이는 제안 모델을 실 [12] Y. Yang et al., “TI-CNN: Convolutional neural networks
제 적용하는 데 있어서 콘텐츠 특성에 기반한 모델을 이미 운 for fake news detection,” arXiv:1806.00749, 2018.
용하고 있는 경우에도 발생 가능한 성능 하락의 위험을 감수 [13] Seoul National University Press Information Research
할 필요가 없음을 의미한다. Institute SNU Fact Check Center, “SNU Fact Check,”
[Internet], https://factcheck.snu.ac.kr (downloaded on
November 30, 2021).
References
[14] S.-w. Oh and G.-h. Hwang, “An exploratory study on the
[1] David M. J. Lazer et al., “The science of fake news,” requirements for the formal composition of facts: Sug-
Science, Vol.359, No.6380, pp.1094-1096, 2018. gestions through SNU FactCheck metadata analysis,” Press
[2] Y.-s. Hwang and O.-s. Kwon, “A study on the concep- Information Research, Vol.55, No.4, pp.54-98, 2018.
tualization and regulation of fake news: Focusing on [15] Open source Korean language processor. Yoo Ho-hyun.
self-regulation of internet service providers,” Media and Downloaded on 30 November 2021. [Internet], https://
Law, Vol.16, No.1, pp.53-101, 2017. github.com/open-korean-text/open-korean-text
188 정보처리학회논문지/소프트웨어 및 데이터 공학 제12권 제4호(2023. 4)