Professional Documents
Culture Documents
Investigation of Research Trends in The D (Data) N (Network) A (A.I) Field Using The Dynamic Topic Model
Investigation of Research Trends in The D (Data) N (Network) A (A.I) Field Using The Dynamic Topic Model
요 약 최근 디지털 사회의 도래로 다양한 데이터가 폭발적으로 증가하고, 그중 문헌 내 주제어를 도출하는 토픽 모델링
에 관한 연구가 활발히 진행되고 있다. 본 논문의 연구목표는 토픽 모델링 방법 중 하나인 DTM(Dynamic Topic
Model) 모델을 적용해 D.N.A.(Data, Network, A.I) 분야에 대한 연구동향을 탐색하는데 있다. 실험 데이터는 최근
6년간(2015∼2020) ICT(Information and Communication Technology) 분야 중 기술대분류가 SWㆍAI에 해당하
는 연구과제 1,519개 사업에 대해 DTM 모델을 적용하였다. 실험결과로, D.N.A. 분야의 기술 키워드 Big data, Cloud,
Artificial Intelligence와 확장된 의미의 기술 키워드 Unstructured, Edge Computing, Learning, Recognition 등
이 매년 연구에 표출되었으며, 해당 키워드 들이 특정 연구과제에 종속되지 않고 다른 연구과제에서도 포괄적으로 연구
되고 있음을 확인하였다. 끝으로 본 논문의 연구결과는 향후 D.N.A. 분야에 대한 정책기획ㆍ과제기획 등 연구개발 기획
과정과 기업의 기술 확보전략ㆍ마케팅 전략 등 다양한 곳에 활용될 수 있을 것으로 기대한다.
주제어 : 다이나믹 토픽 모델링, 연구 트렌드 분석, 시계열 분석, 텍스트 마이닝, 데이터 마이닝
Abstract The Topic Modeling research, the methodology for deduction keyword within literature, has
become active with the explosion of data from digital society transition. The research objective is to
investigate research trends in D.N.A.(Data, Network, Artificial Intelligence) field using DTM(Dynamic
Topic Model). DTM model was applied to the 1,519 of research projects with SWㆍA.I technology
classifications among ICT(Information and Communication Technology) field projects between 6
years(2015∼2020). As a result, technology keyword for D.N.A. field; Big data, Cloud, Artificial
Intelligence, extended keyword; Unstructured, Edge Computing, Learning, Recognition was appeared
every year, and accordingly that the above technology is being researched inclusively from other
projects can be inferred. Finally, it is expected that the result from this paper become useful for future
policyㆍR&D planning and corporation’s technologyㆍmarketing strategy.
Key Words : Dynamic Topic Model, Research Trend Analysis, Time Series Analysis, Text Mining, Data
Mining
제 파악을 위해 2016년∼2019년 기간 동안 한국학술지 ⑤ 152 104 128 126 100 104 714
⑥ 144 218 212 217 249 232 1,272
인용색인을 통해 ‘4차 산업’ 키워드에 관한 논문 총 685
Total 993 1,070 1,122 1,111 1,144 1,136 6,576
건을 검색/수집하였고 토픽 모델링 방법을 적용해 인공
① Telecommunications & Radio
지능, 빅데이터, 사물인터넷, 디지털, 네트워크 등 주요 ② Software & Artificial Intelligence
기술 키워드와 산업, 정부, 교육현장, 일자리 등 4차 산업 ③ Broadcasting & Contents
과 관련된 변화 키워드를 도출하였다[14]. ④ Cyber Security
Fig. 1. Data Preprocessing Steps 2010 Dependency Sentiment LDA 2014 Biterm Topic Modeling
4. 실험결과 및 토의
4.1 실험결과
: 연도-문서의 토픽별 편향도 벡터 위에서 서술한 분석 프로세스에 따라 실험한 결과,
: 연도-문서의 토픽 분포 벡터
ICT분야 국가연구개발로 수행된 SWㆍAI 연구과제는 대
: 연도-문서-단어의 토픽 번호
: 연도-문서-단어의 실제 단어
부분 D.N.A. 분야의 기술로 확인되었다(Table 3 참고).
: 연도-토픽의 단어 분포 벡터 구체적인 결과의 해석을 위해 확장된 의미에서
: 문서의 단어 개수 D.N.A. 분야에 포함된다고 판단한 Unstructured, Edge
: 문서의 개수
Computing, Learning, Recognition 등 키워드는 음
: 토픽의 수
: 연도의 수 영처리를 하였으며, D.N.A. 분야에 대한 키워드가 정확
Fig. 2. Generative Process of Dynamic Topic Model 하게 일치하는 Big data, Cloud, Artificial Intelligence
(for three time slices) 키워드에는 음영처리와 함께 추가로 표기(★) 하였다.
Table 3 과 같이 연도별로 정확하게 일치하거나 확장
3.5 실험환경 및 분석 프로세스 된 기술적 의미와 키워드를 포함하고 있는 각각 과제에
대한 최종목표 등을 검토하였을 때 2015년도 D.N.A. 분
야에 관한 키워드는 총 5개로, Data 분야에 관련된 키워
드로 Dashboard, Mapping, Monitoring이 빅데이터
기반의 분석도구 및 시스템 등을 개발하는 과제로 확인
되었고, Network 분야에는 Cloud, RealTime OS가 클
라우드 보안 및 클라우드 기반의 개방형 플랫폼 등을 개
발하는 과제임을 확인하였다.
2016년도 D.N.A. 분야에 관한 키워드는 총 7개로,
Data 분야에 관련된 키워드로 Big data가, Network 분
야에는 Cloud, Cloud Computing, Cloud Platform,
Digital Extinction, Internet of Things, RealTime
IoT가 클라우드 기반의 플랫폼 및 SaaS(Software as a
Service) 등을 개발하는 과제임을 확인하였다.
2017년도 D.N.A. 분야에 관한 키워드는 총 6개로,
Data 분야에 관련된 키워드로 Big data가, Network 분
야에는 Controlling as a Service, Virtual Desktop
Infrastructure가 Fog Computing 및 IaaS(Infrastructure
as a Service) 등을 개발하는 과제, 그리고 A.I 분야에는
Fig. 3. Analysis Processing Steps
26 한국융합학회논문지 제11권 제9호
Table 3. Dynamic Topic Model Results of National ICT R&D between 2015 and 2020
3 Dashboard Cloud Platform Emotion Recognition Data Preprocessing Deep Learning Database
4 Device API Digital content Image Recognition Deep Learning Human AI Interaction Deep Learning
Intelligence and
5 E-Book Digital Extinction Pattern Recognition Internet of Things Edge Computing
Information
Light Weight Digital rights Learning and Emergency Alert
6 Response Generation Long Time Tracking
Encryption management Inference System
Natural Language
7 Mapping Internet of Things Software Prosumer Machine Learning Framework
Processing
Virtual Desktop
9 RealTime OS RealTime IoT Video Unstructured Machine Learning
Infrastructure
Fig. 4. Comparison of DTM Keywords with LDA Keywords between 2015 and 2020
더불어 위 실험과 동일한 데이터 및 전처리 방법을 적 만, DTM 모델의 경우 연도별로 수행된 과제 내에서만
용해 LDA 모델과의 비교를 위한 추가 실험을 진행하였 키워드가 도출 되었다.
다. LDA 모델의 토픽 수는 위 실험 모델의 기간(2015∼ 이는 20년, 30년 등 더 긴 시점을 갖는 데이터를
2020)과 동일하게 6개로 설정하였으며 키워드 또한 기 DTM 모델과 LDA 모델로 분석하였을 때 시간의 흐름에
존 실험과 비교 될 수 있게 상위 10개의 키워드를 선택 따른 토픽의 변화로 인해 두 모델이 완전히 다른 키워드
하였다. 위 과정을 통해 도출한 LDA 모델의 키워드와 기 를 반환할 수 있다는 점을 시사하고 있으며, 본 연구는
존 실험을 통해 얻은 DTM 모델의 키워드를 중심으로 연구목적에 맞는 D.N.A. 분야의 연구동향 분석을 위해
Fig. 4와 같이 키워드간 상호비교를 진행하였다. DTM 모델이 적합하다고 판단하였다.
비교 결과 D.N.A. 분야에 해당하는 핵심 키워드인
Big data, Cloud, Artificial Intelligence 는 두 모델에
서 모두 등장하였으며, 이 외도 Dashboard, Deep 5. 결론
Learning, Emotion Recognition, Machine
Learning, Natural Language Processing, Pattern 본 논문은 최근 6년간 수행된 SWㆍAI 분야의 연구과
Recognition, Platform 키워드도 공통적으로 등장하였 제 데이터 분석을 통해 D.N.A. 분야의 연구동향을 도출
다. 하지만, DTM 모델에서 등장한 Cloud Platform, 하였다. 실험결과 2015년과 2016년은 데이터와 네트워
Human AI Interaction 등 키워드는 LDA 모델에서 나 크 분야의 연구가 활발하게 진행되었으며, 2017년 이후
타나지 않았고, LDA 모델에서 등장한 Compiler, 부터는 인공지능에 관한 연구가 활발하게 진행되었음을
Distributed DBMS 등 키워드 또한 DTM 모델에서 나 확인하였다.
타나지 않았다. 본 연구가 주는 시사점은 다음과 같다. 첫째, D.N.A.
LDA 모델과 DTM 모델은 동일한 데이터와 절차를 통 분야의 기술이 다른 기술 분야의 연구과제 등에도 포괄
해 D.N.A. 분야의 핵심 키워드와 확장된 의미의 키워드 적으로 적용되어 연구되고 있음을 확인하였고, 둘째,
일부를 공통적으로 도출하였는데, 이는 DTM 모델의 기 D.N.A. 분야의 기술개발 및 고도화뿐만 아니라 관련된
본 알고리즘이 LDA 모델을 근간으로 출발하였기 때문에 응용SW 및 서비스 등도 활발하게 개발되고 있음을 확인
유사한 결과가 나타날 수 있었음을 확인할 수 있었다. 하 하였다. 셋째, 전체 문서집합에 대한 연구주제를 파악하
지만, LDA 모델은 전체 데이터를 하나의 시점으로 관측 는 방법으로 대표적인 토픽 모델링 방법인 LDA 모델을
해 주제를 도출하는 반면 DTM 모델의 경우 전체 데이터 사용 할 수 있지만, 연구주제와 연구동향을 함께 파악하
를 각각의 시점으로 분석하기 때문에 전혀 다른 키워드 기 위해서는 DTM 모델이 더 적합함을 확인하였다. 끝으
가 등장할 수 있었다. 실제로 LDA 모델에서 도출된 키워 로 본 연구를 통해 도출한 D.N.A. 분야의 연구동향과 토
드가 속한 과제들을 추적한 결과 연도의 구분이 없었지 픽 모델링을 적용한 연구동향 도출 방법론은 향후
28 한국융합학회논문지 제11권 제9호