Một cuộc khảo sát về các phương pháp phân tích tình cảm, ứng dụng và thách thức

Machine Translated by Google
Đánh giá trí tuệ nghệ thuật (2022) 55: 5731–

5780
https://doi.org/10.1007/s10462-022-10144-1
Một cuộc khảo sát về các phương pháp phân tích tình cảm, ứng
dụng và thách thức
Mayur Wankhade1,2 · Annavarapu Chandra Sekhara Rao1,2 · Chaitanya Kulkarni1,2
Xuất bản trực tuyến: ngày 7 tháng 2 năm 2022
© Tác giả, theo giấy phép độc quyền cho Springer Nature BV 2022
trừu tượng
Sự phát triển nhanh chóng của các ứng dụng dựa trên Internet, chẳng hạn như các nền tảng mạng
xã hội và blog, đã dẫn đến các nhận xét và đánh giá liên quan đến các hoạt động hàng ngày. Phân
tích cảm xúc là quá trình thu thập và phân tích ý kiến, suy nghĩ và ấn tượng của mọi người về
các chủ đề, sản phẩm, đối tượng và dịch vụ khác nhau. Ý kiến của người dân có thể mang lại lợi
ích cho các tập đoàn, chính phủ và cá nhân trong việc thu thập thông tin và đưa ra quyết định
dựa trên ý kiến. Tuy nhiên, quy trình phân tích và đánh giá tình cảm phải đối mặt với nhiều
thách thức. Những thách thức này tạo ra trở ngại cho việc giải thích chính xác các thời điểm
sen và xác định thái cực tình cảm thích hợp. Phân tích cảm xúc xác định và trích xuất thông tin
chủ quan từ văn bản bằng cách sử dụng xử lý ngôn ngữ tự nhiên và khai thác văn bản. Bài viết
này thảo luận tổng quan đầy đủ về phương pháp hoàn thành nhiệm vụ này cũng như các ứng dụng của
phân tích tình cảm. Sau đó, nó đánh giá, so sánh và điều tra các phương pháp tiếp cận được sử
dụng để có được sự hiểu biết toàn diện về các ưu điểm và nhược điểm của chúng. Cuối cùng, những
thách thức của phân tích tâm lý được xem xét để xác định hướng đi trong tương lai.
Từ khóa Phân tích cảm xúc · Phân tích văn bản · Nhúng từ · Học máy ·
Truyền thông xã hội
1. Giới thiệu
Phân tích cảm xúc đã được chấp nhận rộng rãi trong những năm gần đây, không chỉ giữa các nhà
nghiên cứu mà còn giữa các doanh nghiệp, chính phủ và tổ chức (Sánchez-Rada và Iglesias 2019).
Sự phổ biến ngày càng tăng của Internet đã nâng web lên vị trí nguồn thông tin phổ quát chính.
Rất nhiều người dùng sử dụng các nguồn trực tuyến khác nhau để bày tỏ quan điểm và ý kiến của
họ. Để liên tục theo dõi dư luận và
* Annavarapu Chandra Sekhara Rao

acsrao@iitism.ac.in
Mayur Wankhade
mayur.18dr0078@cse.iitism.ac.in
1
Khoa Khoa học và Kỹ thuật Máy tính, Viện Công nghệ Ấn Độ (ISM),
Dhanbad 826004, Ấn Độ
2
Dayananda Sagar College of Engineering, Bangalore 560078, Ấn Độ
1 3
Tập :(0123456789)
5732 M. Wankhade và cộng sự.
hỗ trợ ra quyết định, chúng tôi phải sử dụng dữ liệu do người dùng tạo để phân tích nó một cách tự động.
Kết quả là, phân tích tình cảm đã gia tăng sự phổ biến của nó trên các cộng đồng nghiên cứu trong những
năm gần đây. Phân tích cảm xúc còn được gọi là Phân tích ý kiến hoặc Khai thác ý kiến.
Chúng tôi đã thấy sự tăng trưởng gần đây trong nhiệm vụ phân tích tâm lý. Nghiên cứu variuos phân tích
tình cảm (Ligthart et al. 2021) đã công bố tổng quan về khai thác Ý kiến trong giai đoạn trước đó.
Trong (Piryani và cộng sự 2017) thảo luận về chủ đề nghiên cứu từ năm 2000 đến năm 2015 và cung cấp một
khuôn khổ để tính toán xử lý dữ liệu phi cấu trúc với mục tiêu chính là trích xuất các quan điểm và xác
định tâm trạng của họ. Một số cuộc khảo sát gần đây (Yousif et al. 2019; Birjali et al. 2021) các tác
giả đã mô tả vấn đề phân tích tình cảm và đề xuất các hướng đi tiềm năng. Soleymani và cộng sự. (2017)
và Yadav và Vishwakarma (2020) về phân loại tình cảm đã được xuất bản. Chủ đề phát hiện spam ý kiến và
đánh giá gian lận cũng được điều tra. Ngoài ra, trong công trình của Yue et al. (2019) và Liu et al.
(2012) đã tiến hành nghiên cứu về tính hiệu quả của các đánh giá trên internet. Các tác giả (Jain et
al. 2021b) thảo luận về các ứng dụng học máy kết hợp các đánh giá trực tuyến trong phân loại tình cảm,
ra quyết định dự đoán và phát hiện các đánh giá sai. Trong công trình của Balaji et al. (2021) đã tiến
hành kiểm tra kỹ lưỡng một số ứng dụng phân tích mạng xã hội bằng cách sử dụng các thuật toán học máy
tinh vi. Các tác giả trình bày tổng quan ngắn gọn về các thuật toán học máy được sử dụng trong phân
tích mạng xã hội (Hangya và Farkas 2017).
Sự phát triển của các trang mạng xã hội đã tạo ra hàng loạt cánh cổng dành cho việc phân tích các
mạng này và nội dung của chúng để trích xuất thông tin cần thiết. Phân tích thời điểm Sen liên quan
đến việc rút ra những cảm xúc được truyền đạt bởi một đoạn văn bản từ nội dung của nó. Phân tích cảm
xúc là một lĩnh vực con của NLP và rằng, được đưa ra bởi dư luận lâu dài và nổi tiếng để ra quyết định,
cần phải có nhiều công trình ban đầu giải quyết vấn đề này. Tuy nhiên, nó vẫn hoạt động khi phân tích
tình cảm phát triển cho đến thiên niên kỷ mới.
Một số ứng dụng trong thế giới thực yêu cầu phân tích cảm xúc để điều tra chi tiết. ví dụ, phân tích
sản phẩm, khám phá những thành phần hoặc phẩm chất nào của sản phẩm hấp dẫn khách hàng về chất lượng
sản phẩm. Trong công việc của Subhashini et al. (2021) trình bày kết quả của một đánh giá toàn diện về
thời gian khai thác ý kiến đương đại. Nó cũng bao gồm cách trích xuất các đặc điểm văn bản từ các ý
kiến có nhiễu hoặc không chắc chắn, thể hiện kiến thức trong các ý kiến và phân loại chúng. Mowlaei và
cộng sự. (2020) đề xuất một kỹ thuật cho các từ vựng dựa trên khía cạnh thích ứng để phân loại tình
cảm. Các tác giả đã mô tả hai chiến lược để xây dựng hai từ vựng động để hỗ trợ phân loại tình cảm tùy
thuộc vào các khía cạnh của chúng: một chiến lược dựa trên thống kê và thuật toán di truyền. Một từ
vựng động có thể được cập nhật tự động và cung cấp cách chấm điểm chính xác hơn cho các khái niệm liên
quan đến ngữ cảnh (Kumar và Uma 2021). Để sắp xếp tất cả các khía cạnh của bài đánh giá, họ đã chọn một
số từ điển từ một số từ điển. Phân tích tình cảm trước đây đang được áp dụng trong nhiều lĩnh vực khác
nhau, từ khách sạn đến hãng hàng không và chăm sóc sức khỏe cho đến thị trường chứng khoán (Zvarevashe
và Olugbara 2018). Phân tích tình cảm sis đã áp dụng vào các bài đánh giá khách sạn để hiểu rõ hơn về
những điều khách hàng thích và không thích. Để so sánh (Valencia và cộng sự 2019), nó được sử dụng để
xác định xu hướng của thị trường chứng khoán và tiền điện tử dựa trên tâm lý thị trường. Các tác giả
(Ahmad et al. 2019a) phân tích các tweet liên quan đến các lĩnh vực khác nhau và phân tích cảm xúc của
các tweet. Lĩnh vực chăm sóc sức khỏe đang chứng kiến sự gia tăng trong các ứng dụng phân tích tâm lý
trong thời gian gần đây, các phân tích ý kiến khách hàng (Rufer và cộng sự 2020; Park và cộng sự 2020;
Cor tis và Davis 2021; Arora và cộng sự 2021), các phân tích về mức độ hài lòng của khách hàng là rất
ít ứng dụng trong lĩnh vực chăm sóc sức khỏe (Baashar et al. 2020; Miotto et al. 2018). Khu vực kinh
doanh luôn sử dụng phân tích tâm lý để cải thiện nó. Phân tích tình cảm
1 3
Một cuộc khảo sát về các phương pháp phân tích tình cảm, ứng dụng và… 5733
cho các ứng dụng khác nhau như quản lý danh tiếng, nghiên cứu thị trường và phân tích đối thủ cạnh
tranh, phân tích sản phẩm, tiếng nói của khách hàng, v.v.
Nhiều vấn đề khác nhau liên quan đến phân tích cảm xúc và xử lý ngôn ngữ tự nhiên, chẳng hạn như
phong cách viết không chính thức của cá nhân, chế độ mỉa mai, mỉa mai và thách thức ngôn ngữ cụ thể.
Có nhiều từ trong các ngôn ngữ khác nhau mà ý nghĩa và hướng thay đổi phụ thuộc vào ngữ cảnh và lĩnh
vực mà chúng được sử dụng. Do đó, không có nhiều công cụ và tài nguyên có sẵn cho tất cả các ngôn ngữ.
Sarcasm và trớ trêu là hai trong số những thách thức gay gắt nhất gần đây đã thu hút sự chú ý của các
nhà nghiên cứu. Đã có nhiều phát triển trong việc phát hiện những lời châm biếm và mỉa mai trong văn
bản. Có rất nhiều thách thức trong phân tích tình cảm. Trong công việc này, chúng tôi sẽ phân tích những
thách thức, phương pháp luận, ứng dụng và thuật toán của variuos được sử dụng trong phân tích tình cảm.
Chúng tôi trình bày nhiệm vụ với phân tích dữ liệu so sánh được hiển thị trong bảng, biểu đồ gà và đồ
thị dễ hiểu. Các mô tả khác nhau về cách viết tắt được sử dụng trong công việc của chúng tôi được thể
hiện trong Bảng 1.
Theo hiểu biết của chúng tôi, các cuộc khảo sát hiện tại thường bỏ qua một số kỹ thuật phân tích cảm
tính để ủng hộ học máy, học máy biến áp và các phương pháp tiếp cận dựa trên từ vựng.
Mặc dù bài báo này cũng bao gồm tất cả các nhiệm vụ, nó khác với nghiên cứu trước đó ở chỗ nó đề cập
đến các kỹ thuật được sử dụng thường xuyên nhất. Ngoài ra, các cuộc khảo sát khác nghiên cứu phân tích
tâm lý từ một nhiệm vụ cụ thể, nhiều thách thức khác nhau hoặc tập trung vào một vấn đề cụ thể, chẳng
hạn như đánh giá sản phẩm. Nghiên cứu này cung cấp một cuộc điều tra toàn diện về phân tích tình cảm
bằng cách thảo luận về lĩnh vực này từ nhiều khía cạnh khác nhau vì nó bao gồm nhiều thành phần nghiên
cứu liên quan đến phân tích cảm xúc, chẳng hạn như vấn đề, ứng dụng, công cụ và phương pháp tiếp cận.
Công việc này rất mang lại lợi ích cho các học giả và người mới bắt đầu, vì nó cho phép họ tiếp cận với
vô số kiến thức về lĩnh vực này chỉ trong một bài báo. Các đóng góp quan trọng của cuộc khảo sát có thể
được tổng hợp như sau
• Một số tài liệu đã được phân tích để xác định rõ ràng quá trình phân tích tình cảm và xác định các
công nghệ nổi tiếng để thực hiện công việc này.
• Phân tích các phương pháp luận hiện có để xác định phương pháp nào phù hợp nhất
cho một ứng dụng nhất định.
• Chúng tôi phân loại và tóm tắt các phương pháp phân tích cảm tính thường được sử dụng để hiểu các kỹ
thuật dễ tiếp cận hơn như học máy, phân tích dựa trên từ vựng và phân tích kết hợp.
• Tóm tắt những lợi ích và thách thức của phân tích tâm lý để theo kịp
nghiên cứu xu hướng thuê.
• So sánh từng phương pháp với ưu nhược điểm của chúng, đề xuất lựa chọn phương pháp phân tích tình cảm
phù hợp.
Bài khảo sát văn học được tổ chức dưới dạng Sect. 2, Phân tích mức độ tình cảm, ngành. 3, chứa
Phương pháp thu thập dữ liệu, trích xuất tính năng và lựa chọn tính năng, giải thích tất cả các bước
từ trích xuất dữ liệu đến các nhiệm vụ khác nhau của Phân tích tình cảm, ngành. 4 bao gồm Phương
pháp chung để Phân tích Cảm xúc và Tóm tắt của nó, Lĩnh vực. 5, Chứa ứng dụng phân tích Senti ment
trong nhiều lĩnh vực, lĩnh vực khác nhau. 6, Chứa những Thách thức trong Phân tích Senti ment, Trong
Lĩnh vực Fnal. 7, Chúng tôi Kết luận công việc nghiên cứu của chúng tôi.
1 3
Hình 1 Phân tích tình cảm

ở cấp độ
2 cấp độ phân tích tình cảm
Phân tích cảm xúc đã được nghiên cứu ở nhiều cấp độ: Cấp độ tài liệu, Cấp độ câu, Cấp độ cụm từ
và Cấp độ khía cạnh. Phân tích tình cảm theo từng cấp độ như tài liệu, câu và cụm từ, cấp độ
khía cạnh được hiển thị trong Hình 1.
2.1 Phân tích tình cảm ở cấp độ tài liệu
Cấp độ tài liệu: Phân tích tình cảm ở cấp độ tài liệu được thực hiện trên toàn bộ tài liệu và
một cực duy nhất được cung cấp cho toàn bộ tài liệu. Loại phân tích tình cảm này không được sử
dụng nhiều. Nó có thể được sử dụng để phân loại các chương hoặc trang của một cuốn sách là tích
cực, tiêu cực hoặc trung tính. Ở cấp độ này, cả phương pháp học tập có giám sát và không giám
sát đều có thể được sử dụng để phân loại tài liệu (Bhatia et al. 2015). Phân tích tình cảm giữa
nhiều miền và đa ngôn ngữ là hai vấn đề quan trọng nhất trong phân tích tình cảm ở cấp độ tài
liệu. (Saun ders 2021) Phân tích tình cảm cụ thể miền đã được chứng minh là đạt được độ chính
xác đáng kể trong khi vẫn có độ nhạy miền cao. Trong các tác vụ này, vectơ đặc trưng là một tập
hợp các từ phải là miền-cụ thể và có giới hạn.
2.2 Phân tích tình cảm ở cấp độ câu
Mức độ câu: Trong mức độ phân tích này, mỗi câu được phân tích và kết hợp với một cực tương
ứng. Điều này rất hữu ích khi một tài liệu có phạm vi rộng và sự kết hợp của các dấu hiệu giám
sát liên quan đến nó (Yang và Cardie 2014). Mức phân loại này được liên kết với phân loại chủ
quan (Rao và cộng sự 2018). Mỗi cực của câu sẽ được xác định một cách không xác định bằng cách
sử dụng các phương pháp tương tự như cấp độ tài liệu nhưng với dữ liệu đào tạo và tài nguyên xử
lý lớn hơn. Sự phân cực của mỗi câu có thể được tổng hợp để tạo thành ý nghĩa của tài liệu hoặc
được sử dụng riêng lẻ. Đôi khi, phân tích tình cảm ở cấp độ tài liệu là không khoa học đối với
các mục đích sử dụng cụ thể (Behdenna et al. 2018). Trong công việc trước đây về phân tích cấp
độ câu đã được dành cho các câu chủ ngữ liên kết. Tuy nhiên, các nhiệm vụ khó khăn hơn, chẳng hạn như
1 3
www.amazon.com
API twitter
Đánh giá khách sạn
www.tripadvisor.com Dựa trên Corpus

Quán ăn Phân tích cảm xúc
Phương pháp tiếp cận
Nhận xét
Dữ liệu trước
Phân loại chủ quan
www.yelp.com
Xử lý
Hãng hàng không
Dựa trên từ điển Phát hiện Spam Ý kiến

Nhận xét
www.facebook.com
Phát hiện khía cạnh
Dữ liệu
Tin tức chứng khoán

Hình dung
Cỗ máy Phân loại phân cực
Kaggle
Học tập dựa trên
Sản phẩm
Nhận xét Khảo sát trực tuyến
www.airlinequality.com
Nhiệm vụ
Lựa chọn dữ liệu Cách tiếp cận
Scraping dữ liệu Phân tích dữ liệu
Hình 2 Quy trình chung của phân tích tình cảm
khi làm việc với các câu điều kiện hoặc các câu không rõ ràng (Ferrari và Esuli 2019). Trong
những trường hợp này, phân tích tình cảm ở cấp độ câu là rất quan trọng.
2.3 Phân tích tình cảm cấp độ cụm từ
Cấp độ cụm từ: Phân tích ý kiến cũng được thực hiện khi các từ quan điểm được khai thác ở cấp độ
cụm từ và phân loại sẽ được thực hiện. Mỗi cụm từ có thể chứa nhiều khía cạnh hoặc khía cạnh đơn
lẻ. Đây có thể là những đánh giá hữu ích về sản phẩm của nhiều dòng; ở đây, có thể quan sát thấy
rằng khía cạnh tội lỗi được thể hiện trong một cụm từ (Thet và cộng sự 2010). Nó đã là một chủ đề
nóng của các nhà nghiên cứu trong thời gian gần đây. Trong khi phân tích cấp độ tài liệu tập
trung vào việc phân loại toàn bộ tài liệu là chủ quan, tích cực hoặc tiêu cực, thì phân tích cấp
độ câu mang lại lợi ích nhiều hơn, vì một tài liệu chứa cả tuyên bố tích cực và tiêu cực. Từ là
đơn vị cơ bản nhất của ngôn ngữ; tính phân cực của nó liên quan mật thiết đến tính chủ quan của
câu văn hoặc tài liệu mà nó xuất hiện. Một câu có chứa một tính từ có khả năng cao là một câu
phụ. (Fredriksen-Goldsen và Kim 2017) Ngoài ra, thuật ngữ được chọn cho expres sion đại diện cho
các đặc điểm nhân khẩu học của các cá nhân, chẳng hạn như giới tính và tuổi tác, mong muốn, địa
vị xã hội và tính cách, các đặc điểm tâm lý và xã hội khác (Flek 2020). Do đó, thuật ngữ đóng vai
trò là nền tảng cho phân tích tình cảm văn bản.
2.4 Phân tích tình cảm ở cấp độ khía cạnh
Mức độ khía cạnh: phân tích tình cảm được thực hiện ở mức độ khía cạnh. Mỗi câu có thể bao hàm
nhiều khía cạnh; do đó, phân tích tình cảm mức độ Aspect. Sự chú ý chủ yếu đến tất cả các khía
cạnh được sử dụng trong câu và gán cực cho tất cả các khía cạnh mà sau đó một tình cảm tổng hợp
đã được tính toán cho toàn bộ câu (Schouten và Frasincar 2015; Lu et al. 2011).
1 3
Bảng 1 Các mô tả khác nhau về chữ viết tắt
Viết tắt Mô tả chữ viết tắt
NLP Xử lý ngôn ngữ tự nhiên

NB Naïve Bayes
SVM Máy vector hỗ trợ
RF Rừng ngẫu nhiên
LR Hồi quy logistic

DT Cây quyết định
LSTM Bộ nhớ ngắn hạn dài

Bi-LSTM Bộ nhớ ngắn hạn dài hạn hai hướng
CNN Mạng thần kinh chuyển đổi
RNTN Mạng Tensor thần kinh đệ quy
RNN Mạng thần kinh tái diễn
ANN Mạng thần kinh nghệ thuật
RNTN Mạng Tensor thần kinh đệ quy
AI Trí tuệ nghệ thuật

KNN K láng giềng gần nhất
LDA Phân bổ Dirichlet tiềm ẩn
TÔI Entropy tối đa

LSA Phân tích ngữ nghĩa tiềm ẩn
CBOW Túi từ liên tục
SG Bỏ qua gam
TF-IDF Tần suất tài liệu nghịch đảo thuật ngữ
DNN Mạng thần kinh sâu
Cây cung Bag of Words
ABSA Phân tích tình cảm dựa trên khía cạnh
PoS Các phần của bài phát biểu
NLTK Bộ công cụ Ngôn ngữ Tự nhiên
DCNN Mạng thần kinh chuyển đổi động

BERT Trình diễn mã hóa hai chiều từ Máy biến áp
MSA Phân tích tình cảm đa phương thức
GPT Máy biến áp được đào tạo trước tạo
SLC Phân loại cấp độ câu
AR-NN Mạng thần kinh tự động hồi quy

DMN Mạng bộ nhớ động
ELMo Nhúng mô hình ngôn ngữ
3 Thu thập dữ liệu và lựa chọn tính năng
3.1 Bộ sưu tập dữ liệu
Dữ liệu có thể được thu thập từ internet thông qua trang web, phương tiện truyền thông xã hội, kênh tin
tức, trang web thương mại điện tử, Diễn đàn, Weblog, một số trang web khác được thể hiện trong Hình 2.
Chọn dữ liệu Colour là giai đoạn đầu tiên trong Phân tích Cảm xúc. Tùy thuộc vào phân tích tình cảm nhiệm vụ
1 3
liên kết, dữ liệu văn bản có thể được kết hợp với các loại dữ liệu khác như video, âm thanh, loca tion,
v.v. Một số nguồn thu thập dữ liệu cần thiết là:
Phương tiện truyền thông xã hội: Dữ liệu xã hội đề cập đến thông tin được thu thập thông qua các mạng
truyền thông xã hội. Nó thể hiện cách người tiêu dùng tương tác với sản phẩm bằng cách truy cập, đăng và
trao đổi. Nghiên cứu học thuật về cá nhân, nhóm và hành vi sử dụng phương tiện truyền thông xã hội như một
nguồn dữ liệu động. Nó đề cập đến các ứng dụng Internet dựa trên web hoặc di động cho phép người dùng tạo,
truy cập và giao dịch nội dung do người dùng tạo.
Diễn đàn: Người dùng có thể sử dụng bảng tin để thảo luận về các chủ đề khác nhau, trao đổi ý kiến và ý
tưởng cũng như yêu cầu hỗ trợ qua tin nhắn văn bản. Diễn đàn là một nguồn hấp dẫn để phân tích tình cảm do
bản chất động của thông tin do người dùng tạo. Ngoài ra, các nhà nghiên cứu có thể thực hiện phân tích tình
cảm trên một miền cụ thể bằng cách tận dụng các diễn đàn làm nguồn (Korkontzelos et al. 2016).
Nhật ký web : Một nhật ký web ngắn bao gồm các đoạn văn truyền đạt quan điểm, sự kiện, mục nhật ký cá
nhân hoặc liên kết. Cùng được gọi là bài đăng, được sắp xếp theo thứ tự thời gian với mục nhập gần đây nhất
xuất hiện đầu tiên, theo phong cách của một bài báo nghiên cứu (Kumar và Teeja 2012). Blog là một nguồn tài
nguyên có giá trị để thực hiện phân tích tình cảm trên nhiều đối tượng khác nhau (Annett và Kondrak 2008).
Trang web Thương mại Điện tử: Các trang web Thương mại Điện tử nơi người dùng có thể đưa ra đánh giá và
bày tỏ ý kiến của họ về một doanh nghiệp hoặc tổ chức cụ thể. Trong trường hợp này, các trang web không đánh
giá cụ thể các trang web có hàng triệu bài đánh giá, chẳng hạn như các trang web thương mại điện tử có đánh
giá sản phẩm1 hoặc các trang web đánh giá chuyên nghiệp chẳng hạn như 2 Trong công việc của Jain et al.
(2019) đã thực hiện một nghiên cứu mô tả về các phân loại dịch vụ hàng không khác nhau.
3.2 Lựa chọn tính năng
Điều quan trọng cần nhớ là việc phát triển mô hình phân loại đòi hỏi đầu tiên phải xác định các tính năng
liên quan trong tập dữ liệu (Ritter và cộng sự 2012). Do đó, một đánh giá có thể được giải mã thành các từ
trong quá trình đào tạo mô hình và được nối vào vectơ đặc trưng. Đối với một từ được xem xét, kỹ thuật này
được gọi là “Uni-gram”; khi hai từ được xem xét, kỹ thuật được gọi là “Bi-gram”; và nếu ba từ được xem xét,
kỹ thuật này được gọi là “Tri-gram”. sự kết hợp giữa unigram và bigram hữu ích cho việc phân tích (Razon và
Barnden 2015); tính năng ngữ cảnh hữu ích để nhận được kết quả chính xác nhất.
Các tính năng thực dụng là những đặc điểm nhấn mạnh việc áp dụng các từ hơn là một nền tảng phương pháp
luận. Ngữ dụng học là nghiên cứu về cách ngữ cảnh liên quan đến nhận thức trong ngôn ngữ học và các khoa học
liên quan. Ngữ dụng học là nghiên cứu về các hiện tượng như hàm ý, hành vi lời nói, sự liên quan và các cuộc
hội thoại.
Biểu tượng cảm xúc là những biểu hiện trên khuôn mặt được sử dụng trong phân tích tình cảm để truyền tải
cảm xúc. Nhiều biểu tượng cảm xúc khác nhau được sử dụng để mô tả nhiều loại cảm xúc của con người (Tian et
al. 2017). Cảm xúc hỗ trợ trong việc truyền đạt giọng điệu của một người khi sáng tác một câu và do đó hỗ
trợ trong việc phân tích cảm xúc. Thay thế ý nghĩa của chúng cho các biểu tượng cảm xúc: Bài đánh giá chứa
một loạt các cảm xúc, bao gồm hạnh phúc, buồn bã và giận dữ. Biểu tượng cảm xúc được phân loại thành hai
loại: cảm xúc thích thú và cảm xúc tình cảm tiêu cực. Cảm xúc tích cực được hình thành từ những cảm xúc tích cực
1
www.amazon.com.
2
www.yellowpages.com.
1 3
chẳng hạn như tình yêu, hạnh phúc và niềm vui, trong khi biểu tượng cảm xúc tiêu cực bao gồm các biểu
tượng cảm xúc tiêu cực như buồn bã, trầm cảm và phẫn nộ.
Dấu câu hoặc dấu chấm than dùng để làm nổi bật sức mạnh của một nhận xét tích cực hoặc tiêu cực. Tương
tự, dấu huyền và dấu chấm hỏi là những dấu câu khác.
Các từ bằng tiếng lóng, chẳng hạn như lol và rof. Chúng thường được sử dụng để giới thiệu khiếu hài
hước vào một nhận xét. Với bản chất của các dòng tweet quan điểm, thật hợp lý khi cho rằng một cách diễn
đạt bằng tiếng lóng trong văn bản gợi ý phân tích tình cảm. Thay thế ý nghĩa của chúng cho thuật ngữ tiếng
lóng.
Các dấu câu, giống như dấu chấm than, dùng để làm nổi bật sức mạnh của một nhận xét tích cực hoặc tiêu
cực. Tương tự, dấu huyền và dấu chấm hỏi là những dấu câu khác.
3.3 Trích xuất tính năng
Trích xuất đối tượng là một nhiệm vụ quan trọng trong phân loại tình cảm vì nó liên quan đến việc trích
xuất thông tin có giá trị từ dữ liệu văn bản và nó sẽ tác động trực tiếp đến hiệu suất của mô hình. Phương
pháp này cố gắng trích xuất thông tin có giá trị bao gồm các tính năng cần thiết nhất của văn bản. Trong
công trình của Venugopalan và Gupta (2015) đã kết hợp các câu chuyện cổ tích khác vì việc trích xuất các
đặc điểm từ văn bản là một thách thức. Trong hầu hết các trường hợp, dấu chấm câu bị xóa khỏi văn bản sau
khi hạ thấp nó trong giai đoạn xử lý trước, nhưng họ đã sử dụng chúng để trích xuất các tính năng và thẻ
bắt đầu bằng # và biểu tượng cảm xúc các kỹ thuật thường được sử dụng cho các tính năng ngoại trừ được
liệt kê bên dưới.
Tần suất thuật ngữ Đây là một trong những cách đơn giản nhất để thể hiện các tính năng thường được sử
dụng tự do hơn trong các ứng dụng NLP khác nhau, bao gồm cả Phân tích cảm xúc, để truy xuất thông tin. Nó
xem xét một từ đơn lẻ, tức là đơn gam hoặc nhóm hai ba từ, có thể ở dạng bi-gam và tri-gam, với số thuật
ngữ của chúng đại diện cho các đặc điểm (Sharma et al.
2013). Sự hiện diện của cụm từ cung cấp cho từ một giá trị 0 hoặc 1. Tần suất của cụm từ là giá trị số
nguyên, là số lượng của từ đó trong tài liệu đã cho. TF-IDF có thể được sử dụng như một lược đồ có trọng
số để có kết quả tốt hơn sẽ đo lường tầm quan trọng của bất kỳ mã thông báo nào trong tài liệu đã cho.
Các phần của gắn thẻ lời nói Quá trình gắn thẻ một từ trong văn bản (ngữ liệu) dựa trên định nghĩa và
ngữ cảnh của nó còn được gọi là gắn thẻ ngữ pháp. Token được phân loại thành danh từ, động từ, đại từ,
trạng từ, tính từ và giới từ. Ví dụ: “Điện thoại di động này thật tuyệt vời” có thể được gắn thẻ như sau:
(Straka et al. 2016) This: xác định, điện thoại di động: danh từ, là: động từ, tuyệt vời: tính từ. Đối với
khai thác tình cảm, một tính từ được sử dụng thường xuyên hơn vì nó phản đối quan điểm của ý kiến. Các
trình gắn thẻ PoS có thể được sử dụng cho tác vụ này, nó có sẵn trong NLTK hoặc Spacy. Các nghiên cứu phổ
biến nhất sử dụng Stanford PoS-tagger (Weerasooriya et al. 2016).
Phủ định Đây là những từ có thể thay đổi hoặc đảo ngược ý kiến và chuyển nghĩa của câu. Các từ phủ định
thường được sử dụng bao gồm not, could, nei ther, never, nothing, none, v.v ... Mọi từ xuất hiện trong câu
sẽ không đảo cực; do đó, việc loại bỏ tất cả các từ phủ định khỏi các từ dừng có thể làm tăng chi phí tính
toán và giảm độ chính xác của mô hình. Các từ phủ định phải được xử lý cẩn thận nhất (George et al. 2013).
Các từ phủ định chẳng hạn như không phải, không phải, cũng không, v.v. rất hữu ích cho phân tích tình cảm
vì chúng có thể hoàn nguyên các cực của một cụm từ nhất định. Ví dụ, dòng "Bộ phim này hay." là một câu
tích cực, nhưng "Bộ phim không hay." là một câu phủ định. Đáng tiếc, một số hệ thống loại bỏ các từ phủ
định vì chúng
1 3
được đưa vào danh sách từ dừng hoặc bị loại bỏ hoàn toàn vì chúng có giá trị tình cảm trung lập trong một từ
vựng và không hoàn thiện tính phân cực tuyệt đối. Tuy nhiên, đảo ngược cực không phải là thẳng tiến vì các từ
phủ định có thể xảy ra trong một câu mà không ảnh hưởng đến cảm xúc của văn bản.
Trong một số trường hợp, tình cảm trung lập cũng được đưa vào, và các đánh giá trung lập thường bị bỏ qua
trong nhiều nhiệm vụ phân tích tình cảm do tính mơ hồ và thiếu thông tin của chúng, trong tác phẩm của Valdivia
et al. (2018) được coi là trao quyền cho tính trung lập bằng cách xác định mối ràng buộc giữa các đánh giá
tích cực và tiêu cực để cải thiện hiệu suất mô hình. Họ sử dụng một số phương pháp tiếp cận phân tích cảm xúc
đối với các kho tài liệu khác nhau, trích xuất tình cảm của họ và đưa ra các đánh giá trung lập bằng sự đồng
thuận, tức là, lấy các mô hình khác nhau dựa trên tổng hợp có trọng số. Cuối cùng, họ so sánh hiệu suất của
các mô hình đơn lẻ và tổng hợp trong phân loại. Đóng góp khác được giới thiệu trong công trình của Wang et al.
(2020) phân tích ý kiến, cụ thể là phát hiện tình cảm theo tỷ lệ đa cấp với xử lý môi trường xung quanh.
Trình xử lý môi trường xung quanh rất chi tiết, cũng như cài đặt điều chỉnh mức độ mạnh để phân tích độ mạnh
và quy mô tổng thể của cả thái độ tích cực và tiêu cực (Buder et al. 2021).
Nó có khả năng đào sâu hơn vào văn bản để khám phá tình cảm đa cấp độ và các loại cảm xúc riêng biệt. Trong
công trình của Valdivia et al. (2017) đề xuất việc sử dụng các toán tử trung bình có trọng số được sắp xếp
theo thứ tự dựa trên phần lớn mờ đối với cực tính tổng hợp từ nhiều phương pháp phân tích cảm tính. Đóng góp
của họ là thiết lập tính trung lập cho các ý kiến được hướng dẫn bởi đa số mờ nhạt.
Bag of Words (BoW) BoW là một trong những cách tiếp cận đơn giản nhất để trích xuất các tính năng văn bản.
BoW sẽ mô tả sự xuất hiện của các từ trong một tài liệu. Túi đại diện cho từ vựng của các từ sử dụng vectơ
được hình thành cho mỗi câu. Vấn đề chính của mô hình này là nó không xem xét ý nghĩa cú pháp của văn bản. Ví
dụ, hãy xem xét hai câu s1 = “đồ ăn ngon”, s2 = “dịch vụ tệ”. Từ vựng được tạo cho hai câu trong đó v = {'the',
'food', 'was', 'service', 'bad', 'good'} và độ dài của vectơ là 6 và được biểu diễn dưới dạng v1 = [ 1 1 1 0 0
1] và v2 = [1 0 1 1 1 0]. Hiệu suất của phương pháp tiếp cận BoW được đánh giá bằng cách sử dụng (TF-IDF) hoạt
động tốt hơn trong hầu hết các trường hợp.
3.3.1 Nhúng từ
Nhúng từ biểu thị các từ trong không gian vectơ bằng cách nhóm các từ có nghĩa tương tự lại với nhau. Mỗi từ
được gán cho một vectơ, sau đó được học theo cách tương tự như mạng nơ-ron. Nó học và chọn một vector từ một
từ vựng được xác định trước.
Kích thước của các từ có thể được chọn bằng cách chuyển nó như một siêu tham số. Mô hình SG và mô hình CBOW
liên tục là hai trong số các thuật toán nổi tiếng nhất cho việc nhúng từ. Cả hai phương pháp này đều là các
phương pháp tiếp cận cửa sổ nông, trong đó xác định một số điểm ngắn hạn của một số kích thước, chẳng hạn như
bốn hoặc sáu, và từ hiện tại được dự đoán bằng cách sử dụng các từ ngữ cảnh trong CBOW, trong khi các từ ngữ
cảnh được dự báo bằng cách sử dụng từ hiện tại trong Mô hình SG. Nhúng từ liên quan đến việc tìm hiểu về các
từ trong ngữ cảnh sử dụng cục bộ của chúng, được xác định bởi một cửa sổ các thuật ngữ gần đó.
Word2vec word2vec là một mạng nơ-ron 2 lớp được sử dụng để vector hóa các mã thông báo.
Đây là một trong những kỹ thuật vectơ hóa nổi tiếng và được sử dụng rộng rãi được phát triển bởi Mikolov et al.
(2013). Word2vec chủ yếu có hai mô hình CBOW và SG. Mô hình CBOW dự đoán từ mục tiêu bằng cách sử dụng các từ
ngữ cảnh, trong khi mô hình SG dự đoán từ mục tiêu bằng cách sử dụng các từ lừa đảo. Với một tập dữ liệu lớn
hơn, mô hình SG hoạt động tốt hơn.
Vectơ toàn cầu (GloVe) Vectơ toàn cầu để biểu diễn từ đã được phát triển (Pen nington et al. 2014) theo
phương pháp học tập không giám sát để tạo ra các phép nhúng từ
1 3
từ một ma trận đồng xuất hiện từ này sang từ khác. GloVe là một phương pháp được sử dụng phổ biến vì nó dễ
dàng và nhanh chóng để đào tạo mô hình GloVe vì khả năng triển khai song song của nó (Al Amrani et al. 2018).
Fast Text Đây là một thư viện mã nguồn mở và miễn phí được phát triển bởi FAIR (Facebook AI Research), chủ
yếu được sử dụng để phân loại từ, vectơ hóa và tạo các ding nhúng từ. Nó sử dụng một bộ phân loại tuyến tính
để huấn luyện mô hình, điều này rất nhanh trong việc huấn luyện mô hình (Bojanowski et al. 2017). Nó hỗ trợ
mô hình CBOW và SG. Có thể tìm thấy những điểm tương đồng về ngữ nghĩa khi sử dụng mô hình này.
ELMo ELMo là một bản trình bày văn bản được ngữ cảnh hóa sâu sắc. ELMo góp phần khắc phục những hạn chế
của các phương pháp nhúng từ thông thường như LSA, TF-IDF và các mô hình n-gram (Peng et al. 2019). ELMo tạo
các thao tác nhúng vào các từ dựa trên ngữ cảnh mà chúng được sử dụng để ghi lại nghĩa của từ và truy xuất
thông tin ngữ cảnh bổ sung. Thông qua đào tạo trước, ELMo có thể thể hiện chính xác hơn các từ đa nghĩa trong
nhiều ngữ cảnh khác nhau và cung cấp nhiều thông tin hơn về ngữ nghĩa cấp cao hơn của văn bản (Ling et al.
2020).
3.4 Cách tiếp cận lựa chọn tính năng
Phương pháp tiếp cận lựa chọn tính năng được đánh giá để xác định một đặc tính dữ liệu. Một đặc điểm có thể
không rõ ràng, đáng kể hoặc dư thừa. Các phương pháp tiếp cận lựa chọn tính năng khác nhau được sử dụng để
loại bỏ các đặc tính không liên quan và siêu béo (Ahmad et al. 2019b; Lata et al.
Năm 2020). Lựa chọn tính năng là một thủ tục xác định và loại bỏ các đặc tính siêu lớn và không thể cải thiện
khỏi danh sách tính năng và do đó tăng độ chính xác phân loại cảm tính
lạnh lùng. Trong công trình của (Hailong và cộng sự 2014; Duric và Song 2012), phân tích tình cảm để lựa chọn
đối tượng địa lý bao gồm các phương pháp thống kê và dựa trên từ vựng. Con người tạo ra các tính năng trong
các kỹ thuật dựa trên từ vựng. Thông thường, quy trình bắt đầu với việc thu thập các cụm từ có cảm giác mạnh
để phát triển một bộ tính năng hạn chế (Kolchyna và cộng sự 2015). Bộ này được tăng cường với các thuật ngữ
bổ sung thông qua phát hiện từ đồng nghĩa hoặc tài nguyên web (Ghazi et al.
Năm 2015; Rizos và cộng sự. 2019). Lợi ích của những cách tiếp cận này là tính hiệu quả của chúng, vì chúng
giải quyết các khía cạnh một cách cẩn thận. Chọn các tính năng thủ công là một quá trình dài và phức tạp.
SentiWordNet là một từ vựng về tình cảm được xây dựng từ cơ sở dữ liệu Mạng từ, với mỗi thuật ngữ đi kèm
với các giá trị số biểu thị tình cảm tích cực và tiêu cực. Một ví dụ nổi tiếng là từ vựng SentiWordNet. ngược
lại, các quy trình thống kê hoàn toàn tự động và được sử dụng rộng rãi để lựa chọn tính năng, mặc dù chúng
thường không phân biệt được giữa các tính năng đa cảm và không thuộc về tình cảm (Poria và cộng sự 2014;
Varelas và cộng sự.
2005). Các tác giả (Cambria et al. 2020) đã đề xuất SenticNet như một cách để đưa suy luận logic vào các mô
hình học sâu để phân tích cảm xúc.
Các kỹ thuật thống kê để lựa chọn đối tượng địa lý thường được phân loại thành bốn loại:
flter, embedding, wrapper và hybrid.
Phương pháp tiếp cận bộ lọc Đây là kỹ thuật chọn đối tượng địa lý thường được sử dụng nhất. Nó chọn các
tính năng mà không sử dụng bất kỳ kỹ thuật học máy nào dựa trên các thuộc tính chung của dữ liệu đào tạo.
Tính năng này được xếp hạng bằng cách sử dụng một số chỉ số thống kê, và sau đó các tính năng có thứ hạng cao
nhất sẽ được chọn (Adomavicius và Kwon 2011). Chúng không tốn kém về mặt tính toán và rất thích hợp cho các
bộ dữ liệu có số lượng thuộc tính cao.
Các từ “Tăng thông tin”, “Chi-square”, “Tần suất tài liệu” và “Thông tin lẫn nhau” đều được sử dụng để chỉ
các thuật toán cơ bản tốt hơn.
Cách tiếp cận Wrapper Cách tiếp cận này dựa trên các thuật toán học máy vì nó dựa vào đầu ra của thuật
toán học máy. Các phương pháp tiếp cận thường lặp đi lặp lại và
1 3
Hình 3 Nhiệm vụ của phân tích tình cảm
đòi hỏi về mặt tính toán do sự phụ thuộc này, nhưng chúng có thể xác định bộ tính năng tối
ưu cho thuật toán mô hình cụ thể đó. Các kỹ thuật gói bao gồm việc tạo các tập con fea ture
(lựa chọn tiến hoặc lùi) cộng với các thuật toán học tập khác nhau (chẳng hạn như NB hoặc
SVM).
Cách tiếp cận nhúng Phương pháp này kết hợp quy trình lựa chọn tính năng vào chú giải exe
của thuật toán mô hình hóa. Nó sử dụng các phương thức phân loại có khả năng lựa chọn fea
ture được tích hợp sẵn (Imani et al. 2013). Kết quả là, nó khoa học hơn về mặt tính toán so
với cách tiếp cận trình bao bọc. Tuy nhiên, kỹ thuật này là thuật toán cụ thể (Das et al. 2020).
Các kỹ thuật nhúng thường dựa trên nhiều thuật toán cây quyết định, bao gồm ing CART
(Kosamkar và Chaudhari 2013), C4.5 và ID3 (Quinlan 2014; Mezquita et al. 2020) và các thuật
toán bổ sung như LASSO (Hssina et al. 2014).
Phương pháp kết hợp Chiến lược này kết hợp các phương pháp tiếp cận flter và wrapper;
hybrid meth ods thường sử dụng nhiều cách tiếp cận để tạo ra tập con tính năng tối ưu. Các
kỹ thuật kết hợp thường đạt được hiệu suất và độ chính xác tuyệt vời thông qua việc sử dụng
nhiều cách tiếp cận. Nhiều thuật toán lựa chọn tính năng kết hợp để phân tích tình cảm đã
được phát triển (Chiew et al. 2019).
3.5 Nhiệm vụ của phân tích tình cảm
Tổng quan về các nhiệm vụ khác nhau của phân tích tình cảm như trong Hình 3 và giải thích
như sau.
Phân loại chủ quan Đây thường được giả định là giai đoạn đầu tiên trong phân tích senti
ment. Phân loại chủ quan nhận ra gợi ý chủ quan, cụm từ cảm xúc và ý tưởng chủ quan. Các mã
thông báo như 'cứng', 'tuyệt vời' và 'rẻ' được xác định (Kasmuri và Basiron 2017). Những dấu
hiệu này được sử dụng để phân biệt các đối tượng văn bản khách quan hoặc chủ quan. Trong công
việc của Kasmuri và Basiron (2017) liên quan đến việc xác định xem có hay không một chủ đề
cụ thể trong văn bản nhất định. Phân loại chủ quan nhằm mục đích giữ các mục dữ liệu khách
quan không mong muốn khỏi quá trình xử lý tiếp theo (Kamal 2013).
Phân loại tình cảm Phân loại tình cảm là một nhiệm vụ được nghiên cứu nổi tiếng trong phân
tích tình cảm. Xác định phân cực là một trong những nhiệm vụ phụ của phân loại tình cảm,
1 3
và thuật ngữ "Phân tích ý kiến" thường được sử dụng khi đề cập đến Phân tích cảm xúc.
Đó là một nhiệm vụ nhỏ nhằm xác định tình cảm của mỗi phần văn bản. Độ phân cực được tra theo tỷ lệ hoặc
dương hoặc âm (Wang et al. 2014). Trong công trình của Xia et al. (2015), bối cảnh cấp độ ý kiến được
điều tra, với các khía cạnh ý kiến nội bộ và giữa các ý kiến khác nhau được đặc trưng rõ ràng. Trung lập
cũng được bao gồm trong một số trường hợp. Với một chuyên gia phân loại được đào tạo, phân tích miền chéo
sẽ dự đoán cảm xúc của miền mục tiêu. Trích xuất các tính năng bất biến của miền và nơi chúng được phân
phối là một cách tiếp cận thường được sử dụng (Peng et al.
2018). Phân tích đa ngôn ngữ được thực hiện tương tự bằng cách đào tạo mô hình trên tập dữ liệu từ ngôn
ngữ nguồn và sau đó đánh giá mô hình trên tập dữ liệu từ một ngôn ngữ khác với dữ liệu hạn chế. Sự mơ hồ
của sự phân cực từ là một trong những trở ngại mà phân tích tình cảm phải vượt qua. Trong công trình của
Vechtomova (2017) và Singh et al. (2021b) đã chứng minh rằng các mô hình dựa trên truy xuất cung cấp một
giải pháp thay thế cho các chiến lược dựa trên Học máy để phát hiện phân cực từ. Tính toán tổng hợp và
phân tích cảm tính cũng có tiềm năng to lớn như một công nghệ hệ thống con cho các hệ thống khác (Cambria
và cộng sự 2017). Họ có thể đề cập đến khả năng của hệ thống quản lý và đề xuất quan hệ khách hàng bằng
cách cho phép phát hiện ra những tính năng nào mà khách hàng đặc biệt yêu thích hoặc việc bỏ sót những
mặt hàng đã nhận được phản hồi không thuận lợi cao từ các đề xuất.
Phát hiện thư rác Ý kiến Phát hiện thư rác đã trở thành một thách thức quan trọng trong phân tích
senti ment vì mối quan tâm ngày càng tăng đối với thương mại điện tử và các nền tảng đánh giá. Spam ý
kiến, thường được gọi là đánh giá lừa đảo hoặc đánh giá qua điện thoại, là những bình luận bằng văn bản
ủng hộ hoặc chỉ trích một sản phẩm vì lợi ích của chúng. Phát hiện spam ý kiến tìm cách xác định ba đặc
điểm khác biệt của bài đánh giá qua điện thoại: nội dung của bài đánh giá, siêu dữ liệu của bài đánh giá
và kiến thức chuyên môn về sản phẩm trong thế giới thực (Crawford và cộng sự 2015). Các thuật toán học
máy thường được sử dụng miễn phí để đánh giá tài liệu ôn tập nhằm phát hiện sự không trung thực. Dấu sao
hoặc dấu chấm, địa chỉ IP của người dùng, vị trí địa lý của người dùng và các thông tin khác là một vài
Siêu dữ liệu được sử dụng để phát hiện ý kiến về spam. Tuy nhiên, trong nhiều trường hợp, không thể tiếp
cận được bệnh apxe hậu môn. Kinh nghiệm và kiến thức trong thế giới thực được đưa vào theo cách thứ ba.
Ví dụ: nếu một sản phẩm có xếp hạng và đánh giá xấu đang được xếp hạng cao trong một khoảng thời gian,
sản phẩm đó có thể bị nghi ngờ và phân tích để phát hiện spam ý kiến.
Phát hiện Ngôn ngữ Ngụ ý Sự mỉa mai, mỉa mai và hài hước thường được gọi là Ngôn ngữ Ngụ ý. Lời nói
là một công việc khó khăn để phát hiện, ngay cả đối với con người đôi khi. Tuy nhiên, ngôn ngữ hàm ý này
là một khía cạnh thiết yếu của một câu và hoàn toàn có thể xác định được ý nghĩa và sự phân cực của câu.
Ví dụ, hãy xem xét cụm từ 'Brilliant, I am fred'. Từ Brilliant rất tích cực, nhưng nó mô tả sự mỉa mai
hoặc châm biếm khi kết hợp với các phần sau, tức là, "I am fred", nó làm cho cụm từ "I am fred" trở nên
tiêu cực hơn. Điều tra các dấu hiệu như biểu tượng cảm xúc, biểu tượng cảm xúc tiếng cười và sử dụng dấu
chấm câu mở rộng là những cách tiếp cận cổ điển hơn để phát hiện ngôn ngữ ẩn ý (Fang et al. 2020; Filatova
2012).
Chiết xuất theo khía cạnh Phân tích tình cảm ở mức độ khía cạnh chủ yếu bao gồm ba bước trích xuất
khía cạnh, phân loại phân cực và tổng hợp. Quá trình phân tích tình cảm dựa trên khía cạnh bắt đầu với
việc trích xuất khía cạnh, một trong những quá trình quan trọng vì điều này khác với phân tích tình cảm
thông thường. Các khía cạnh có thể được trích xuất bằng cách sử dụng một tập hợp các khía cạnh được xác
định trước cần được xác định trước cẩn thận dựa trên miền mà nó được sử dụng.
Các phương pháp tiếp cận khác là các phương pháp phức tạp hơn như phương pháp dựa trên tần suất, phương
pháp dựa trên thuế tổng hợp, phương pháp học máy có giám sát và không giám sát. Người ta đã thấy rằng
trong các bài đánh giá (Kanapala et al. 2019), ít từ được sử dụng thường xuyên hơn oth ers, và những
thuật ngữ phổ biến nhất này có nhiều khả năng trở thành khía cạnh; Phương pháp directfor ward này có thể
trở thành một phương pháp tiếp cận khá mạnh mẽ bởi thực tế là một số phương pháp tiếp cận đáng kể. Cách
tiếp cận này có một số thiếu sót vì tất cả các danh từ thường dùng đều
1 3
Hình 4 Cách tiếp cận phân tích tình cảm
không đề cập đến các khía cạnh, thuật ngữ như 'bucks,' 'đô la,' 'rupee,' v.v. Ngoài ra, các khía cạnh không được
đề cập thường xuyên có thể bị bỏ qua bằng phương pháp này. Một bộ quy tắc có thể được bổ sung bằng cách tiếp cận
dựa trên tần suất để khắc phục những vấn đề này, nhưng các quy tắc được tạo thủ công này có xu hướng đến từ các
thông số cần được điều chỉnh thủ công, đây là một công việc bận rộn và tốn thời gian. Thay vì tập trung vào
phương pháp dựa trên Tần suất. Cách tiếp cận dựa trên cú pháp có thể được sử dụng vì cách tiếp cận này bao gồm
các sai lầm của cách tiếp cận dựa trên tần suất là không phát hiện các khía cạnh ít thường xuyên hơn (Bai và
cộng sự 2020). Trong cách tiếp cận này, Ví dụ: ở đây, 'Tuyệt vời' đề cập đến một tính từ đề cập đến khía cạnh
“đồ ăn” trong “Đồ ăn tuyệt vời”. Đối với cách tiếp cận này, nhiều dữ liệu chú thích bao gồm tất cả các quan hệ
cú pháp cần được thu thập để đào tạo thuật toán.
3.5.1 Cần phân tích tình cảm
Phân tích tình cảm có ý nghĩa vô cùng quan trọng vì nó giúp các doanh nghiệp hiểu được tình cảm của kẻ lừa đảo
đối với thương hiệu của họ. Bằng cách tự động phân loại cảm xúc đằng sau các tương tác, đánh giá trên mạng xã
hội và hơn thế nữa, các tổ chức có thể đưa ra quyết định sáng suốt.
Phân tích cảm xúc đề cập đến các phương pháp và chiến lược cho phép frms kiểm tra dữ liệu về cảm nhận của cơ sở
khách hàng về một dịch vụ hoặc sản phẩm nhất định. Để xác định Polar ity:? Cho biết một cảm xúc là tốt hay tiêu
cực.? Chủ đề: Chủ đề của dis cussion là gì? Ai là người nắm giữ ý kiến:? Một vật hoặc người truyền tải tình cảm.
Phân tích cảm xúc là một quá trình tự động phân tích các cách nói của ngôn ngữ tự nhiên, khám phá các tuyên
bố hoặc ý kiến thiết yếu và phân loại chúng theo thái độ cảm xúc của họ.
• Trong nhu cầu kinh doanh, phân tích tâm lý đã làm tăng mức độ hạnh phúc của người tiêu dùng thông qua các sản
phẩm nâng cao, phát hiện vấn đề theo thời gian thực và tính khác biệt của thị trường.
• Phân tích mức độ hài lòng của khách hàng thông qua phân tích tình cảm: Khách hàng chia sẻ trải nghiệm của mình
với một sản phẩm và truyền đạt ý kiến và thái độ của mình về sản phẩm đó bằng cách sử dụng các nhận xét
bằng ngôn ngữ tự nhiên. Điều này cung cấp cho chúng tôi cái nhìn sâu sắc quan trọng về việc liệu kẻ lừa đảo
có được đáp ứng hay không và, nếu cần, chúng tôi có thể cải thiện sản phẩm như thế nào.
1 3
• Xác định và hành động trong các vấn đề trong thời gian thực: Thông qua phương tiện truyền thông xã hội, khách hàng có thể ngay lập tức
chỉ nói lên sự bất bình của mình cho toàn thế giới.
4 Phương pháp luận
Ba phương pháp chủ yếu được sử dụng để Phân tích Cảm xúc bao gồm Phương pháp Tiếp cận Dựa trên Lexicon,
Phương pháp Học máy và Phương pháp Tiếp cận Kết hợp. Ngoài ra, các nhà nghiên cứu đang liên tục cố gắng
tìm ra những cách tốt hơn để hoàn thành nhiệm vụ với độ chính xác tốt hơn và chi phí tính toán thấp hơn.
Tổng quan về các phương pháp khác nhau được sử dụng trong Phân tích cảm xúc như được trình bày trong Hình
4. Phương pháp chung về nhiệm vụ Thu thập dữ liệu, Lựa chọn tính năng và Phân tích tình cảm được trình bày
trong Hình 2 .
4.1 Cách tiếp cận dựa trên từ vựng
Lexicons là tập hợp các mã thông báo trong đó mỗi mã thông báo được chỉ định với một điểm số được xác định
trước cho biết bản chất trung lập, tích cực và tiêu cực của văn bản (Kiritchenko et al.
2014). Điểm số được chỉ định mã thông báo dựa trên phân cực như + 1, 0, - 1 cho tích cực, trung tính, tiêu
cực hoặc điểm số có thể được chỉ định dựa trên cường độ của cực và các giá trị của nó nằm trong khoảng [+
1, - 1] trong đó + 1 đại diện cho mức độ tích cực cao và - 1 đại diện cho mức độ tiêu cực cao. Trong
Phương pháp Tiếp cận Dựa trên Lexicon, đối với một bài đánh giá hoặc văn bản nhất định, việc tổng hợp điểm
của mỗi mã thông báo được thực hiện, tức là các điểm tích cực, tiêu cực, trung tính được tổng hợp riêng biệt.
Trong giai đoạn cuối cùng, phân cực tổng thể được gán cho văn bản dựa trên giá trị cao nhất của điểm số
phụ nữ. Do đó, tài liệu trước tiên được chia thành các mã thông báo của các từ đơn lẻ, trong đó-sau khi
phân cực của mỗi mã thông báo được tính toán và tổng hợp cuối cùng.
Kỹ thuật dựa trên từ vựng cực kỳ khả thi để phân tích tình cảm ở cấp độ câu và tính năng. Bởi vì không
yêu cầu dữ liệu đào tạo, nó có thể được gọi là một kỹ thuật không được giám sát. Mặt khác, nhược điểm
chính của kỹ thuật này là phụ thuộc miền, vì các từ có thể có nhiều nghĩa và nhiều nghĩa, và do đó một từ
tích cực trong miền này có thể là tiêu cực trong miền khác. Ví dụ: với từ "nhỏ" và các câu "Màn hình TV
quá nhỏ" và "Máy ảnh này cực kỳ nhỏ", từ "nhỏ" trong câu đầu tiên là phủ định, vì mọi người thường thích
màn hình lớn hơn, trong khi câu thứ hai nó là tích cực, như thể máy ảnh nhỏ, nó sẽ dễ dàng mang theo. Vấn
đề này có thể được khắc phục bằng cách phát triển một từ vựng về tình cảm theo miền cụ thể hoặc bằng cách
điều chỉnh một từ vựng hiện có.
Ưu điểm của phương pháp dựa trên từ vựng là không yêu cầu bất kỳ dữ liệu đào tạo nào và được một số
chuyên gia coi là phương pháp tiếp cận không giám sát (Yan-Yan et al. 2010). Nhược điểm chính của cách
tiếp cận dựa trên từ vựng là nó có tính định hướng miền cao và các từ liên quan đến một miền không thể
được sử dụng trong một miền khác (Moreo và cộng sự 2012). Ví dụ, hãy xem xét từ khổng lồ, nó có thể là
tích cực hoặc tiêu cực dựa trên miền mà nó đang được sử dụng. Trong “hàng đợi xem phim rất lớn”, từ này
có thể được coi là tích cực trong khi đó, trong “có độ trễ lớn về mạng” thì từ này có thể được coi là nega
tive. Do đó, phân cực nên được gán cho các từ một cách cẩn thận, xem xét miền.
Có hai cách tiếp cận chủ yếu được sử dụng trong Phương pháp Tiếp cận Dựa trên Lexicon: Phương pháp Dựa
trên Tổng thể và Phương pháp Thống kê được giải thích dưới đây, Phân tích So sánh của Phương pháp Phân
loại Dựa trên Lexicon và Lợi thế và Bất lợi riêng của nó được trình bày trong Bảng 3.
1 3
4.1.1 Phương pháp tiếp cận dựa trên tập đoàn
Cách tiếp cận sử dụng các mẫu ngữ nghĩa và cú pháp để xác định biểu tượng cảm xúc của câu. Cách tiếp
cận này bắt đầu với một tập hợp các thuật ngữ tình cảm được xác định trước và định hướng của chúng, sau
đó điều tra cú pháp hoặc các mẫu tương tự để khám phá các mã thông báo tình cảm và định hướng của chúng
trong một kho ngữ liệu khổng lồ. Đây là một phương pháp theo tình huống cụ thể yêu cầu một lượng đáng kể
dữ liệu được gắn nhãn để huấn luyện. Tuy nhiên, nó hỗ trợ trong việc giải quyết vấn đề của các từ quan
điểm với các định hướng phụ thuộc vào ngữ cảnh.
Trong công trình của Park và Kim (2016) đã sử dụng phương pháp dựa trên ngữ liệu cho tình trạng bệnh
qua đường hậu môn. Họ đã sử dụng các ràng buộc và liên kết ngôn ngữ để gắn kết tình cảm của một mã thông
báo mới. Ví dụ: các mã thông báo ở hai bên của các liên từ tương quan như "VÀ" có xu hướng có cùng hướng
trong khi các từ như "HOẶC", nhưng chỉ ra sự thay đổi quan điểm hoặc các mã thông báo theo hướng ngược
lại. Mặc dù ý tưởng này thường được biết đến với cái tên Nhất quán Tâm tình, nhưng trên thực tế, điều
này không nhất quán. Vì vậy, họ đã xây dựng một biểu đồ có chứa các mã thông báo ở các đỉnh và từ tương
ứng của chúng ở các cạnh, sau đó mô hình nhật ký tuyến tính được sử dụng để xác định xem hai tính từ
dính liền có hay giống nhau hoặc đối lập với nhau hay không và sau đó được nhóm lại thành một tập hợp
các từ tích cực hoặc tiêu cực .
Cách tiếp cận dựa trên kho dữ liệu có các loại cách tiếp cận sau:
Phương pháp tiếp cận và Phương pháp tiếp cận ngữ nghĩa như được giải thích bên dưới.
Phương pháp tiếp cận thống kê Có thể tìm thấy các từ quan điểm gốc hoặc các mẫu đồng xuất hiện bằng
cách sử dụng phương pháp thống kê. Ý tưởng sơ lược đằng sau cách tiếp cận này là nếu nó xuất hiện trong
các văn bản tích cực nhiều hơn các văn bản tiêu cực, thì nó có nhiều khả năng là tích cực hoặc ngược
lại. Tiền đề quan trọng của cách tiếp cận này là nếu các mã thông báo tình cảm có thể so sánh được thường
xuyên được quan sát trong cùng một môi trường, chúng có thể sẽ có cùng định hướng.
Do đó, hướng của mã thông báo mới được xác định bởi tần suất mà nó xuất hiện cùng với các mã thông báo
khác được phát hiện trong bối cảnh tương tự. Trong Turney và Littman (2003), phương pháp tính toán thông
tin lẫn nhau có thể được sử dụng để tính toán chu kỳ tự do của các lần đồng xuất hiện của mã thông báo.
Phương pháp thống kê chủ yếu được sử dụng trong một số ứng dụng phân tích tình cảm. Một ứng dụng như
vậy là phát hiện các bài đánh giá bị thao túng bằng cách chạy một bài kiểm tra thống kê về độ tuổi đã
chạy, thường được gọi là bài kiểm tra đào tạo. Trong công việc của Hu et al. (2012) dự kiến rằng các bài
đánh giá do khách hàng viết sẽ có phong cách viết ngẫu nhiên do cơ sở ngẫu nhiên của khách hàng. Họ đã
sử dụng tập dữ liệu đánh giá sách từ amazon.com để xác định kết quả của họ, nhưng họ nhận thấy rằng gần
10,3% sản phẩm đã bị thao túng đánh giá trực tuyến.
LSA là một kỹ thuật thống kê khác để phân tích các liên kết giữa các giấy tờ và mã thông báo được
tham chiếu trong các tài liệu nhằm tạo ra các mẫu thiết yếu kết nối với các tài liệu và cụm từ. Trong
công việc của Cao et al. (2011) trong LSA đã sử dụng để điều chỉnh các mối quan hệ đủ tiêu chuẩn ngữ
nghĩa từ các bài đánh giá nhằm điều tra sự hoàn thiện của các tính năng khác nhau. Họ đã thu hút bộ dữ
liệu phản hồi của người dùng chương trình từ trang web CNETdownload.com. Mục tiêu chính của họ là tìm ra
lý do tại sao một số đánh giá nhận được phiếu bầu hữu ích trong khi một số bài đánh giá nhận được phiếu bầu hữu ích.
Họ đã xác định các yếu tố khác nhau có thể ảnh hưởng đến mô hình bỏ phiếu hữu ích cho các bài đánh giá.
Tiếp cận theo ngữ nghĩa Trong cách tiếp cận này, điểm tương tự được tính toán giữa các mã thông báo
được sử dụng để Phân tích cảm xúc. Wordnet thường được sử dụng cho nhiệm vụ này.
Bạn có thể dễ dàng tìm thấy từ trái nghĩa và từ đồng nghĩa bằng cách sử dụng phương pháp này vì các từ
tương tự có điểm tích cực hoặc giá trị cao hơn. Trong Maks và Vossen (2012) đã đề xuất rằng phương pháp
tiếp cận ngữ nghĩa có thể được sử dụng trong các ứng dụng khác nhau để xây dựng một mô hình từ vựng có
thể được sử dụng để mô tả tính từ, động từ và danh từ để sử dụng trong Phân tích cảm xúc. Họ mô tả,
1 3
sự miêu tả sâu sắc các mối quan hệ chủ quan giữa các nhân vật trong một tuyên bố truyền tải thái độ riêng biệt
cho mỗi nhân vật. tính chủ quan được gắn thẻ với kiến thức liên quan đến cả bản sắc và định hướng của người
giữ thái độ. Trong công việc của Bordes et al.
(2014), Bhaskar và cộng sự. (2015), Rao và Ravichandran (2009) đã làm việc trên tập dữ liệu Mạng từ trong công
việc của họ. Họ xác định rằng tính chủ quan của người xem và tính chủ quan của diễn viên có thể được phân biệt
trong một số trường hợp (Hershcovich và Donatelli 2021).
4.1.2 Phương pháp dựa trên từ điển
Phương pháp tiếp cận dựa trên từ điển bao gồm một danh sách các từ quan điểm đã định sẵn được thu thập theo
cách thủ công (Chetviorkin và Loukachevitch 2012; Kaity và Balakrishnan 2020). Giả thiết cơ bản đằng sau cách
tiếp cận này là các từ đồng nghĩa có cùng cực với từ cơ sở, trong khi từ trái nghĩa có cực ngược lại. Kho ngữ
liệu lớn như thesaurus hoặc wordnet được xem xét để tìm từ trái nghĩa và từ đồng nghĩa, sau đó nó được thêm
vào một nhóm hoặc danh sách hạt giống đã chuẩn bị trước đó. Trong giai đoạn đầu, tập hợp các từ ban đầu được
thu thập theo cách thủ công với định hướng của chúng. Sau đó, danh sách được mở rộng bằng cách xem xét các từ
trái nghĩa và đồng nghĩa trong các nguồn từ vựng có sẵn (Singh và cộng sự 2017; Ho và cộng sự 2014). Sau đó,
các từ được thêm nhiều lần vào danh sách và danh sách được mở rộng. Việc đánh giá hoặc hiệu chỉnh thủ công có
thể được thực hiện trong giai đoạn cuối cùng để đảm bảo chất lượng của nó. Stefano và Andrea đã tạo ra
SentiWordNet ba cách ở Baccianella et al. (2010) với sự trợ giúp của chú thích tự động của Mạng từ 3 phút
hệ thống synsets. Một nguồn từ điển đồng nghĩa nổi tiếng khác được tạo ra dựa trên các từ điển trực tuyến.
Trong công trình của Park và Kim (2016) đã đề xuất một chiến lược dựa trên quy tắc để gắn nhãn các câu và từ
ngữ tình cảm trong quảng cáo theo ngữ cảnh bằng cách sử dụng phương pháp dựa trên từ điển. Cách tiếp cận này
chỉ khả thi đối với kích thước từ điển nhỏ. Một nhược điểm khác của tất cả các phương pháp tiếp cận dựa trên
từ vựng (Hajek et al. 2020), bao gồm cả phương pháp dựa trên từ điển, là kết hợp các từ quan điểm cụ thể cho
từng miền vì các cực có thể khác nhau. Bước quy trình chung trong loại học tập không giám sát bằng Lexicon
được trình bày trong Hình 6. Phân tích tóm tắt của Phương pháp phân loại dựa trên Lexicon và Ưu điểm và Nhược
điểm của nó được trình bày trong Bảng 3 và Phân tích tóm tắt của Phương pháp phân cụm và Ưu điểm và Nhược điểm
của nó được trình bày trong Bảng 2.
• Công cụ dựa trên phương pháp Lexicon Tóm tắt Phân tích các công cụ của phương pháp dựa trên Lexicon và Từ
điển có sẵn như giải thích bên dưới
• Từ điển định nghĩa trước Sử dụng danh sách các từ tích cực và tiêu cực được định nghĩa trước để xác định độ
phân cực của văn bản dựa trên tần suất mà mỗi thể loại được gửi đi .
• SentiWordNet SentiWordNet chỉ định điểm số cảm nhận cho các tập hợp mạng Word là tích cực hoặc tiêu cực.4
• Bing Liu's Sentiment Lexicon Một từ điển có 4783 tích cực và tiêu cực hữu ích
lời nói.5
• SentiStrength Trừ khi được sửa đổi bởi bất kỳ quy tắc phân loại bổ sung nào, văn bản được phân loại theo
điểm tích cực hoặc tiêu cực cao nhất cho bất kỳ từ cấu thành nào.6
3
http://www.wjh.harvard.edu/~inquirer/
4
http://sentiwordnet.isti.cnr.it. https://
5
www.cs.uic.edu/~liub/FBS/sentiment-analysis.html. http://
6
sentistrength.wlv.ac.uk.
1 3
1 3
Thuật
toán
chia
hết Thuật
toán
tổng
hợp
Không
phụ
thuộc
vào
số
lượng
cụm
hoặc
trọng
tâm Phương
tiện
c
mờ K-
có
nghĩa
là Kĩ
thuật Bảng
2
Ưu
điểm
và
nhược
điểm
của
các
phương
pháp
phân
tích
theo
nhóm
phân
tích
tình
cảm
giản
Đơn
để
thực
hiện
và,
trong
một
số
trường
hợp,
tạo
ra
kết
quả
tốt
nhất Không
dựa
vào
số
lượng
cụm
hoặc
trung
tâm Nó
luôn
hội
tụ Một
cách
tiếp
cận
chi
phí
thấp,
khoa
học
và
cực
kỳ
thuận
tiện
cho
tình
cảm Yêu
cầu
bộ
nhớ
là
tối
thiểu này
Điều
có
nghĩa
là
nó
không
có
sự
can
thiệp
của
con
người Không
yêu
cầu
đào
tạo Thuật
toán
không
bắt
buộc
phải
biết
lớp
của
tài
liệu
trong Thuật
toán
không
bắt
buộc
phải
biết
lớp
của
tài
liệu
trong Do
thực
tế
là
các
thuật
toán
này
đạt
được
độ
phức
tạp
trong
tuyến
tính Thuận
lợi
phân
tích nâng
cao nâng
cao.
Không
yêu
cầu
đào
tạo thời
gian,
chúng
rất
phù
hợp
cho
các
bộ
dữ
liệu
lớn
Xác
định
số
lượng
cụm
chính
xác
bằng
cách
sử
dụng
biểu
đồ
dendogram Không
có
mục
tiêu
giảm
trực
tiếp
đạt
được.
khi,
Đôi
nó
có
thể
được
thử
thách Các
thuật
toán
không
bao
giờ
có
thể
xóa
các
hành
động
trước
đó Các
thuật
toán
phân
cấp
có
mức
độ
phức
tạp
về
thời
gian
cao.
Mặc
dù Thời
gian
tính
toán
cao Nó
dễ
bị
ảnh
hưởng
bởi
các
giả
định
ban
đầu
và
có
thể
kết
thúc
ở
mức
cực
tiểu
cục
bộ Các
phương
pháp
này
đấu
tranh
với
sự
bất
thường
và
nhiễu,
cũng
như họ
nhạy
cảm
với
các
vị
trí
trung
tâm
xuất
phát
và
đưa
ra
giả
định Vấn
đề
với
những
kỹ
thuật
này
là Nếu
có
bất
kỳ
sự
mơ
hồ
nào,
nó
không
đủ
chính
xác Bất
lợi
ing
đến nó
có
các
đặc
tính
phân
cụm
ưu
việt,
chi
phí
cao
hạn
chế
việc
sử
dụng
nó
trong
các
ứng
dụng
dữ
liệu
quy
mô
lớn mẹ cụm
lồi cho
rằng
số
lượng
các
cụm
đã
được
biết
5747 Một cuộc khảo sát về các phương pháp phân tích tình cảm, ứng dụng và…
Bảng 3 Phân tích tóm tắt về phương pháp phân loại dựa trên Lexicon và ưu nhược điểm của nó
Kĩ thuật Thuận lợi Bất lợi
Dữ liệu được đào tạo dựa trên từ điển không bắt buộc Các điều khoản cho ý kiến với định
Mang lại kết quả tốt cho các miền có ít băng tần hơn hướng nội dung cụ thể
Truy cập nhanh vào vốn từ vựng về nghĩa của từ Không có khả năng kết hợp các thuật ngữ
quan điểm với một miền hướng nội dung

cụ thể không được bao gồm trong từ
điển
Dựa trên Corpus Năng lực xác định các biểu hiện quan điểm với một định Do phạm vi rộng của từ vựng, hiệu suất
hướng nội dung cụ thể. Khi các miền khác biệt, cung thay đổi
cấp kết quả vượt trội Tính phức tạp của việc cung cấp
các văn bản quan trọng trong khi cũng

có thể bao hàm tất cả các thuật ngữ văn
bản có nghĩa là chúng không thể được sử
dụng riêng lẻ
Thủ công
Kiểm tra lại
Tập huấn
Thủ công
Thuật toán Kiểm tra lại
Thủ công
Nguyên Đào tạo Kiểm tra lại Sản xuất
Người mẫu
Dữ liệu Thuật toán
Hình 5 Quy trình chung để phân tích tình cảm trong danh mục học máy có giám sát
• Nhận dạng ý kiến Công cụ tìm kiếm ý kiến tự động nhận ra các tuyên bố chủ quan và nêu bật một
số đặc điểm về tính chủ quan của chúng, chẳng hạn như nguồn gốc (người nắm giữ) chủ quan và
các thuật ngữ có trong các cụm từ chỉ quan điểm tích cực hoặc tiêu cực.7
• National Taiwan University Sentiment Dictionary chứa 2812 Tích cực và 8276 Tiêu cực
từ atives.8
• WordNet-Afect WordNet-Afect là một tiện ích mở rộng WordNet Domains bao gồm một tập hợp con các
bộ mã nguồn thích hợp để biểu diễn các khái niệm tương lai được liên kết với các từ mang màu
sắc cảm xúc.9
• Định mức tổng thể cho các từ tiếng Anh Định mức tổng thể cho các từ tiếng Anh là một tập hợp
các xếp hạng cảm xúc quy chuẩn cho một số lượng lớn các từ tiếng Anh. Bộ sưu tập các tài liệu
ngôn ngữ này đã được phân loại về mức độ thích thú, kích thích và chiếm ưu thế nhằm thiết lập
cơ sở cho các nghiên cứu trong tương lai về tình cảm và sự chú ý.10
7
http://mpqa.cs.pitt.edu/opinionfnder.
số 8
http://academiasinicanlplab.github.io.
9
http://csea.phhp.uf.edu/media/anewmessage.html.
10
http://csea.phhp.uf.edu/media/anewmessage.html.
1 3
Cụm Sản xuất
Thủ công
Kiểm tra lại
Phân cụm Thủ công

Thuật toán Kiểm tra lại
Thủ công
Nguyên
Kiểm tra lại
Dữ liệu
Hình 6 Quy trình chung để phân tích tình cảm trong danh mục học máy không giám sát
• LingPipe có thể hoạt động trên nhiều hoạt động, chẳng hạn như xác định chủ đề, xác định các thực thể được
đặt tên, phân tích cú pháp và lập chỉ mục tài liệu, khai thác văn bản cơ sở dữ liệu, phân đoạn từ,
phân tích tình cảm và nhận dạng ngôn ngữ.11
• Apache OpenNLP cung cấp hỗ trợ phân tích cú pháp câu, mã hóa, gắn thẻ một phần giọng nói, phân đoạn, phân
đoạn, trích xuất thực thể được đặt tên, nhận dạng ngôn ngữ và phân giải lõi tham chiếu.12
• Lexicon Sentiment Dictionary Một ngôn ngữ được sử dụng trong chính trị.13
4.2 Phương pháp tiếp cận máy học
Các thuật toán học máy có thể được sử dụng để phân loại tình cảm. Phân tích cảm xúc là quá trình xác định
và định lượng cảm xúc của văn bản hoặc âm thanh bằng cách sử dụng cách xử lý lan truyền tự nhiên, phân tích
văn bản, ngôn ngữ học tính toán và các kỹ thuật khác. Dữ liệu Col thu thập từ Truyền thông xã hội và bước
xử lý để phân tích tình cảm trong danh mục Tìm hiểu có giám sát được hiển thị trong Hình 5 và danh mục Học
không giám sát được hiển thị trong Hình 6. Có hai cách tiếp cận chính trong Học máy để phân tích tình cảm:
• Máy học có giám sát

• Học tập không giám sát dựa trên Lexicon
Nhiệm vụ này có thể được hoàn thành bằng cách sử dụng phương pháp học tập có giám sát và không giám sát.
Các chiến lược không được giám sát để phân tích tình cảm bằng cách sử dụng cơ sở kiến thức, ontolo gies,
cơ sở dữ liệu và từ vựng bao gồm kiến thức chi tiết đã được chọn lọc và
11
http://alias-i.com/lingpipe.
12
http://incubator.apache.org/opennlp.
13
http://www.lexicoder.com.
1 3
chuẩn bị cụ thể để phân tích tình cảm. Phương pháp học tập có giám sát được sử dụng nhiều hơn do
kết quả chính xác của chúng. Các thuật toán này cần được đào tạo trên một tập huấn luyện trước khi
nó được áp dụng vào dữ liệu thực tế. Các tính năng có thể được trích xuất từ dữ liệu văn bản.
Kỹ thuật học máy sử dụng các yếu tố cú pháp và / hoặc ngôn ngữ để giải quyết việc phân loại tình
cảm như một vấn đề phân loại văn bản tiêu chuẩn sử dụng các yếu tố cú pháp và / hoặc lin quan. Mô
hình phân loại liên kết các tính năng của bản ghi bên dưới với một trong các nhãn lớp. Sau đó, mô
hình được sử dụng để dự đoán nhãn lớp cho một phiên bản nhất định của lớp chưa biết. Khi một cá thể
chỉ được gán một nhãn, chúng ta có một thách thức khó phân loại mèo. Khi một giá trị xác suất của
các nhãn được gán cho một cá thể, điều này được gọi là vấn đề phân loại mềm. Học máy cho phép các
hệ thống có được những khả năng mới mà không cần được lập trình rõ ràng để làm như vậy. Các thuật
toán phân tích cảm xúc có thể được đào tạo để đọc ngoài các định nghĩa đơn giản để hiểu thông tin
theo ngữ cảnh, sar casm và các từ được áp dụng sai. Các thuật toán thường được sử dụng bao gồm:
4.2.1 Naive Bayes (NB)
Kỹ thuật NB được sử dụng cho cả phân loại và đào tạo. NB là cách tiếp cận cation Bayesian classif
dựa trên định lý bayes. NB là một nhà phân loại xác suất sử dụng định lý Bayes để dự đoán xác suất
của một tập hợp các đặc trưng nhất định như một phần của bất kỳ nhãn cụ thể nào. Xác suất có điều
kiện để sự kiện A xảy ra với các xác suất riêng lẻ của A và B và xác suất có điều kiện của sự kiện
B. Ở đây giả định rằng các phép thử fea không phụ thuộc. Mô hình BoW có thể được sử dụng để trích
xuất tính năng. Nói chung, NB được áp dụng khi kích thước dữ liệu huấn luyện nhỏ. NB được phân loại
là tích cực chính xác hơn 10% so với phân loại âm. Điều này dẫn đến giảm độ chính xác trung bình
khi nó được chụp.
Trong công trình của Kang et al. (2012) đã giải quyết vấn đề này bằng cách sử dụng phiên bản cải
tiến của NB classifer. Họ đã thử nghiệm mô hình này trên tập dữ liệu đánh giá nhà hàng. Trong công
việc của Tripathy et al. (2015) đã sử dụng máy học để phân loại các bài đánh giá. Họ đã đề xuất một
mô hình NB cùng với một mô hình SVM (Hajek et al. 2020; Bordes et al. 2014). Họ đã sử dụng tập dữ
liệu đánh giá phim để đào tạo và thử nghiệm các mô hình. Hai nghìn đánh giá đã được đào tạo sau khi
xử lý trước và vector hóa tập dữ liệu đào tạo. Count Vectorizer và TF-IDF đã được sử dụng trước khi
đào tạo mô hình học máy. Mô hình NB được đề xuất trong Tripathy et al. (2015) đưa ra độ chính xác
89,05% trong xác thực chéo K-lần. Hiệu suất tốt hơn khi so sánh với các mô hình khác sử dụng thuật
toán NB xác suất (Calders và Verwer 2010).
4.2.2 Máy vectơ hỗ trợ (SVM)
Cách tiếp cận SVM, sử dụng siêu mặt phẳng, được sử dụng để phân tích dữ liệu và xác định giới hạn
quyết định của nó trong kỹ thuật này. SVM là một loại kỹ thuật học tập có giám sát không theo xác
suất thường được sử dụng cho các nhiệm vụ phân loại. Mục tiêu chính của SVM là xác định siêu phẳng
phân tách tốt nhất dữ liệu thành các lớp riêng biệt. Kết quả là, SVM tìm kiếm siêu mặt phẳng có lợi
nhuận khả thi cao nhất. Trong công việc của Li và Li (2013), đã sử dụng Sup port Vector Machines
cho Classifer phân cực cảm tính. Phân loại các đánh giá dựa trên chất lượng của chúng là một trong
nhiều mục đích mà SVM được sử dụng. Chen và Tseng (2011) đã sử dụng hai cách tiếp cận dựa trên SVM
nhiều lớp. Đầu tiên là SVM Một chọi tất cả và SVM Nhiều lớp để phân loại đánh giá. Thứ hai, một
phương pháp đã được đề xuất để đánh giá chất lượng của bộ dữ liệu đánh giá sản phẩm bằng cách coi
nó như một bài toán phân loại. Trong công việc của Dave et al. (2003) làm việc trên các đánh giá
MP3 và đánh giá máy ảnh kỹ thuật số. Borg và Boldt
1 3
(2020) đã sử dụng Linear SVM và VADER để dự đoán ý kiến đánh giá của khách hàng. Bài đánh giá
thuộc về Tập đoàn Viễn thông Thụy Điển Huge. Bộ dữ liệu rất lớn và bao gồm 168, 010 email để
đào tạo. Họ sử dụng tình cảm Thụy Điển Lexicon và VADER senti ment để ghi nhãn ban đầu. Mô
hình SVM tuyến tính (Li et al. 2019a) của họ đã hoạt động đáng kinh ngạc với điểm F1 là 83,4%
và AUC trung bình là 0,896. Hơn nữa, mô hình của họ làm nổi bật một mô hình đã được dự đoán
trong các cuộc trò chuyện qua Email, sử dụng cảm xúc của Email không nhìn thấy nào đang được
dự đoán. Trong công việc của Xia et al. (2020) khuyến cáo rằng nên xem xét tính chủ quan của ý
kiến và độ tin cậy của người trình bày, không giống như Vấn đề cation Classif nhị phân thông
thường. Một khuôn khổ (Wu et al. 2020) đã được đề xuất để tổng hợp các ý kiến về blog nhỏ. Họ
tìm và truy xuất các chủ đề được đề cập trong các ý kiến liên quan đến các câu hỏi của người
dùng và sau đó phân loại các ý kiến bằng cách sử dụng SVM. Ali và cộng sự. (2020) cũng đã làm
việc trên dữ liệu tweet của Twitter cho thử nghiệm. Họ nhận thấy rằng việc tổng hợp các ion
opin cho các blog nhỏ sẽ rất hữu ích.
4.2.3 Hồi quy logistic (LR)
Một kỹ thuật học máy được gọi là hồi quy logistic hoạt động bằng cách nhân một giá trị đầu vào
với một giá trị trọng số. Nó là một người phân loại để tìm hiểu các thuộc tính đầu vào nào hữu
ích nhất trong việc xác định các lớp tích cực và tiêu cực. Hồi quy logistic là một phân tích
hồi quy xác suất được sử dụng cho các nhiệm vụ phân loại. Đối với các ứng dụng phân loại nhị
phân, sion hồi quy logistic thường được triển khai. Khi có nhiều biến giải thích, logistic
regres sion sẽ tính toán tỷ lệ chênh lệch. Hồi quy logistic sử dụng Khả năng tối đa để tính
toán các tham số tốt nhất. Các biến độc lập có thể thuộc về bất kỳ loại nào, tức là, Liên tục,
Rời rạc (thứ tự và danh nghĩa). Mô hình LR (Hamdan và cộng sự 2015) mà biến phụ thuộc có thể
là nhị phân và có rất ít hoặc không có đa cộng tuyến giữa các biến dự đoán.
4.2.4 Cây quyết định (DT)
DT Classifer là một kỹ thuật học có giám sát trong đó cây được xây dựng bằng cách sử dụng ví
dụ đào tạo để phân loại cực của văn bản. DT sử dụng một điều kiện để chia dữ liệu thành các
phần một cách đệ quy. RF được sử dụng thường xuyên hơn DT kết hợp nhiều DT để tránh quá tải và
cải thiện độ chính xác. DT có thể được xây dựng bằng một số thuật toán như CART, ID3, C5.0,
C4.5 (Revathy và Lawrance 2017; Hssina và cộng sự 2014; Singh và Gupta 2014; Patel và Prajapati
2018). Chúng được sử dụng để xác định thuộc tính ftting tốt nhất cần được đặt ở gốc (Gower
1966; Revathy và Lawrance 2017; Patil và cộng sự 2012). Yan Yan và cộng sự. (2010) bằng cách
sử dụng chiến lược dựa trên đồ thị, Họ đã đề xuất một chiến lược truyền bá để tích hợp các
tính năng ở cấp độ câu và cấp độ câu. Hai đặc điểm cụm từ này được gọi là xác minh tài liệu
nội bộ và nội bộ. Họ cố gắng lập luận rằng việc xác định phân loại tình cảm của một câu đánh
giá đòi hỏi nhiều hơn là chỉ đơn giản là kiểm tra các thành phần của tuyên bố. Họ đã điều tra
miền camera và so sánh kết quả của họ với kết quả thu được bằng SVM và NB Classifers. Trong
công trình của Jain et al. (2021a) dữ liệu được gắn thẻ có thể được sử dụng để phân biệt giữa
các bài đánh giá chính hãng và gian lận. Ngoài ra, chúng tôi đã sử dụng hai tập dữ liệu riêng
biệt để kiểm tra các kỹ thuật máy học khác nhau để phân loại (tập dữ liệu đánh giá khách sạn
Yelp, tập dữ liệu đánh giá nhà hàng Yelp).
1 3
4.2.5 Entropy cực đại (ME)
Phân loại theo cấp số nhân có điều kiện: Phân loại theo cấp số nhân có điều kiện mã hóa các tập hợp
tính năng được gắn nhãn dưới dạng vectơ hoặc mảng số nguyên. Sau đó, vectơ này được sử dụng để tính
toán trọng số của đối tượng, có thể được sử dụng để chọn nhãn có khả năng xảy ra nhất cho bộ đối
tượng. Entropy là một thước đo của sự không thể đoán trước. Entropy là tối đa cho dữ liệu được phân
phối đồng nhất. Dữ liệu đầu vào bao gồm các văn bản và xếp hạng từ 1-5 cực được gán cho nó. Các
thuật toán được sử dụng phổ biến nhất bao gồm SVM, NB, ME (Khairnar và Kinikar 2013; Kaufmann 2012)
đã sử dụng ME Classifer để phát hiện các câu song song trong bất kỳ cặp ngôn ngữ nào có ít dữ liệu
huấn luyện hơn. Các mô hình khác được sử dụng hoặc yêu cầu một lượng lớn tập dữ liệu đào tạo hoặc
sử dụng kỹ thuật ngôn ngữ-cụ thể (Bergsma et al. 2012), nhưng mô hình của họ cho thấy kết quả cải
thiện có thể được tạo ra bằng cách sử dụng bất kỳ cặp ngôn ngữ nào. Điều này sẽ cho phép thiết lập
kho tài liệu song song cho các ngôn ngữ khác nhau.
4.2.6 K ‑ hàng xóm gần nhất (KNN)
Thuật toán KNN không được sử dụng rộng rãi trong phân tích cảm tính nhưng đã cho thấy tạo ra kết
quả tốt khi được đào tạo cẩn thận. Nó hoạt động dựa trên thực tế là phân loại của một mẫu thử
nghiệm sẽ tương tự như các nước láng giềng gần đó. Giá trị K có thể được chọn trên bất kỳ thuật
toán điều chỉnh siêu tham số nào như Tìm kiếm theo lưới hoặc Xác nhận chéo tìm kiếm ngẫu nhiên. Cực
tính có thể được bình chọn cứng dựa trên K giá trị lân cận gần nhất, hoặc bổ sung mềm có thể được
thực hiện để phân cực tổng thể.
4.2.7 Học tập bán giám sát
Trong trường hợp này, khi tập dữ liệu đào tạo chứa cả dữ liệu được gắn nhãn và không được gắn
nhãn, học bán giám sát dường như là một lựa chọn khả thi (Zhu và Goldberg 2009). Có động lực là mặc
dù việc thu thập dữ liệu không được gắn nhãn tương đối dễ dàng trong nhiều ứng dụng trong thế giới
thực, chẳng hạn như thu thập các bài báo từ các blog khác nhau, nhưng việc dán nhãn rất tốn kém
hoặc tốn công vì việc dán nhãn cho tập dữ liệu đào tạo thường do con người thực hiện. Ortigosa-
Hernán dez và cộng sự. (2012) đã giới thiệu trong tác phẩm về một tình huống trong thế giới thực,
trong đó thái độ của người dùng được xác định bởi ba biến mục tiêu riêng biệt (nhưng có liên quan):
tính chủ quan, tình cảm đơn thuần và ý chí đối với suy nghĩ. Trong công trình của Janjua et al.
(2021) khung cho học máy bán giám sát kết hợp các thuật toán tiền xử lý và phân loại cho các tập dữ
liệu chưa được gắn nhãn.
Tóm tắt các Kỹ thuật Phân tích Tâm lý Khác nhau Lợi thế và Bất lợi của nó
được thể hiện trong Bảng 5.
4.3 Cách tiếp cận kết hợp
Phương pháp kết hợp kết hợp học máy và phương pháp tiếp cận dựa trên từ vựng. Hybrid là một thuật
ngữ đề cập đến sự kết hợp của máy học và các kỹ thuật dựa trên từ vựng để phân tích cảm tính. Kỹ
thuật hybrid kết hợp cả hai và cực kỳ phổ biến, với các từ vựng tình cảm đóng một vai trò quan
trọng trong phần lớn các hệ thống. Phân tích cảm xúc là một phương pháp kết hợp, bao gồm cả phương
pháp thống kê và dựa trên kiến thức để nhận dạng cực. Trong công trình của Hassonah et al. (2020a)
đã đề xuất một phương pháp học máy kết hợp sử dụng SVM và hai kỹ thuật lựa chọn tính năng bằng cách
sử dụng trình tối ưu hóa nhiều câu
1 3
1 3
Máy
biến
áp CNN Bi-
LSTM LSTM RNN DNN LR TÔI RF KNN DT SVM NB Kĩ
thuật Bảng
4
Phân
tích
tóm
tắt
về
thuật
toán
phân
loại
học
máy
và
ưu
nhược
điểm
của
nó
Chỉ
tập
trung
vào
phần
quan
trọng
của
câu Sử
dụng
mô
hình
tự
chú
ý
để
liên
kết
phụ
thuộc chính
Độ
xác
cao,
đào
tạo
nhanh Có
thể
thu
được
kết
quả
tốt
hơn
khi
so
sánh
với
phương
pháp
khác Có
thể
loại
bỏ
sự
phụ
thuộc
theo
cả
hai
hướng Có
thể
vạch
ra
sự
phụ
thuộc
lâu
dài Thông
minh
hơn
RNN So
với
các
mô
hình
DL
khác,
mô
hình
này
khá
đơn
giản
để
triển
khai
Chụp
dữ
liệu
tuần
tự,
điều
này
rất
quan
trọng
đối
với
việc
phân
loại
văn
bản
cảm
tính Không
có
giả
định
nào
được
đưa
ra
về
phân
phối
của
các
lớp
trong
không
gian
đặc
trưng Hoạt
động
trên
mô
hình
xác
suất.
Do
đó,
không
cần
nhiều
dữ
liệu
đào
tạo
Các
mô
hình
đơn
giản
nhất
để
triển
khai
và
đào
tạo Mô
hình
ít
có
khả
năng
bị
vượt
mức
đáng
kể Mô
hình
mạnh
mẽ
và
rất
ổn
định Dữ
liệu
có
thể
được
bổ
sung
liên
tục
theo
thời
gian
mà
không
cần
đào
tạo
rõ
ràng Các
ranh
giới
quyết
định
phi
tuyến
tính
có
thể
được
xây
dựng Tập
dữ
liệu
mở
rộng
không
cần
thiết
để
đào
tạo Thời
gian
đào
tạo
ít
hơn Dễ
thi
công Mang
lại
độ
chính
xác
tốt
cho
tập
dữ
liệu
lớn Thuật
toán
phổ
biến
nhất
cho
SA Yêu
cầu
ít
thời
gian
đào
tạo
và
dữ
liệu
hơn
các
cách
tiếp
cận
khác Yêu
cầu
ít
dữ
liệu
đào
tạo
hơn Dễ
để
thực
hiện Thuận
lợi
Yêu
cầu
dữ
liệu
lớn Ít
phổ
biến
và
ít
được
sử
dụng Thiết
kế
và
bảo
trì
tốn
nhiều
thời
gian tạo
Đào
rất
chậm Tính
toán
rất
tốn
kém Thời
gian
đào
tạo
cao Mô
hình
rất
phức
tạp Phức
tạp
và
tốn
kém
về
mặt
tính
toán tạo
Đào
chậm
hơn
các
mô
hình
khác Vấn
đề
quá
mức chính
Độ
xác
thấp
đối
với
tập
dữ
liệu
phức
tạp Các
ranh
giới
tuyến
tính
được
xây
dựng Mô
hình
được
định
hướng
theo
miền
và
sẽ
không
hoạt
động
tốt
đối
với
tập
dữ
liệu
khác
nhau Thời
gian
đào
tạo
dữ
liệu
lâu
hơn Mô
hình
rất
phức
tạp Tầm
quan
trọng
như
nhau
được
trao
cho
tất
cả
các
tính
năng phức
Độ
tạp
dự
đoán
cao
hơn
cho
tập
dữ
liệu
và
kích
thước
lớn Mô
hình
hướng
miền
cao
sẽ
được
xây
dựng Mô
hình
dễ
bị
overft Thời
gian
đào
tạo
dài
cho
các
bộ
dữ
liệu
lớn Việc
tinh
chỉnh
mô
hình
rất
khó
khăn
và
tẻ
nhạt Bị
giới
hạn
bởi
sự
mất
cân
bằng
lớp
học,
vì
một
giá
trị
xác
suất
phải
được
ước
tính
cho Mô
hình
có
thể
đối
mặt
với
vấn
đề
tần
số
không Giả
sử
rằng
các
thuộc
tính
độc
lập
lẫn
nhau Bất
lợi
mỗi
giá
trị
có
thể
hình
dung
1 3
Thuật
ngữ
phân
tích
cảm
xúc
hướng
miền Phương
pháp
học
không
giám
sát Bảng
5
Tóm
tắt
các
kỹ
thuật
phân
tích
tình
cảm
của
máy
học
khác
nhau,
ưu
điểm
và
nhược
điểm
của
nó
Phương
pháp
học
tập
bán
giám
sát Phương
pháp
học
tập
có
giám
sát
Kĩ
thuật
dựa
trên
Từ
điển
dựa
trên
Loại
bỏ
các
câu
khách
quan
khỏi
tài
liệu
có
thể
giúp Phân
loại
tình
cảm
trên
một
quy
mô
nhất
định Bao
gồm
một
hệ
thống
phân
loại
hai
tầng
bao
gồm Kết
quả
hiệu
quả
khi
có
sự
mơ
hồ Dữ
liệu
được
gắn
nhãn
không
bắt
buộc Nó
không
cần
nhiều
sự
thoải
mái
của
con
người
Với
khả
năng
đánh
giá
một
loạt
các
chủ
đề,
Efective Thuận
lợi
cải
thiện
khả
năng
phân
tích
tình
cảm cả
ý
kiến
tích
cực
và
tiêu
cực cần
xác
định
vấn
đề
chủ
quan
Phụ
thuộc
vào
kỹ
thuật Bỏ
qua
sự
đa
dạng
và
sâu
sắc
của
cảm
xúc
con
người,
cũng
như
hơn
thế
nữa Nếu
các
mẫu
không
được
dán
nhãn
bị
nhiễu,
người
phân
loại
sẽ
thích
hơn Năng
lực
của
nó
để
làm
như
vậy
vẫn
chưa
được
thiết
lập
đầy
đủ Yêu
cầu
dữ
liệu
được
gắn
nhãn Tài
liệu
đào
tạo
được
chỉ
định
khả
năng
tiết
lộ
chủ
quan Bất
lợi
danh
mục
cảm
xúc,
khía
cạnh
và
chi
tiết nó
đòi
hỏi
công
việc
của
con
người
và
kiến
thức
ngôn
ngữ
M. Wankhade và cộng sự. 5754
và các thuật toán cứu trợ (Chang et al. 2020). Nhiệm vụ phân tích cảm xúc (Al Amrani và cộng
sự 2018) được đề xuất bằng cách sử dụng phương pháp kết hợp dựa trên máy học bao gồm RF và
SVM. Họ đã chỉ ra rằng các mô hình riêng lẻ của SVM và RF có độ chính xác tương ứng là 81,01
và 82,03%, trong khi mô hình kết hợp kết hợp cả hai thuật toán có độ chính xác gần 84% trong
tập dữ liệu đánh giá sản phẩm do amazon.com cung cấp. Rất ít nhà nghiên cứu đã đề xuất một
kiến trúc kết hợp liên quan đến cả kỹ thuật học dựa trên từ vựng và kỹ thuật học giao phối
tự động để nâng cao kết quả. Đây vẫn là một chủ đề nóng đối với các nhà nghiên cứu, và rất
nhiều nghiên cứu cần được thực hiện.
Trong công việc của Hassonah et al. (2020b) đã sử dụng dữ liệu Twitter để đào tạo. Có tới
6900 tweet đã được trích xuất để đào tạo bằng cách sử dụng API Twitter. Kết quả cho thấy mô
hình của họ vượt trội hơn hầu hết các mô hình trong khi giảm tổng số tính năng lên đến 96%.
Họ cũng chỉ ra khả năng của các mô hình Hybrid và kết luận rằng các mô hình Hybrid có thể
hoạt động tốt hơn tất cả các mô hình có kiến trúc phù hợp và lựa chọn chính xác các siêu tham
số (Chang et al. 2020). Mô hình Kết hợp hoạt động tốt hơn cả mô hình trong tất cả các số liệu
và so sánh khác. Họ kết luận rằng mặc dù mỗi mô hình Hybrid của họ tốt hơn các mô hình riêng
lẻ, nhưng vẫn có nhiều cơ hội nghiên cứu để cải thiện hiệu suất của mô hình lai bằng cách
điều chỉnh và đào tạo mô hình. Có nhiều Phương pháp Phân tích Tóm tắt về Thuật toán Phân loại
Học máy được Giám sát và Ưu điểm và Nhược điểm của nó được trình bày trong Bảng 4.
4.4 Mạng nơron
Mạng Nơ-ron - Trong công trình của Van de Camp và Van den Bosch (2012) đã trình bày việc sử
dụng mạng Nơ-ron và SVM trong các mối quan hệ hỗ trợ. Họ đã sử dụng các văn bản tiểu sử để
phỏng đoán kết quả của họ. Họ đã thành công trong việc đánh dấu mối quan hệ giữa hai cá nhân
là trung tính, tích cực hoặc tiêu cực. Họ kết luận rằng SVM và Mạng nơ ron một lớp đã cho
thấy kết quả được cải thiện. Trong công việc của Moraes et al. (2013a) đã trình bày một phân
tích thực nghiệm mang tính ví dụ giữa SVM và ANN trong phân tích tình cảm ở cấp độ tài liệu.
Động cơ của sự so sánh này là SVM đã được sử dụng rộng rãi như một thuật toán để khai thác ý
kiến vì nó đã cho thấy khả năng nhận được độ chính xác. ANN dù có tiềm năng tốt nhưng lại
không được chú ý nhiều. Trong Moraes et al. (2013b) họ đã thảo luận về tất cả các khía cạnh
liên quan đến cả ANN và SVM, bao gồm các yêu cầu, độ chính xác của chúng và các bối cảnh khác
mà mỗi mô hình có thể hoạt động tốt nhất. Họ cũng đã thực hiện một khung đánh giá nhất quán
bằng cách sử dụng những người tham gia nổi tiếng trong các phương pháp được giám sát để lựa
chọn các tính năng và trọng số trong các mô hình BoW chính thống. Theo Medhat và cộng sự.
(2014), Ravi và Ravi (2015) ANN có lợi thế hơn SVM trong hầu hết các trường hợp, ngoại trừ
rất ít trường hợp có sự mất cân bằng dữ liệu. Họ đã sử dụng các đánh giá sản phẩm về Sách,
GPS và máy ảnh từ amazon.com và Đánh giá phim để đi đến kết luận này. Họ cũng chỉ ra những
vấn đề tiềm ẩn và nhược điểm của từng mô hình. Một tính toán quan trọng của mỗi mô hình là
chi phí tính toán được ANN thực hiện trong quá trình đào tạo và chi phí tính toán theo từng
giai đoạn của mô hình SVM trong thời gian chạy.
RNN truyền thống (Liu et al. 2016) được sử dụng cho các nhiệm vụ NLP khác nhau vì chúng
sử dụng thông tin bước thời gian trước đó để dự đoán bước thời gian hiện tại, đảm bảo việc
sử dụng thông tin trước đó và hoạt động như bộ nhớ vì nó ghi nhớ một số thông tin về một
chuỗi . Thành tựu hoặc lợi thế quan trọng nhất của RNN là nó đã sử dụng thông tin trước đó,
do đó ghi nhớ thông tin trước đó, hoạt động như bộ nhớ. Nhược điểm chính của RNN truyền thống
là nó không thích ứng với dòng chuyển tiếp dốc và bùng nổ, có nghĩa là nó không thể nhớ lâu
dài
1 3
các mối quan hệ trong trình tự. Trong trường hợp Bi-LSTM (Plank et al. 2016) sử dụng thông tin bước
thời gian trước đó cùng với thông tin bước thời gian tiếp theo để dự đoán bước thời gian hiện tại,
cũng như chuyển chuỗi theo cả hai cách tiến và lùi.
Học sâu đã xác định những con đường mới để mô phỏng phương pháp học tập đặc biệt của con người,
chẳng hạn như học tập dựa trên ví dụ. Mặc dù phương pháp học tập từ dưới lên này mang lại thành
công cho việc phân loại hình ảnh và nhận dạng đối tượng, nhưng nó không hiệu quả đối với NLP
(Cambria và cộng sự 2020). Họ kết hợp việc học từ trên xuống và từ dưới lên trong công việc của
mình bằng cách sử dụng một loạt các công cụ AI biểu tượng và ký hiệu con và áp dụng chúng vào thử
thách hấp dẫn là phát hiện phân cực văn bản.
RNN (Donkers et al. 2017) đã chứng minh cải thiện kết quả khi được đào tạo về dữ liệu và tính
toán suf cient. Các biến thể của RNN (Pham and Le-Hong 2017) như LSTM (Bandara et al. 2020), GRU
(Cheng et al. 2020), Bi-LSTM (Abid et al. 2019; Cho and Lee 2019) đã được sử dụng rộng rãi trong
Phân tích cảm xúc và nhiệm vụ NLP liên quan (Abid và cộng sự 2019; Khan và cộng sự 2016). Các mô
hình gây chú ý đang được giới thiệu gần đây, mang lại lợi thế cho các mô hình so với các mô hình
khác. Các kỹ thuật học chuyển giao gần đây sử dụng BERT (Devlin và cộng sự 2018) và GPT (Ethayarajh
2019) đang thu hút được sự chú ý của các nhà nghiên cứu vì mô hình đã được đào tạo trên một kho dữ
liệu khổng lồ trong nhiều ngày trên GPU cao cấp và Siêu máy tính. Trọng lượng có thể được điều chỉnh
bằng cách sử dụng bộ dữ liệu đào tạo để có được kết quả chính xác. Các kỹ thuật dựa trên học sâu
đang trở nên rất phổ biến do hiệu quả vượt trội của chúng trong thời gian gần đây. Trong công trình
của Yadav và Vishwakarma (2020) và Wadawadagi và Pagi (2020) đưa ra đánh giá chi tiết về các kỹ
thuật học sâu phổ biến được sử dụng rộng rãi trong phân tích cảm xúc. Để phát hiện cường độ của
tình cảm và cảm xúc, một mô hình tổng hợp xếp chồng lên nhau dựa trên học sâu đã được phát triển
(Akhtar và cộng sự 2020). Để nắm bắt tốt hơn cả sự phụ thuộc dài hạn và các tính năng cục bộ, họ sử
dụng tính năng nhúng từ GloVe, GRU hai chiều, LSTM hai chiều, cơ chế chú ý và CNN. Các tác giả
(Basiri et al. 2021) đã đề xuất một mô hình phân tích tình cảm dựa trên sự chú ý (CNN-RNN). Trong
công trình của Alhumoud và Al Wazrah (2021), tiến hành đánh giá có hệ thống các tài liệu để xác
định, phân loại và đánh giá các tác phẩm hiện đại sử dụng RNN để phân tích tình cảm Ả Rập.
Vào năm 2017, các nhà nghiên cứu tại nhóm Google Brain, Google Research và Đại học Toronto đã
đưa ra khái niệm về Người máy biến hình trong bài báo của họ (Vaswani et al. 2017)
“Sự chú ý là tất cả những gì bạn cần”, điều này đã tạo nên một cuộc cách mạng cho các ứng dụng NLP.
Mô hình này là một tập hợp các mô hình bộ mã hóa-giải mã bao gồm các lớp tự chú ý, chú ý nhiều đầu
và các lớp chuẩn hóa và chuyển tiếp. Đầu vào là các phép nhúng từ cùng với vectơ vị trí, xác định
vị trí của vectơ và các đầu vào có thể được cung cấp song song, không giống như các mô hình khác sử
dụng đầu vào nối tiếp hoặc tuần tự. Trong phần bộ mã hóa, Sự chú ý của bản thân được tính toán cho
mỗi mã thông báo với sự trợ giúp của khóa-giá trị và vectơ truy vấn. Điều này được thực hiện nhiều
lần và xếp chồng lên nhau, tạo thành lớp chú ý nhiều đầu được chuyển đến lớp chuyển tiếp (Kitaev và
Klein 2018). Có sáu bộ mã hóa và sáu lớp giải mã hiện diện trong mô hình. Đầu vào cho bộ giải mã từ
một bộ mã hóa là hai vectơ K và V. Lớp bộ giải mã có ba lớp: lớp tự chú ý, sau đó là lớp chuẩn hóa
giống như lớp mã hóa thứ hai là sự chú ý của bộ mã hóa-giải mã. Tự chú ý đầu ra và đầu vào từ bộ mã
hóa được sử dụng để tạo ra một vectơ đầu ra theo một mạng chuyển tiếp nguồn cấp dữ liệu cùng với
một lớp tuyến tính và một lớp SoftMax (Juraska và Walker 2021). Có một số kết quả bỏ qua hoặc phần
dư có trong cả bộ mã hóa và bộ giải mã để có kết quả tốt hơn.
Có nhiều phương pháp khác nhau để phân tích tình cảm bằng cách sử dụng học máy và học sâu được
tác giả sử dụng được trình bày trong Bảng 6. chúng tôi đang sử dụng một số thuật ngữ trong Bảng 6
1 3
1 3
Uysal
và
Murphey
(2017)
CNN,
LSTM,
CNN
+LSTM
tiếng
Anh Wu
và
Chi
(2017) Kết
hợp
sâu
CNN
Dragoni
và
Petrucci
(2017)
RNN
Chen
et
al.
(2017) Zhao
và
cộng
sự.
(2017) Vateekul
và
Koomsubha
Poria
et
al.
(2016) Lakkaraju
và
cộng
sự.
(2014) Socher
và
cộng
sự.
(2013) Moraes
và
cộng
sự.
(2013b) Rui
và
cộng
sự.
(2013) Fan
và
Chang
(2011) Bai
(2011) Qiu
và
cộng
sự.
(2010) Người
giới
thiệu Bảng
6
Phân
tích
cảm
xúc
bằng
cách
sử
dụng
phương
pháp
học
sâu
và
học
máy
(2016)
LSTM-
RNN
bậc
hai CNN
LSTM CNN
tạm
thời,
RNN LSTM
và
Dynamic
CNN
English Chung
tình
cảm
đa
khía
cạnh RNTN
và
RNN NB,
ANN,
SVM NB,
SVM,
dựa
trên
quy
tắc Chi-
square,
SVM Mô
hình
Markov,
SVM,
NB Dựa
trên
quy
tắc Phương
pháp
mô
hình
+
RNTN
Tiếng
Anh Tiếng
Anh Tiếng
Anh Tiếng
Anh Bộ
dữ
liệu
Youtube
MOUD
tiếng
Anh
Tây
Ban
Nha Tiếng
Anh Tiếng
Anh Tiếng
Anh Tiếng
Anh Tiếng
Anh Tiếng
Anh Tiếng
Anh Lang.
IMDb,
Cảm
xúc
140, Tình
cảm
Stanford VSO:
Flickr
Images
MVSO Tập
dữ
liệu
Dranziera đánh
giá
của
amazon
về
kỹ
thuật
số twitter giá
Đánh
bia
và
máy
ảnh Ngân
hàng
cây
tình
cảm amazon.com thuyết
phục.net ebay.com,
wikipedia.com, IMDb automotvieforums.com Dataset
Chín
bài
đánh
giá
tình
cảm
của
công
chúng,
bộ
datset
đa
miền
của
amazon ngân
hàng
cây
(SST)
và
tập
dữ
liệu
SICK EN:
bộ
dữ
liệu
bao
gồm
các
khái
niệm
liên
quan
đến
biểu
tượng
cảm
xúc
được
thể
hiện máy
ảnh,
điện
thoại
và
máy
tính
xách
tay kiểm
tra
lại epinions.com
Cấp
tài
liệu
SC SLC SC
đa
phương
thức SC SLC phương
Đa
thức
SC
VÀ
EC
CNN,
RNN
=
96,55 SLC SC SC SC SC SA SC SA Nhiệm
vụ
S140-71.5
Nine-77.1
IMDB SST-86.6
(nhị
phân)
SICK-87.28 VSO
=
84,7,
MVSO-
EN
= Tập
dữ
liệu
Dranziera
=0,81 CNN-87.7,
LSTM-87.9 LSTM-75.30,
DCNN-75.35 Bia
=
77,04,
Máy
ảnh
=
81,02 chính
Độ
xác:
Nhớ
lại
NB
= Chi
(khớp)
Pos
=
74,8
Neg SVM
=
76,68,
NB
=75,05 Nhớ
lại
=
0,375 Kết
quả
89,1
Amazon-85,4 73,7 0,98:
0,65
ANN
=
0,86:
0,85
SVM
=
0,83:
0,85 =
57,6
Uni-
gam
Pos
=
59,1
Neg
=67,4
1 3
Basiri
và
cộng
sự.
(Năm
2021) Naseem
và
cộng
sự.
(2020) Rao
và
cộng
sự.
(2018) Zhang
và
cộng
sự.
(2018) Yuan
và
cộng
sự.
(2018) Người
giới
thiệu Bảng
6
(tiếp
theo)
Hai
chiều
dựa
trên
sự
chú
ý Theo
ngữ
cảnh
thông
minh
sâu
sắc LSTM Mạng
bộ
nhớ
động
tiếng
Anh Bi-
LSTM
với
sự
chú
ý Phương
pháp
(ABCDM) CNN-
RNN
Mô
hình
sâu Nhúng cơ
chế
Tiếng
Anh Tiếng
Anh Tiếng
Anh Lang.
Sentiment140,
Hãng
hàng
không,
Kindle Tập
dữ
liệu
hãng
hàng
không Yelp
2014,
2015,
IMDb semeval2014,
semeval
2016
SC amazon
đa
miền
và Dataset
tập
dữ
liệu,
đánh
giá
phim bộ
dữ
liệu
tình
cảm
của
sanders
twitter
SA SA Cấp
tài
liệu
SC SC
đa
miền Nhiệm
vụ
(ABCDM)
Tập
dữ
liệu
Kindle
= tập
dữ
liệu
hãng
hàng
không
=
0,95 Yelp2014-63.9
Yelp2015-63.8, DMN
=
0,84 amazon
=
87,69,
sanders
= Kết
quả
0,93,
Hãng
hàng
không
=
0,92,
đánh
giá
phim
=
0,90,
Tình
cảm140
=0,81 IMDb-44.3 86,32
M. Wankhade và cộng sự. 5758
vì SA chỉ ra Phân tích cảm xúc, SC chỉ ra Phân loại tình cảm. Phân loại phân loại của một phương
pháp riêng lẻ như Phương pháp học có giám sát, Phương pháp học không được giám sát, Phương pháp học
bán có giám sát, Phân tích tình cảm hướng miền dựa trên từ vựng và dựa trên từ điển với ưu điểm và
nhược điểm của nó được thể hiện trong Bảng 5.
4.5 Các cách tiếp cận khác
4.5.1 Phân tích tình cảm dựa trên khía cạnh (ABSA)
ASBA là một phần có giá trị và đang phát triển nhanh chóng của phân tích tình cảm đã đạt được ưu
thế trong những năm gần đây. Ba giai đoạn quan trọng tạo nên phân tích tình cảm ở cấp độ khía cạnh:
phát hiện khía cạnh, phân loại phân cực hoặc tình cảm và tổng hợp. Phát hiện khía cạnh là một giai
đoạn quan trọng trong phân tích Cảm xúc dựa trên khía cạnh, vì nó được theo sau bởi sự mô tả cảm
xúc. Các khía cạnh được khai thác bằng cách sử dụng các khía cạnh ngầm định được xác định trước hoặc
có thể được khai thác một cách rõ ràng (Rana và Cheah 2016). Các kỹ thuật học máy, cùng với NLP tech
niques, được sử dụng để khai thác các khía cạnh của một câu. Phân tích tình cảm ở mức độ phổ biến
nhất trong các bài đánh giá sản phẩm hoặc bài đánh giá khách sạn, vì cách tiếp cận này sẽ giúp họ
xác định các khía cạnh khác nhau mà người viết đánh giá tập trung và giúp họ khắc phục các khía cạnh
có cảm giác tiêu cực (Tran et al. 2019). Điều này hữu ích cho cả người tiêu dùng cũng như người sản
xuất. Ví dụ: đối với tập dữ liệu đánh giá khách sạn, các khía cạnh tiềm ẩn có thể được định nghĩa
là A = hương vị, dịch vụ, giá trị, linh tinh. Ví dụ: hãy xem đánh giá R = “đồ ăn tuyệt vời, nhưng
phục vụ chậm”, đánh giá này bao gồm hai khía cạnh là đồ ăn và dịch vụ, tức là, A = hương vị, dịch
vụ và các từ cảm xúc tương ứng là tuyệt vời và chậm tức là S = tuyệt vời, chậm được phân loại là P
= tích cực, tiêu cực khi tổng hợp là trung tính. Nếu chúng ta xem xét điểm tình cảm dựa trên mức độ
tích cực hoặc tiêu cực của chúng, thì sự phân cực tổng hợp có thể khác nhau.
Phân tích tình cảm ở cấp độ khía cạnh có nhiều thách thức vì nó để xác định khía cạnh ual riêng
lẻ (ẩn hoặc rõ ràng) và phân loại theo ý nghĩa là thách thức đối với các khía cạnh của tôi (Tubishat
và cộng sự 2018), do đó, các thuật toán phức tạp như LSTM, Bi-LSTM hoặc pre -các mô hình được đào
tạo như BERT, GPT-2 có thể được sử dụng để hoàn thành nhiệm vụ. Các nhà nghiên cứu tránh vani RNN
vì nó phải đối mặt với nhiều vấn đề như biến mất và bùng nổ dốc gradient. Người ta thấy rằng gần đây
các mô hình dựa trên sự chú ý đang được sử dụng để phát hiện khía cạnh. Bước tiếp theo sau khi phát
hiện khía cạnh là gán cực cho các khía cạnh đã khai thác đó. Có nhiều cách tiếp cận để thực hiện
nhiệm vụ, các thuật toán Máy học có thể được sử dụng để hoàn thành nhiệm vụ hoặc có thể sử dụng cách
tiếp cận dựa trên từ điển. Gán cực cho một khía cạnh, một điểm tổng hợp có thể được tính để xác định
độ cực tổng thể của câu. Biểu quyết cứng hoặc mềm được sử dụng để xác định tình cảm tổng thể của
câu. Tâm lý người tiêu dùng được đánh giá liên quan đến nội dung định tính, xếp hạng định lượng và
các yếu tố văn hóa để dự báo các quyết định khuyến nghị của người tiêu dùng (Jain et al. 2021c, d).
4.5.2 Chuyển giao học tập
Học chuyển giao là một trong những kỹ thuật tiến bộ trong AI, nơi một mô hình được đào tạo trước có
thể sử dụng kiến thức thu được của mình để chuyển sang một mô hình mới. Học chuyển giao sử dụng sự
hiếm có của dữ liệu, phân phối và tác vụ. Mô hình mới sử dụng trực tiếp các tính năng đã học trước
đó mà không cần bất kỳ dữ liệu đào tạo rõ ràng nào. Dữ liệu đào tạo có thể được sử dụng để điều chỉnh
1 3
mô hình cho một nhiệm vụ mới. Kỹ thuật này có thể được sử dụng để chuyển kiến thức của một miền này
sang miền khác. Phương pháp này đã phát triển như một kỹ thuật học tập chuyển giao vì nó có thể tạo ra
độ chính xác và kết quả tuyệt vời trong khi yêu cầu thời gian đào tạo ít hơn đáng kể so với đào tạo
một mô hình mới từ đầu (Celik et al. 2020). Học chuyển giao thường được sử dụng trong phân tích tình
cảm để phân loại tình cảm từ mối quan hệ này sang mối quan hệ khác. Trong Meng et al. (2019) đã phát
triển phương pháp học chuyển tiếp dựa trên CNN nhiều lớp. Họ đã sử dụng trọng số và độ lệch của một
lớp phức hợp và gộp từ một mô hình được đào tạo trước để làm mô hình.
Họ đã sử dụng các tính năng từ mô hình được đào tạo trước và trọng lượng đã được điều chỉnh của các
lớp được kết nối đầy đủ. Cách tiếp cận này có thể tạo ra kết quả tốt khi không có các tập dữ liệu có
nhãn lớn và không có sự tương đồng trong các nhiệm vụ được thực hiện bởi các mô hình. Trong công trình
của Bartusiak et al. (2015), đã áp dụng Học chuyển giao để đề xuất thử thách phân tích tình cảm. Họ đã
sử dụng công nghệ này để đánh giá tình cảm ở cấp độ tài liệu bằng ngôn ngữ đánh bóng. Họ đã sử dụng N-
gram và Bi-gram để mã hóa các từ và cụm từ phức tạp. Họ đã sử dụng hai tập dữ liệu khác nhau từ hai
miền khác nhau để cung cấp bằng chứng rằng kiến thức thu được từ mô hình đào tạo kiện tập dữ liệu của
một miền có thể được sử dụng cho tập dữ liệu của miền khác. Phân tích Senti ment bằng cách sử dụng
phương pháp Học sâu và Học máy như thể hiện trong Bảng 6.
Vào năm 2018, các nhà nghiên cứu ngôn ngữ AI của Google đã mở ra một mô hình mới cho NLP được gọi
là BERT. Nó có một bước đột phá và đã đưa ngành học sâu đi lên như vũ bão do hiệu suất của nó. Trong
tác phẩm của Han et al. (2021) Mạng máy biến áp đã cách mạng hóa lĩnh vực NLP và thay thế việc sử dụng
LSTM và Bi-LSTM. Ưu điểm chính là Transformers không tránh khỏi các vấn đề về độ dốc biến mất hoặc
phát nổ vì chúng hoàn toàn không sử dụng tính năng lặp lại, đồng thời, chúng nhanh hơn và ít tốn kém
hơn để đào tạo. BERT là một phần mở rộng của mô hình Transformers được đề xuất (Vaswani et al. 2017)
trong bài báo “Chú ý là tất cả những gì bạn cần”. BERT sử dụng máy biến áp, một cơ chế chú ý tìm hiểu
các mối quan hệ văn bản giữa các từ hoặc tiểu từ trong một văn bản nhất định. Đầu vào trong mô hình
này chứa từ nhúng và nhúng vị trí, không giống như máy biến áp, nhưng cũng có thêm một vectơ đại diện
cho câu mà nó thuộc về để xử lý hai hoặc nhiều câu cùng một lúc. BERT bao gồm các máy biến áp dựa trên
bộ mã hóa; phần mã hóa tương tự như bộ mã hóa máy biến áp. BERT có hai mô hình BERT cơ sở với 12 bộ mã
hóa xếp chồng lên nhau với 110 triệu tham số và mô hình lớn BERT với 24 bộ mã hóa xếp chồng với 330
triệu tham số sư tử. Mô hình BERT được đào tạo theo hai giai đoạn trước khi đào tạo và điều chỉnh. Đây
là ưu điểm chính của mô hình vì việc điều chỉnh với tập dữ liệu có thể được thực hiện theo nhiệm vụ.
Chẳng hạn như phân tích cảm xúc (Singh et al. 2021a), phát hiện khía cạnh (Li et al. 2019b), phát hiện
thư rác (Yaseen et al. 2021), Mô hình biến áp để phát hiện cảm xúc dựa trên văn bản (Acheam pong et
al. 2021), tác động của coronavirus (singh2021sentiment). Một câu đơn hoặc một cặp câu có thể được
biểu diễn dưới dạng một dãy mã thông báo liên tiếp bằng cách sử dụng kiến trúc BERT task-specifc (Gao
et al. 2019). Trong công trình của Sun et al. (2019) chuyển ABSA thành một vấn đề phân loại theo cặp
câu, chẳng hạn như trả lời câu hỏi và suy luận ngôn ngữ tự nhiên, bằng cách xây dựng một câu bổ trợ từ
khía cạnh. Mô hình đào tạo trước BERT đã được điều chỉnh.
4.6 Phân tích tâm lý đa phương thức (MSA)
MSA bổ sung một cấp độ mới cho phân tích tình cảm dựa trên văn bản tiêu chuẩn bằng cách kết hợp các
phương thức màu sắc khác nhau như dữ liệu âm thanh và hình ảnh. Một số nghiên cứu đã cố gắng phân tích
tình cảm trong đa phương tiện xã hội bằng cách sử dụng nhiều đầu vào đa phương thức, bao gồm dữ liệu
hình ảnh, âm thanh và văn bản (Soleymani et al. 2017). Các trang web đa phương tiện xã hội như You
Tube, blog video (vlog) hoặc các bài đánh giá bằng giọng nói chứa các biểu hiện của tình cảm, chẳng hạn như
1 3
Hình 7 Ma trận nhầm lẫn
Tích cực thực sự Phủ định sai
THẬT
SỰ
Tiêu
Tích
cực
cực
Khẳng định sai Phủ định thực sự
Tích cực Phủ định
DỰ ĐOÁN
một video miêu tả một người đang thảo luận về một sản phẩm hoặc một bộ phim. Thông thường, bản ghi lời
nói được kiểm tra riêng biệt với biểu cảm khuôn mặt và giọng nói, và kết quả phân tích cảm xúc dựa
trên văn bản, đơn phương thức được kết hợp trong bài đăng để tạo ra một hệ thống “MSA”. Nó có thể là
hai phương thức, bao gồm nhiều sự kết hợp khác nhau của hai phương thức, hoặc ba phương thức, bao gồm
ba phương thức (Stappen và cộng sự 2020). Phần lớn các kỹ thuật MSA tập trung vào việc phát triển các
quá trình phản ứng tổng hợp phức tạp, từ các mô hình dựa trên sự chú ý đến phản ứng tổng hợp dựa trên tensor.
MSA là một lĩnh vực nghiên cứu đang mở rộng nhanh chóng. Một lĩnh vực cơ hội chính trong chủ đề này
là tăng cường cơ chế tổng hợp đa phương thức. Trong công trình của Majumder et al. (2018) và Poria et
al. (2018b) có kỹ thuật hợp nhất có thứ bậc về bản chất, hợp nhất hai phương thức đầu tiên và sau đó
là cả ba phương thức. MSA về ngôn ngữ nói của con người đã phát triển thành một chủ đề nghiên cứu quan
trọng (Liu 2012; Poria et al. 2017). Không giống như các nhiệm vụ học tập cảm xúc truyền thống yêu cầu
sử dụng các phương thức đơn lẻ (văn bản, lời nói), học tập đa phương thức sử dụng nhiều nguồn thông
tin, bao gồm cả ngôn ngữ (văn bản /
bảng điểm / ASR), phương thức âm thanh / âm thanh và hình ảnh.
5 Tham số đánh giá hiệu suất
Phần lớn phân tích tâm lý hiện đại sử dụng độ chính xác, điểm F1 và độ chính xác. Phân tích cảm xúc
bằng cách sử dụng kiến trúc học sâu: đánh giá sử dụng khả năng nhớ lại và độ chính xác làm thước đo
hiệu suất. Các chỉ số này như sau:
Thực sự Tích cực (TP): Số lượng đánh giá tích cực đã được phân loại chính xác.
Đúng phủ định (TN): Số lượng đánh giá tiêu cực được phân loại chính xác là tiêu cực.
Tích cực Sai (FP): Số lượng đánh giá tích cực được phân loại không chính xác.
Phủ định Sai (FN): Số lượng đánh giá phủ định được phân loại không chính xác.
Độ chính xác Độ chính xác được định nghĩa là tỷ lệ của các mẫu dương tính được phân loại chính xác
trên tổng số mẫu được dự đoán là dương tính. Chỉ số này có thể được sử dụng để chỉ ra độ mạnh của dự
đoán. tức là, nếu một mô hình có độ chính xác 100 phần trăm, tất cả các mẫu được đánh giá là dương
tính đều là dương tính.
TP.
Độ chính xác =
(1)
TP + FP
Nhớ lại Nhớ lại còn được gọi là độ nhạy. Nó được định nghĩa là tỷ lệ của các cá thể posi tive thực tế
trong tổng số các cá thể tích cực có mặt trong phân loại. Nó đo lường các phân loại sai được thực hiện
bởi mô hình. Độ chính xác và thu hồi tỷ lệ nghịch với nhau
1 3
Nghiên cứu thị trường và

Phân tích sản phẩm
Phân tích đối thủ cạnh tranh
Việc kinh doanh
Sự thông minh
Danh tiếng Cảm xúc của
Quản lý Phản hồi khách hàng
Chăm sóc sức khỏe ỨNG DỤNG SA Đánh giá phân tích
Phân tích thử nghiệm Phân tích khía cạnh
Thị trường chứng khoán
Giá cổ phiếu
Dự đoán xu hướng
Sự dự đoán
Hình 8 Các ứng dụng của phân tích tình cảm
tỷ lệ thuận với nhau. Do đó không thể tăng cả Precision và Recall cùng một lúc. Việc thu hồi được sử
dụng trong các trường hợp mà việc chiếm ưu thế của một lớp học.
TP.
Nhớ lại = (2)
TP + FN
Điểm F1 Điểm F1 là trung bình hài hòa của Nhớ lại và Độ chính xác. Nó là met ric được sử dụng
nhiều nhất sau Độ chính xác. Nó được sử dụng khi chúng ta không thể chọn giữa Chính xác hoặc Thu hồi.
Điểm F1 quản lý sự cân bằng giữa thu hồi và độ chính xác.
Độ chính xác Đây là số liệu được sử dụng phổ biến nhất trong tất cả các nhiệm vụ phân loại. Accu
racy xác định độ chính xác của mô hình. Đó là tỷ lệ giữa phân loại chính xác trên tổng số lần thay
đổi trước được thực hiện bởi mô hình. Độ chính xác là một số liệu tốt để sử dụng cho phân loại tình
cảm cho một tập dữ liệu cân bằng.
Specifcity Specifcity Đối lập với độ nhạy. Nó không được sử dụng phổ biến bởi các nhà nghiên cứu
nhưng hữu ích trong một số lĩnh vực. Nó là tỷ lệ của tổng số mẫu âm tính được phân loại chính xác với
các lớp âm tính thực sự hiện diện trong ma trận nhầm lẫn như trong Hình 7.
Ma trận nhầm lẫn Ma trận nhầm lẫn là một bảng thường được sử dụng để đánh giá tính hiệu quả của mô
hình phân loại mèo (hoặc “người phân loại”) trên một tập các giá trị dữ liệu kiểm tra huấn luyện đã
biết. Mặc dù ma trận nhầm lẫn Hình 7. bản thân nó khá dễ hiểu, nhưng ngôn ngữ liên quan có thể đang
khó hiểu.
Tần suất thuật ngữ TF-IDF đề cập đến số lần thuật ngữ hiện diện trong một tài liệu. TF
tính số lần một từ thuật ngữ xuất hiện trong tài liệu Vì mỗi đoạn văn bản có độ dài khác nhau, nên có
khả năng một thuật ngữ sẽ xuất hiện thường xuyên hơn trong các tài liệu dài hơn so với các tài liệu
ngắn hơn. Do đó, tần suất cụm từ thường được chia cho độ dài tài liệu.
(Số lần thuật ngữ t hiện diện trong một tài liệu)
Tần suất kỳ hạn = (3)
(Tổng số thuật ngữ trong tài liệu)
1 3
(Tổng số tài liệu)

Tần suất tài liệu nghịch đảo (IDF) = (4)
(số thuật ngữ t trong tài liệu)
TF - IDF = (TF) (IDF) (5)
6 Ứng dụng của phân tích tình cảm
Phân tích cảm xúc có nhiều ứng dụng, từ phân tích ý kiến khách hàng, phân tích tình trạng sức khỏe
tâm thần của bệnh nhân dựa trên các bài đăng được thực hiện trên mạng xã hội. Hơn nữa, những tiến
bộ công nghệ như Blockchain, IoT, Điện toán đám mây và Dữ liệu lớn đã mở rộng phạm vi ứng dụng cho
Phân tích cảm xúc, cho phép nó được sử dụng trong thực tế bất kỳ chuyên ngành nào. Một số ứng dụng
được sử dụng thường xuyên nhất trong phân tích tình cảm được thể hiện trong Hình 8. Một số lĩnh vực
và ngành quan trọng mà Phân tích cảm xúc được áp dụng được mô tả dưới đây:
6.1 Phân tích kinh doanh
Phân tích tình cảm trong lĩnh vực kinh doanh thông minh của một số lợi ích. Ngoài ra, frms có thể
sử dụng dữ liệu phân tích tình cảm để cải thiện sản phẩm, điều tra phản hồi của khách hàng và phát
triển một chiến lược tiếp thị sáng tạo. Việc sử dụng điển hình nhất của phân tích tình cảm trong
lĩnh vực kinh doanh thông minh là phân tích ấn tượng của khách hàng về dịch vụ hoặc sản phẩm. Tuy
nhiên, những nghiên cứu này không chỉ giới hạn ở các nhà sản xuất sản phẩm; người tiêu dùng có thể
sử dụng chúng để xem xét các mặt hàng và đưa ra quyết định sáng suốt hơn. Phân tích cảm xúc trong
trí thông minh busi ness có nhiều lợi ích khác nhau. Ví dụ: Doanh nghiệp có thể sử dụng kết quả của
Phân tích Senti ment để cải tiến sản phẩm, xem xét phản hồi của người tiêu dùng hoặc phát triển một
kế hoạch tiếp thị mới (Han et al. 2019). Phân tích cảm xúc được sử dụng thường xuyên nhất trong trí
tuệ nhân tạo để xem xét nhận thức của khách hàng về sản phẩm hoặc dịch vụ. Tuy nhiên, những phân
tích này không chỉ giới hạn ở những người sản xuất sản phẩm; người tiêu dùng cũng có thể sử dụng
chúng để so sánh các mặt hàng và đưa ra lựa chọn sáng suốt hơn. Trong tám năm, (Bose et al. 2020)
đánh giá đồ ăn dịch vụ trên amazon.com. Từ điển cảm xúc, phân loại chúng thành tám biểu tượng cảm
xúc khác nhau và hai tâm trạng (tích cực và tiêu cực). Họ phát hiện ra rằng phân tích cảm xúc có
thể được sử dụng để xác định các hành vi và mối nguy hiểm của khách hàng và tăng sự hài lòng của khách hàng.
6.1.1 Đánh giá sản phẩm
Khi kinh doanh thương mại điện tử đang phát triển, số lượng sản phẩm được bán và đánh giá từ khách
hàng cũng vậy. Phân tích cảm xúc sẽ giúp khách hàng lựa chọn sản phẩm tốt hơn (Paré 2003). Phân
tích tình cảm ở cấp độ cụm từ hoặc cấp độ khía cạnh (Schouten và Frasincar 2015) được thực hiện
trên các bài đánh giá sản phẩm. Phân tích tình cảm có thể xác định khách hàng nghĩ gì về sản phẩm
mới nhất của mình sau khi ra mắt hoặc xem xét các nhận xét và đánh giá.
Có thể chọn các từ khóa cho một đặc điểm sản phẩm cụ thể (thực phẩm, dịch vụ, độ sạch) và có thể
đào tạo khung phân tích tình cảm (Mackey và cộng sự 2015) để chỉ xác định và phân tích những thông
tin cần thiết.
1 3
6.1.2 Nghiên cứu thị trường và phân tích đối thủ cạnh tranh
Nghiên cứu thị trường có lẽ là ứng dụng phân tích tâm lý phổ biến nhất, bên cạnh việc giám sát hình ảnh
thương hiệu và điều tra ý kiến người tiêu dùng. Mục đích của phân tích tình cảm là để xác định ai đang
nổi lên trong số các đối thủ cạnh tranh và các chiến dịch tiếp thị diễn ra như thế nào. Nó có thể được
sử dụng để có được một bức tranh hoàn chỉnh về cơ sở hoàn chỉnh của một thương hiệu và các đối thủ cạnh
tranh của nó ngay từ đầu. Phân tích tình cảm có thể thu thập dữ liệu từ một số nền tảng Twitter,
Facebook, blog, mang lại kết quả hữu hình và khắc phục sự khó khăn trong kinh doanh thông minh.
6.2 Lĩnh vực chăm sóc sức khỏe và y tế
Đây là một trong những ngành mà phân tích tâm lý đang được sử dụng trong thời gian gần đây.
Dữ liệu có thể được thu thập từ nhiều nguồn khác nhau như khảo sát, Twitter (Carvalho và Plastino
2021), blog, tin bài, đánh giá, v.v. Dữ liệu này sau đó có thể được phân tích cho các trường hợp sử
dụng khác nhau, một trong số đó là đánh giá các tiêu chuẩn và phân tích mới cập nhật trong lĩnh vực y
tế. Các chuyên gia miền đang tích cực nghiên cứu để sử dụng nhiều hơn phân tích senti ment và các ứng
dụng NLP khác (Ebadi et al. 2021). Ứng dụng này giúp các nhà cung cấp dịch vụ chăm sóc sức khỏe thu
thập và đánh giá tâm trạng của bệnh nhân, dịch bệnh, phản ứng có hại của thuốc và bệnh tật để cải thiện
dịch vụ chăm sóc sức khỏe. Trong công việc của Jiménez-Zafra et al. (2019) đã chỉ ra những khó khăn
trong việc áp dụng phân tích tình cảm trong chăm sóc sức khỏe vì các thuật ngữ cụ thể và duy nhất được
sử dụng trong lĩnh vực này. Trong công việc của Clark et al. (2018) đã sử dụng các tweet trên Twitter
liên quan đến trải nghiệm của bệnh nhân như một tiện ích bổ sung cho sức khỏe cộng đồng ana lyze. Trong
hơn một năm, họ đã tạo ra khoảng hơn triệu lượt tweet liên quan đến ung thư vú bằng cách sử dụng API
phát trực tuyến của Twitter. Sau khi xử lý trước, các tweet được phân loại bằng bộ phân loại LR tiêu
chuẩn và mô hình CNN. Các kinh nghiệm điều trị tích cực, tập hợp ủng hộ và nâng cao nhận thức cộng đồng
đều có mối liên hệ với nhau. Kết luận, áp dụng phân tích cảm xúc để phân tích dữ liệu do bệnh nhân tạo
trên mạng xã hội có thể giúp xác định nhu cầu và quan điểm của bệnh nhân.
6.2.1 Quản lý danh tiếng
Ứng dụng của phân tích tâm lý trong các thị trường đa dạng là giám sát thương hiệu và quản lý đại
diện. Đánh giá cách khách hàng xem thương hiệu, sản phẩm hoặc dịch vụ của họ mang lại lợi ích cho các
công ty thời trang, đại lý tiếp thị, công ty CNTT, chuỗi khách sạn, kênh truyền thông và các doanh
nghiệp khác. Công cụ phân tích tình cảm bổ sung thêm nhiều sự đa dạng và thông minh hơn cho hình ảnh
của thương hiệu và sản phẩm của họ. Nó cho phép các doanh nghiệp theo dõi cách khách hàng nhận thức về
thương hiệu của họ và làm nổi bật dữ liệu chính xác về thái độ của họ.
Tìm kiếm các xu hướng và thay đổi, đồng thời chú ý đến các bài thuyết trình của người đưa tin. Nhìn
chung, phân tích tình cảm có thể được sử dụng để tự động hóa hệ thống giám sát phương tiện truyền thông
cũng như hệ thống báo động đi kèm với nó. Theo dõi các cuộc thảo luận và xếp hạng của thương hiệu trên
các nền tảng truyền thông xã hội khác nhau.
1 3
6.3 Đánh giá phân tích
Phân tích cảm xúc được sử dụng rộng rãi trong lĩnh vực Giải trí. Các bài đánh giá về phim, chương
trình và video ngắn có thể được phân tích để xác định phản ứng của người xem (Kumar và cộng sự
2019). Điều này không chỉ giúp người xem có lựa chọn tốt hơn mà còn giúp nội dung hay được phổ
biến. Mức độ câu (Lin và He 2009) Phân tích cảm xúc thường được sử dụng trong lĩnh vực này để
xác định chính xác cảm xúc tổng thể của các bài đánh giá được đưa ra. Ngành công nghiệp du lịch
đã tìm cách cải thiện trải nghiệm của khách hàng bằng cách phát triển hệ thống học máy và khuyến
nghị người tiêu dùng trực tuyến dựa trên các kỹ thuật ra quyết định dựa trên dữ liệu của intel
(Jain et al. 2021f) cũng thảo luận về việc phân loại các quyết định của người tiêu dùng là tích
cực hay tiêu cực dựa trên các đánh giá trực tuyến được cung cấp bởi người tiêu dùng có giá trị
(Jain et al. 2021e).
6.3.1 Đánh giá của khách hàng
Phân tích tình cảm trên các đánh giá về khách sạn và nhà hàng có thể giúp khách hàng lựa chọn
tốt hơn và cũng giúp chủ sở hữu cải thiện. Phân tích tình cảm dựa trên khía cạnh được thực hiện
đối với khách sạn và nhà hàng sẽ giúp xác định khía cạnh có đánh giá tích cực nhất và đánh giá
tiêu cực, từ đó Khách sạn có thể hoạt động và cải thiện khía cạnh đó. (Sann và Lai 2020; Al-Smadi
và cộng sự 2018) Theo phân tích tâm lý, đây là một trong những ngành hấp dẫn nhất. Phân tích cảm
tính trên các đánh giá về khách sạn và nhà hàng có thể giúp khách hàng lựa chọn tốt hơn và cũng
giúp chủ sở hữu cải thiện (Zhao et al. 2019). ABSA (Akhtar et al. 2017) được thực hiện trên các
khách sạn và nhà hàng sẽ giúp xác định khía cạnh có đánh giá tích cực nhất và đánh giá tiêu cực,
từ đó khách sạn có thể hoạt động và cải thiện nó. Các nhà cung cấp dịch vụ thu được nhiều lợi
nhuận nhất vì họ có thể trích xuất khía cạnh nhận được nhiều phản hồi nhất và cải thiện nó.
6.3.2 Phân tích khía cạnh
Phân tích tình cảm dựa trên khía cạnh có thể giúp các doanh nghiệp tận dụng tối đa lượng dữ liệu
khổng lồ mà họ tạo ra. Phương pháp dựa trên khía cạnh sẽ cho phép các công ty trích xuất các
khía cạnh quan trọng nhất của phản hồi và dịch vụ của khách hàng.
6.4 Thị trường chứng khoán
Một trong những ứng dụng của phân tích tâm lý là dự đoán giá cổ phiếu. Nó có thể được thực hiện
bằng cách phân tích tất cả các tin tức về thị trường chứng khoán và dự đoán xu hướng giá cổ phiếu.
Dữ liệu có thể được thu thập từ nhiều nguồn khác nhau như Twitter, các bài báo, blog, v.v. Phân
tích tình cảm cấp độ Sen có thể được thực hiện trên các văn bản này, sau đó, độ nghiêng tổng
thể của văn bản sẽ được quyết định về tin tức của một công ty cụ thể. Trong công việc của Xing
et al. (2018) được sử dụng để xác định liệu xu hướng sẽ tăng hay giảm. Tin tức tích cực có xu
hướng dẫn đến xu hướng tăng, trong khi tin tức tiêu cực có xu hướng dẫn đến xu hướng giảm.
Bitcoin và các loại tiền điện tử kỹ thuật số khác liên quan đến một công nghệ mới được gọi là
Blockchain. Những người tham gia bên trong mạng lưới blockchain xác minh các giao dịch kỹ thuật
số bằng cách sử dụng các phương pháp đồng thuận ngang hàng. Tuy nhiên, các cuộc điều tra áp dụng
Phân tích cảm xúc đối với lĩnh vực công nghệ blockchain vẫn chưa thường xuyên và những cuộc điều
tra đã tồn tại, chẳng hạn như công việc ở Kraaijeveld và De Smedt (2020), đã gây được cảm tình .
1 3
Bảng 7 Nghiên cứu các thách thức khác nhau trong phân tích tình cảm theo cấu trúc dữ liệu
Người giới thiệu Thách đấu Cấu trúc của bài đánh giá
Heerschop và cộng sự. (2011) Phủ định Dữ liệu cấu trúc bán phần (tính từ)
Lapponi và cộng sự. (2012) Phủ định + từ vựng khổng lồ Dữ liệu bán cấu trúc
Remus (2013) Từ phủ định + bi cực Tài liệu chủ đề dữ liệu , câu hoặc
bán có cấu trúc
Chunping và cộng sự. (2014) Tên miền Dữ liệu phi cấu trúc, đánh giá cảm xúc
Hu và cộng sự. (2014) Viết tắt ngắn Dữ liệu phi cấu trúc
Kiritchenko và cộng sự. (2014) Những cảm xúc dữ liệu phi cấu trúc
Cao và cộng sự. (2015) Sự mơ hồ Dữ liệu bán cấu trúc
Flekova et al. (2015) Từ hai cực Kasmuri Dữ liệu phi cấu trúc
và Basiron (2017) Phát hiện thư rác ý kiến Shayaa et al. (2018) Dữ liệu có cấu trúc
Thông tin không đầy đủ và sự thưa thớt Dữ liệu không có cấu trúc và Dữ liệu có cấu trúc
Salah và cộng sự. (2019) và Mite Phụ thuộc tên miền Dữ liệu phi cấu trúc
Baidal et al. (2018)
Oueslati và cộng sự. (2020) Phụ thuộc ngôn ngữ Dữ liệu phi cấu trúc
Zuo và cộng sự. (2020) Ngôn ngữ ẩn ý Dữ liệu phi cấu trúc
Acheampong và cộng sự. (2020) Kumar and Garg phát hiện cảm dữ liệu phi cấu trúc
xúc (2020) Kết hợp dữ liệu đa nguồn Dữ liệu phi cấu trúc, Dữ liệu có cấu trúc
Parvin et al. (Năm 2021) Lời nói thân mật và tiếng lóng Dữ liệu phi cấu trúc
Mendon và cộng sự. (Năm 2021) Nhiều lớp phân loại Dữ liệu phi cấu trúc, Dữ liệu có cấu trúc
phân tích để dự đoán giá trị của tiền điện tử kỹ thuật số. Trong công trình của Rognone et al. (2020)
đã điều tra mức độ ảnh hưởng của tâm lý tin tức đối với các loại tiền điện tử như bitcoin và các loại
tiền tệ tiêu chuẩn khác, sự biến động, khối lượng và lợi nhuận.
6.5 Tiếng nói của khách hàng
Lấy tất cả phản hồi của người dùng từ các trung tâm cuộc gọi, email, khảo sát, trò chuyện, web và
com bine và đánh giá nó. Phân tích cảm xúc sẽ cho phép phân loại và sắp xếp dữ liệu để phát hiện các
xu hướng cũng như các vấn đề và lo lắng đang tái diễn. Phân tích tình cảm có thể hỗ trợ trong việc
xác định một nhóm khách hàng thích hợp và đề xuất giá trị tiếp theo sẽ phát triển, cả hai đều là
những thành phần thiết yếu của một hoạt động kinh doanh thành công. Mặt khác, để luôn cập nhật và
duy trì sản phẩm theo yêu cầu, nó phải có sự nhanh nhạy hơn đối với nhịp đập của khách hàng.
6.6 Giám sát mạng xã hội
Phân tích cảm xúc của dữ liệu xã hội sẽ theo dõi tâm lý của khách hàng 24 giờ một ngày, bảy ngày một
tuần, trong thời gian thực khi bất kỳ điều gì khó chịu bắt đầu lưu hành, có thể đọc câu trả lời vu
vơ và củng cố hình ảnh khi nhận được đề cập thuận lợi. Điều đó cũng thu được thông tin về khách hàng
ổn định, đáng tin cậy, có thể theo dõi tiến trình từ mùa này sang mùa khác cho quá trình ra quyết
định. Bởi vì các cá nhân cung cấp nhận xét của họ mà không
1 3
được hỏi, các bài đăng trên mạng xã hội thường trình bày một số quan điểm trung thực nhất về sản
phẩm, dịch vụ và doanh nghiệp. Họ có nghĩa vụ bày tỏ cảm xúc của mình với phần còn lại của thế giới.
7 thách thức trong phân tích tình cảm
Phân tích tình cảm đi kèm với nhiều thách thức khác nhau, từ chi phí tính toán đến văn bản không
chính thức và sự hiện diện của các biến thể trong ngôn ngữ. Chúng tôi xem xét các thách thức phân
tích tình cảm xảy ra thường xuyên hơn với một số loại cấu trúc tình cảm, như được thể hiện trong
Bảng 7. Một số thách thức quan trọng phải đối mặt trong phân tích tình cảm là:
7.1 Tình cảm có cấu trúc
Tình cảm có cấu trúc được tìm thấy trong các bài đánh giá tình cảm chính thức, chúng tập trung hơn
vào các vấn đề chính thức như sách hoặc nghiên cứu. Bởi vì các tác giả là những người chuyên nghiệp,
họ có khả năng viết ra những suy nghĩ hoặc quan sát liên quan đến khoa học viễn tưởng hoặc thực tế
những mối quan tâm.
7.2 Tình cảm bán cấu trúc
Tình cảm bán cấu trúc nằm giữa tình cảm có cấu trúc và không cấu trúc. Những điều này đòi hỏi nhận
thức về nhiều mối quan tâm liên quan đến đánh giá. Phong cách này, phụ thuộc vào lợi ích và nhược
điểm, được các tác giả liệt kê riêng và các phần ưu và nhược điểm thường bao gồm các câu ngắn gọn
(Birjali et al. 2021; Hussein 2018; Ebrahimi et al. 2017; Mohammad 2017) .
7.3 Tình cảm không có cấu trúc
Tình cảm không có cấu trúc là một thể loại viết không chính thức và tự do, trong đó người viết
không bị ràng buộc bởi bất kỳ quy tắc nào (Mukherjee et al. 2013). Văn bản có thể bao gồm nhiều
câu, mỗi câu có thể bao gồm cả ưu và nhược điểm. Đối với bài kiểm tra, các bài đánh giá không có
cấu trúc chứa nhiều thông tin quan điểm hơn so với các bài đánh giá chính thức của chúng (Levashina
et al. 2014). Một tính năng được nêu rõ ràng: Nếu một tính năng xuất hiện trong phân khúc / đoạn
của bài đánh giá sen tence, thì tính năng đó được gọi là một tính năng rõ ràng của sản phẩm.
Ví dụ, trong phân khúc, hình ảnh thật tuyệt vời. Hình ảnh là một tính năng rõ ràng. Nếu một tính
năng f không được đề cập rõ ràng trong phần đánh giá nhưng được ngụ ý, thì nó được coi là một tính
năng tiềm ẩn của sản phẩm (Liu và cộng sự 2010; Elith và cộng sự 2011). Ví dụ, trong phần này, nó
cực kỳ đắt, và đắt là một dấu hiệu đặc trưng. Dựa trên bản chất phê bình của phân tích tình cảm,
nghiên cứu này xem xét mối quan hệ giữa cấu trúc quan điểm phản hồi và các vấn đề phân tích tình
cảm.
1 3
7.4 Những thách thức về phương pháp luận
Phần lớn phân tích tình cảm trong thời hiện đại là các mô hình học máy theo hướng dữ liệu điều chỉnh
thuật toán phân tích cảm xúc được phát triển để đánh giá sản phẩm nhằm đánh giá các bài đăng trên blog
nhỏ là một câu hỏi chưa có câu trả lời. Ngoài ra, làm thế nào để đối phó với những tình huống không rõ
ràng và trớ trêu là những điểm khó quan trọng trong phân tích tình cảm. Ví dụ, một nhận xét châm biếm
về một đối tượng nhằm truyền đạt một cảm xúc tiêu cực; tuy nhiên, các thuật toán phân tích tình cảm
thông thường thường bỏ lỡ ý nghĩa này. Các phương pháp Numer ous đã được đề xuất (Castro et al. 2019;
Medhat et al. 2014) để phát hiện sự mỉa mai trong ngôn ngữ. Tuy nhiên, vấn đề còn lâu mới được giải
quyết, vì hài kịch rất đặc biệt về mặt văn hóa, và việc một cỗ máy hiểu được những ám chỉ văn hóa độc
đáo (và khá chi tiết) là một thách thức. Trong công trình của Poria et al. (2018a) gợi ý bằng cách kết
hợp giọng nói và nét mặt vào phân tích cảm xúc đa phương thức; Điều này có thể cải thiện tỷ lệ thành
công của nó trong việc xác định các bình luận châm biếm. Hơn nữa, các cá nhân thể hiện tình cảm vì những
lý do xã hội không liên quan đến thiên hướng cơ bản của họ. Ví dụ, một người có thể truyền tải những
suy nghĩ tích cực hoặc tiêu cực để tuân theo một chủ đề cụ thể A chuẩn mực hoặc thể hiện và xác định
danh tính của một người. Cuối cùng, phân tích tình cảm dựa trên máy móc chỉ tập trung vào những biểu
hiện cảm xúc bên ngoài và thiếu thông tin kết luận về ý tưởng được thể hiện của một cá nhân.
Phân tích cảm xúc có thể áp dụng cho các loại dữ liệu khác nhau, mỗi loại đều có những thách thức
riêng. Phân tích cảm xúc của con người với máy móc và con người với con người yêu cầu các bộ dữ liệu
rất giống với bộ dữ liệu được sử dụng để nhận dạng cảm xúc. Kết quả là, nó có những hạn chế giống nhau
về kích thước và sự thật mặt bằng không đáng tin cậy. Trong công trình của McDuf et al. (2014) đã minh
họa cách sử dụng webcam để thu thập một số lượng lớn các phản ứng theo từng cung bậc cảm xúc, bao gồm
cả tình cảm. Mặc dù điều này làm giảm chất lượng chụp ảnh nghe nhìn, nhưng nó đạt được một thang đo
không thể tưởng tượng được trong phòng thí nghiệm. Ngoài ra, có vấn đề về việc dán nhãn dữ liệu phòng
thí nghiệm đủ tiêu chuẩn, điều này cấm những người được phép kiểm tra dữ liệu thực hiện thao tác ghi
nhãn tốn nhiều thời gian. Do đó, chúng bị hạn chế về số lượng dữ liệu mà chúng có thể thu thập trong
phòng thí nghiệm và khả năng của chúng tôi để gắn nhãn khối lượng dữ liệu khổng lồ. Có một số phương
pháp để đánh giá cảm giác, nhưng các thuật toán nhúng từ như word2vec và GloVe biến các từ thành vectơ
có nghĩa.
Mặt khác, những phương pháp này bỏ qua thông tin cảm tính của từ (Wankhade và cộng sự 2021).
Thông tin đa phương tiện trên các trang web là nguồn thứ hai của dữ liệu tình cảm đa phương thức.
Phương tiện truyền thông xã hội cung cấp cho chúng ta vô số dữ liệu giúp chúng ta mở rộng quy mô. Vấn
đề là dữ liệu thu được khác nhau về chất lượng và bối cảnh, và dữ liệu được giới hạn cho các nhóm dân
số cụ thể phổ biến hơn trên internet. Tuy nhiên, vì dữ liệu có sẵn công khai, nguồn cung cấp cộng đồng
có thể được sử dụng để phân loại nó một cách dễ dàng. Theo dữ liệu có sẵn trên MSA, mọi người thường có
xu hướng truyền đạt những ý kiến tích cực hoặc tiêu cực trực tuyến, dẫn đến sự khan hiếm ý kiến trung
lập được đại diện trong tất cả các nghiên cứu MSA đánh giá.
Châm biếm Mọi người có xu hướng sử dụng sự mỉa mai khi họ không đáp ứng được mong đợi của họ. Máy
móc rất khó nhận ra những lời mỉa mai vì nhiều yếu tố tạo nên sự mỉa mai hoàn hảo, chẳng hạn như giọng
điệu, ý đồ tình huống, thông tin cơ bản, v.v. Châm biếm là một nhận xét châm biếm có thể trông giống
như một lời tán dương nhưng thực tế. Sarcasm được mọi người sử dụng để chỉ trích. Sarcasm là một loại
tình cảm trong đó mọi người thể hiện thông tin ngầm, thường là đối cực của thông điệp lừa đảo, để làm
tổn thương một người nào đó hoặc chế giễu điều gì đó về mặt cảm xúc. Phát hiện Sarcasm trong khai thác
văn bản là một trong những nhiệm vụ thách thức nhất trong NLP, nhưng gần đây nó đã trở thành một công việc thú vị
1 3
đối tượng nghiên cứu do tính hữu ích của nó trong việc tăng cường phân tích tình cảm trên mạng xã hội (Eke
et al. 2020).
Phong cách viết không chính thức Phong cách viết không chính thức là thách thức lớn nhất đối với tất cả
các nhiệm vụ NLP, bao gồm cả phân tích tình cảm. Mọi người rất bình thường về việc viết đánh giá hoặc văn
bản; họ có xu hướng sử dụng các từ viết tắt, biểu tượng cảm xúc, phím tắt trong văn bản của họ mà rất khó nhận ra.
Các từ viết tắt có thể được xử lý nếu chúng phổ biến. Có rất nhiều từ viết tắt của khu vực14
thay đổi và phát triển từng ngày.
Lỗi ngữ pháp Lỗi ngữ pháp rất phổ biến trong các văn bản không chính thức và có thể được xử lý, nhưng chỉ
ở một mức độ nào đó; lỗi chính tả cũng có thể được sửa chữa hạn chế. Rất khó để phát sinh lỗi chính tả của
người dùng duy nhất mỗi lần. Độ chính xác của phân tích cảm tính và nhiệm vụ NLP có thể được cải thiện nếu
những lỗi này có thể được xử lý và sửa chữa.
Chi phí tính toán Để có được độ chính xác cao hơn, chúng ta cần tăng kích thước dữ liệu huấn luyện và làm
phức tạp mô hình, điều này sẽ làm tăng chi phí tính toán của mô hình để huấn luyện theo cấp số nhân; GPU cao
cấp có thể được yêu cầu để đào tạo một mô hình với một kho dữ liệu khổng lồ.
Các mô hình như SVM, NB không tốn kém về mặt tính toán, nhưng mạng nơ-ron và các mô hình chú ý đã chỉ ra rằng
chúng rất tốn kém về mặt tính toán.
Tính sẵn có của dữ liệu Vì NLP và phân tích tình cảm là một công nghệ mới bùng nổ gần đây, tính sẵn có
của dữ liệu cũng có thể là một thách thức trong một số trường hợp. Mặc dù dữ liệu có sẵn trong Twitter để
phân tích tình cảm, nhưng dữ liệu đào tạo chất lượng cao là thách thức đối với các thuật toán học có giám
sát. Dữ liệu đào tạo cho ABSA rất khó lập trực tuyến do đó cần phải được chuẩn bị thủ công. Dữ liệu đào tạo
của một miền có thể không áp dụng được và có thể có giá trị đối với các miền khác. Ví dụ, một mô hình được
đào tạo về tập dữ liệu đánh giá khách sạn không hữu ích trong việc dự đoán tình cảm của tập dữ liệu chứng
khoán hoặc quỹ tương hỗ và ngược lại.
Sự thích nghi của ngôn ngữ Ngôn ngữ thay đổi khi chúng di chuyển đến các vùng và địa điểm khác nhau; mặc
dù ngôn ngữ cơ bản vẫn giữ nguyên, nhiều yếu tố ảnh hưởng đến ngôn ngữ, chẳng hạn như sự nổi bật của ngôn
ngữ, cách phát âm, tỷ lệ biết chữ, v.v. Ví dụ, hãy xem xét ngôn ngữ Eng lish, được sử dụng rộng rãi trên toàn
thế giới, nhưng có thể thấy rằng nhiều giống tiếng Anh được sử dụng trên toàn thế giới dựa trên các khu vực
như Ấn Độ, Mỹ, Anh, v.v. Rất nhiều từ được sử dụng khác nhau tùy thuộc vào khu vực được sử dụng. Ví dụ: hãy
xem xét từ “thong” có nghĩa là dép đi trong nhà hoặc dép lê ở Úc nhưng có nghĩa là áo lót ở Anh. Tương tự,
các cách viết khác nhau cho cùng một từ, chẳng hạn như “màu sắc” và “màu sắc”,
có nghĩa giống nhau nhưng được đánh vần khác nhau ở các vùng khác nhau. Điều này sẽ tạo ra các bản sao và có
thể làm ảnh hưởng đến độ chính xác và chi phí tính toán của mô hình. Rào cản ngôn ngữ là khó khăn nhất trong
những thách thức đối với NLP. Có hàng ngàn ngôn ngữ được sử dụng trên toàn thế giới, mặc dù kỹ thuật NLP hầu
như không có sẵn cho 5-10 ngôn ngữ và các nguồn tài liệu dành cho tiếng Anh có sẵn rộng rãi.
Các cụm từ có chứa trạng từ mức độ và cường độ Các trạng từ như hơi, vừa phải và vừa phải được sử dụng để
định lượng tình cảm. Ví dụ, hãy xem xét đánh giá r1 = “Thức ăn hầu như không ngon” và r2 = “thức ăn thực sự
tốt”. r1 được coi là trung tính hoặc hơi tích cực, trong khi r2 được coi là rất tích cực. Các trạng từ 'hầu
như không' và 'thực sự'
quyết định mức độ tích cực và từ 'tốt'. Tương tự, cường độ cao cũng định lượng tình cảm của các câu.
Intensifers cũng rất được sử dụng để tăng mức độ tích cực hoặc tiêu cực của mã thông báo. Ví dụ: “quá tốt”
được coi là sang trọng hơn là “tốt”. Các trạng từ cường độ và mức độ đặt ra một thách thức đối với việc tổng
hợp
14
https://www.dictionary.com/e/acronyms.
1 3
giá trị tình cảm và so sánh hai câu của cùng một tình cảm chứ không phải khác nhau giữa hai câu
đối cực.
Những thách thức lý thuyết sử dụng nhiều cách tiếp cận khác nhau để nâng cao hiệu suất khi trả
lời những thách thức về tình cảm cụ thể (Hunter et al. 2012). Loại lý thuyết làm cho việc gắn thẻ
PoS rộng rãi và các phương pháp tiếp cận dựa trên từ vựng (Taboada et al. 2011).
Cách tiếp cận thứ hai là kỹ thuật BoW (El-Din 2016). Cuối cùng, đó là cách tiếp cận TÔI. Tuy nhiên,
kỹ thuật được sử dụng thường xuyên nhất là kỹ thuật N-gram, dựa trên các cụm từ và cách diễn đạt
khi gặp các thách thức về cảm xúc kỹ thuật (Wilson et al. 2009). Cũng như phương pháp được sử dụng
ít nhất là phương pháp dựa trên từ vựng.
Dữ liệu mã hỗn hợp Trộn mã là việc sử dụng từ vựng và ngữ pháp từ các ngôn ngữ khác nhau trong
cùng một câu (Pravalika et al. 2017; Poria et al. 2020). Code Mix ing là một hiện tượng ngôn ngữ
có thể xảy ra trong một tình huống đa ngôn ngữ mà người nói nói nhiều ngôn ngữ. Hiện tượng này
ngày càng trở nên phổ biến khi giao tiếp giữa các nhóm người nói các ngôn ngữ khác nhau ngày càng
gia tăng. Trộn mã: Một đánh giá về các bài đăng trên Facebook do người dùng tiếng Hindi-English
tạo cho thấy mức độ trộn mã cao trong các bài đăng. Các vấn đề trong văn bản hỗn hợp mã tiếng Hindi-
tiếng Anh đã được báo cáo bằng cách sử dụng kho ngữ liệu có chú thích thẻ PoS. (Vijay và cộng sự
2018) một hệ thống có thể phát hiện ngôn ngữ của các từ, chuẩn hóa chúng thành dạng chuẩn, gán thẻ
PoS của chúng và chia chúng thành nhiều phần để xử lý vấn đề phân tích cú pháp nông của xã hội hỗn
hợp mã tiếng Hindi-tiếng Anh nội dung phương tiện. Nó thường xuyên xảy ra trong các xã hội đa ngôn
ngữ và thể hiện sự khó khăn đáng kể đối với các nhiệm vụ NLP như phân tích cảm xúc. Việc thiếu ngữ
pháp chính thức cho các cụm từ hỗn hợp mã khiến việc xác định ngữ nghĩa thành phần trở nên khó
khăn, điều này rất quan trọng để tiến hành phân tích cảm xúc bằng các kỹ thuật dựa trên quy tắc và
máy học. Hơn nữa, bởi vì việc trộn là tùy thuộc vào từng cá nhân, không có hướng dẫn trộn được xác
định trước, đó là một trong những hạn chế đáng kể (Chatterjere et al. 2020). Do đó, để tiến hành
phân tích cảm tính trên dữ liệu hỗn hợp mã, các mô hình ngôn ngữ mới phải được phát triển.
Trong công việc của Chatterjere et al. (2020) và Singh et al. (2018) thách thức lập mô hình ngôn
ngữ cho văn bản Hinglish hỗn hợp mã đã được điều tra. Tuy nhiên, mặc dù thực tế là Code Mix ing là
một mối quan tâm lớn, nhưng ít nghiên cứu đã giải quyết nó một cách thấu đáo như nghiên cứu của
Lal et al. (2019) (Tiếng Anh-Hindi) dữ liệu hỗn hợp mã để phân tích tình cảm, các tác giả đã trình
bày một kiến trúc kết hợp.
8 Kết luận
Bài viết này đã thảo luận về phân tích tình cảm và các kỹ thuật liên quan. Mục tiêu chính của công
việc này là điều tra và hoàn thiện các phương pháp phân loại với ưu điểm và nhược điểm của chúng
trong phân tích cảm tính. Để bắt đầu, một số cấp độ phân tích tình cảm đã được thảo luận, sau đó
là tổng quan nhanh về các thủ tục cần thiết như thu thập dữ liệu và lựa chọn tính năng. Tiếp theo,
các phương pháp của hệ thống phân loại tình cảm được phân loại và so sánh về ưu điểm và nhược điểm
của chúng. Do tính đơn giản và độ chính xác tuyệt vời của chúng, các phương pháp học máy có giám
sát thường là kỹ thuật được sử dụng rộng rãi trong lĩnh vực này. Phân loại sử dụng thuật toán NB
và SVM thường được sử dụng làm điểm chuẩn để so sánh các phương pháp tiếp cận mới được đề xuất.
Một số lĩnh vực ứng dụng phổ biến nhất được thảo luận sau đó khảo sát xem xét mức độ quan trọng và
hậu quả của các thách thức phân tích cảm xúc trong đánh giá tình cảm. Con trai so sánh nghiên cứu
mối quan hệ giữa cấu trúc của các bài đánh giá tình cảm và các yếu tố khác nhau liên quan đến phân
tích tình cảm. So sánh này cho thấy sự phụ thuộc vào miền,
1 3
điều này rất cần thiết để xác định các vấn đề về tình cảm. Công việc trong tương lai sẽ bao gồm
liên tục mở rộng khu vực so sánh với các liên kết bổ sung. Những thách thức tiếp theo chứng minh
rằng phân tích cảm xúc vẫn còn là một chủ đề nghiên cứu tương đối chưa được khám phá.
Người giới thiệu
Abid F, Alam M, Yasir M, Li C (2019) Phân tích tình cảm thông qua các biến thể lặp lại sau này trên bìm bìm
mạng nơ-ron tional của twitter. Futur Gener Comput Syst 95: 292–
308
Acheampong FA, Wenyu C, Nunoo-Mensah H (2020) Phát hiện cảm xúc dựa trên văn bản: tiến bộ, thách thức và cơ hội. Bản Eng Rep 2
(7): e12189
Acheampong FA, Nunoo-Mensah H, Chen W (2021) Các mô hình máy biến áp để phát hiện cảm xúc dựa trên văn bản:
đánh giá các phương pháp tiếp cận dựa trên BERT. Artif Intell Rev 54: 5789–5829
Adomavicius G, Kwon Y (2011) Cải thiện tính đa dạng của đề xuất tổng hợp bằng cách sử dụng công nghệ dựa trên xếp hạng
niques. IEEE Trans Knowl Data Eng 24 (5): 896–911
Ahmad S, Asghar MZ, Alotaibi FM, Awan I (2019) Phát hiện và phân loại các khuynh hướng cực đoan dựa trên mạng xã hội bằng kỹ
thuật phân tích tình cảm. Hum Centric Comput Inf Sci 9 (1): 1–23
Ahmad SR, Bakar AA, Yaakub MR (2019) Một đánh giá về các kỹ thuật lựa chọn tính năng trong phân tích tình cảm.
Intell Data Anal 23 (1): 159–189
Akhtar MS, Ekbal A, Cambria E (2020) Bạn mãnh liệt đến mức nào? dự đoán cường độ của cảm xúc và senti
ments sử dụng nhóm xếp chồng [ghi chú ứng dụng]. IEEE Comput Intell Mag 15 (1): 64–
75
Akhtar N, Zubair N, Kumar A, Ahmad T (2017) Tóm tắt theo định hướng cảm tính dựa trên khía cạnh của các đánh giá khách sạn.
Thủ tục khoa học tính toán 115: 563–571
Al Amrani Y, Lazaar M, El Kadiri KE (2018) Rừng ngẫu nhiên và hỗ trợ kết hợp dựa trên máy vectơ
cách tiếp cận để phân tích tình cảm. Thủ tục khoa học tính toán 127: 511–
520
Al-Smadi M, Qawasmeh O, Al-Ayyoub M, Jararweh Y, Gupta B (2018) Mạng thần kinh tái hiện sâu so với máy vectơ hỗ trợ để phân
tích tình cảm dựa trên khía cạnh của các đánh giá khách sạn Ả Rập. J Comput Sci
27: 386–393
Alhumoud SO, Al Wazrah AA (2021) Phân tích tình cảm Ả Rập sử dụng mạng nơ-ron lặp lại: một bài đánh giá.
Artif Intell Rev 55: 707–748
Ali SM, Noorian Z, Bagheri E, Ding C, Al-Obeidat F (2020) Bản tóm tắt ý thức về chủ đề và tình cảm trên blog nhỏ
rization cho twitter. J Intell Inf Syst 54 (1): 129–

156
Annett M, Kondrak G (2008) So sánh các kỹ thuật phân tích tình cảm: Phân cực blog phim. Trong: Hội nghị của Hiệp hội Nghiên
cứu Tính toán về Trí thông minh của Canada. Springer, trang 25–
35
Arora A, Chakraborty P, Bhatia M, Mittal P (2021) Vai trò của cảm xúc trong việc sử dụng quá nhiều twitter trong thời gian
COVID-19 bị khóa ở Ấn Độ. J Technol Behav Sci 6 (2): 370–377
Baashar Y, Alhussian H, Patel A, Alkawsi G, Alzahrani AI, Alfarraj O, Hayder G (2020) Hệ thống quản lý quan hệ khách hàng
(CRMS) trong môi trường chăm sóc sức khỏe: một đánh giá tài liệu có hệ thống.
Comput Stand Interfaces 71: 103442

Baccianella S, Esuli A, Sebastiani F (2010) Sentiwordnet 3.0: một nguồn từ vựng nâng cao cho tình cảm
phân tích và khai thác ý kiến. Lrec 2010: 2200–2204
Bai X (2011) Dự đoán cảm xúc của người tiêu dùng từ văn bản trực tuyến. Hỗ trợ Decis Syst 50 (4): 732–742
Bai X, Liu P, Zhang Y (2020) Điều tra sự phụ thuộc cú pháp được đánh máy cho phân loại tình cảm được nhắm mục tiêu bằng cách
sử dụng mạng nơ-ron chú ý đồ thị. IEEE / ACM Trans Audio Speech Quy trình Lang 29: 503–
514
Balaji T, Annavarapu CSR, Bablani A (2021) Các thuật toán học máy để phân tích mạng xã hội: một bước tiến
vey. Comput Sci Rev 40: 100395
Bandara K, Bergmeir C, Smyl S (2020). Expert Syst Appl 140: 112896
Bartusiak R, Augustyniak L, Kajdanowicz T, Kazienko P (2015) Phân tích tình cảm đối với việc đánh bóng bằng cách sử dụng phương
pháp học chuyển giao. Trong: Hội nghị tình báo mạng châu Âu lần thứ hai năm 2015. IEEE, trang 53–
59
Basiri ME, Nemati S, Abdar M, Cambria E, Acharya UR (2021) ABCDM: một mô hình sâu CNN-RNN hai chiều dựa trên sự chú ý để phân
tích tình cảm. Futur Gener Comput Syst 115: 279–294
Behdenna S, Barigou F, Belalem G (2018) Phân tích tình cảm ở cấp độ tài liệu: một cuộc khảo sát. EAI đã chứng thực cho hệ
thống nhận biết ngữ cảnh chuyển tiếp Appl 4 (13): e2
Bergsma S, McNamee P, Bagdouri M, Fink C, Wilson T (2012) Nhận dạng ngôn ngữ để tạo bộ sưu tập twitter lan guage-specifc.
Trong: Kỷ yếu hội thảo thứ hai về ngôn ngữ trên mạng xã hội, trang 65–
74
1 3
Bhaskar J, Sruthi K, Nedungadi P (2015) Phương pháp kết hợp để phân loại cảm xúc của cuộc trò chuyện bằng âm thanh
dựa trên khai thác văn bản và giọng nói. Thủ tục tính toán khoa học 46: 635–
643
Bhatia P, Ji Y, Eisenstein J (2015) Phân tích tình cảm ở cấp độ tài liệu tốt hơn từ phân tích cú pháp diễn ngôn đầu tiên.
arXiv bản in trước arXiv: 150901599
Birjali M, Kasri M, Beni-Hssane A (2021) Một cuộc khảo sát toàn diện về phân tích tình cảm: phương pháp tiếp cận,
thách thức và xu hướng. Hệ thống dựa trên bí quyết 226: 107134
Bojanowski P, Grave E, Joulin A, Mikolov T (2017) Làm giàu vectơ từ với thông tin từ phụ.
Trans PGS Comput Linguist 5: 135–

146
Bordes A, Glorot X, Weston J, Bengio Y (2014) Một hàm năng lượng phù hợp ngữ nghĩa để học với dữ liệu đa quan hệ. Mach Học 94
(2): 233–259
Borg A, Boldt M (2020) Sử dụng cảm xúc VADER và SVM để dự đoán cảm xúc phản hồi của khách hàng.
Chuyên gia Syst Appl 162: 113746
Bose R, Dey RK, Roy S, Sarddar D (2020) Phân tích cảm xúc trên các bài đánh giá sản phẩm trực tuyến. Trong: Công nghệ thông tin
và truyền thông để phát triển bền vững. Springer, trang 559–

569
Buder J, Rabl L, Feiks M, Badermann M, Zurstiege G (2021) Không sử dụng ngôn ngữ có tông màu tiêu cực trên mạng xã hội
phương tiện truyền thông dẫn đến phân cực thái độ? Comput Hum Behav 116: 106663
Calders T, Verwer S (2010) Ba phương pháp tiếp cận ngây thơ để phân loại không phân biệt đối xử. Data Min Knowl Disc 21 (2):
277–292
Cambria E, Das D, Bandyopadhyay S, Feraco A (2017) Phân tích cảm tính và tính toán tổng hợp. Trong: A
hướng dẫn thực hành để phân tích tình cảm. Springer, trang 1–10
Cambria E, Li Y, Xing FZ, Poria S, Kwok K (2020) Senticnet 6: ứng dụng tổng hợp của ai biểu tượng và biểu tượng con để phân
tích tình cảm. Trong: Kỷ yếu hội nghị quốc tế ACM lần thứ 29 về quản lý thông tin và tri thức, trang 105–
114
Cao Q, Duan W, Gan Q (2011) Khám phá các yếu tố quyết định việc bỏ phiếu cho sự “hữu ích” của người dùng trực tuyến
đánh giá: một cách tiếp cận khai thác văn bản. Decis Support Syst 50 (2): 511–
521
Cao Y, Zhang P, Xiong A (2015) Phân tích tình cảm dựa trên khía cạnh mở rộng và phân cực-mơ hồ
từ vựng. Int J Adv Comput Sci Appl 6 (2): 97–

103
Carvalho J, Plastino A (2021) Về đánh giá và kết hợp các tính năng hiện đại trong twitter
phân tích tình cảm. Artif Intell Rev 54 (3): 1887–

1936
Castro S, Hazarika D, Pérez-Rosas V, Zimmermann R, Mihalcea R, Poria S (2019) Hướng tới khả năng phát hiện mỉa mai đa phương
thức (một bài báo hoàn hảo _obvious_). arXiv bản in trước arXiv: 190601815
Celik Y, Talo M, Yildirim O, Karabatak M, Acharya UR (2020) Phát hiện ung thư ống dẫn trứng xâm lấn tự động dựa trên việc sử
dụng học chuyển sâu với hình ảnh toàn bộ slide. Chữ cái nhận dạng mẫu 133: 232–
239
Chang JR, Liang HY, Chen LS, Chang CW (2020) Các phương pháp lựa chọn tính năng tiểu thuyết để cải thiện hiệu suất phân loại
tình cảm. J Ambient Intell Humaniz Comput trang 1–14
Chatterjere A, Guptha V, Chopra P, Das A (2020) Lấy mẫu tích cực thiểu số để chuyển đổi điểm-một giai thoại cho mô hình ngôn
ngữ trộn mã. Trong: Kỷ yếu hội nghị đánh giá và tài nguyên ngôn ngữ lần thứ 12, trang 6228–6236
Chen CC, Tseng YD (2011) Đánh giá chất lượng các đánh giá sản phẩm bằng cách sử dụng khung chất lượng thông tin. Decis Support
Syst 50 (4): 755–768
Chen X, Wang Y, Liu Q (2017) Phân tích tình cảm bằng hình ảnh và văn bản bằng cách sử dụng mạng nơ-ron tích hợp sâu. Trong: Hội
nghị quốc tế IEEE 2017 về xử lý ảnh (ICIP). IEEE, trang 1557–1561
Cheng Y, Yao L, Xiang G, Zhang G, Tang T, Zhong L (2020) Phân tích định hướng tình cảm văn bản
dựa trên CNN đa kênh và GRU hai chiều với cơ chế chú ý. IEEE Truy cập 8: 134964–134975
Chetviorkin I, Loukachevitch N (2012) Trích xuất từ điển tình cảm của Nga cho meta sản phẩm
miền. Trong: Kỷ yếu COLING 2012, trang 593–

610
Chiew KL, Tan CL, Wong K, Yong KS, Tiong WK (2019) Một lựa chọn tính năng tổng hợp kết hợp mới
khuôn khổ cho hệ thống phát hiện lừa đảo dựa trên máy học. Inf Sci 484: 153–
166
Cho H, Lee H (2019) Nhận dạng thực thể được đặt tên trong y sinh sử dụng mạng nơ-ron sâu với thông tin theo ngữ cảnh. BMC
Bioinform 20 (1): 1–
11
Chunping O, Wen Z, Ying Y, Zhiming L, Xiaohua Y (2014) Phân tích tình cảm chủ đề trong tin tức Trung Quốc.
Int J Multimed Ubiquitous Eng 9 (11): 385–

396
Clark EM, James T, Jones CA, Alapati A, Ukandu P, Danforth CM, Dodds PS (2018) Một bản phân tích tâm lý về kinh nghiệm điều
trị ung thư vú và nhận thức về chăm sóc sức khỏe trên twitter. bản in trước arXiv
arXiv: 180509959
Cortis K, Davis B (2021) Hơn một thập kỷ khai thác ý kiến xã hội: một đánh giá có hệ thống. Artif Intell Rev
54: 4873–
4965
1 3
Crawford M, Khoshgoftaar TM, Prusa JD, Richter AN, Al Najada H (2015) Khảo sát về spam đánh giá
phát hiện bằng cách sử dụng các kỹ thuật học máy. J Dữ liệu lớn 2 (1): 1–24
Das H, Naik B, Behera H (2020) Một phương pháp trình bao bọc dựa trên thuật toán jaya để lựa chọn tính năng tối ưu trong phân
loại có giám sát. J King Saud Univ Comput Inf Sci
Dave K, Lawrence S, Pennock DM (2003) Khai thác phòng trưng bày đậu phộng: trích xuất ý kiến và phân loại ngữ nghĩa của các
đánh giá sản phẩm. Trong: Kỷ yếu hội nghị quốc tế lần thứ 12 về World Wide Web, trang 519–528
Devlin J, Chang MW, Lee K, Toutanova K (2018) Bert: đào tạo trước về máy biến áp hai chiều sâu để hiểu ngôn ngữ. arXiv bản in
trước arXiv: 181004805
Donkers T, Loepp B, Ziegler J (2017) Đề xuất mạng nơ-ron tuần tự dựa trên người dùng.
Trong: Kỷ yếu hội nghị ACM lần thứ 11 về hệ thống tư vấn, trang 152–160
Dragoni M, Petrucci G (2017) Một phương pháp nhúng từ thần kinh để phân tích tình cảm đa miền.
IEEE Trans Afect Comput 8 (4): 457–

470
Duric A, Song F (2012) Lựa chọn tính năng để phân tích tình cảm dựa trên mô hình nội dung và cú pháp.
Decis Support Syst 53 (4): 704–

711
Ebadi A, Xi P, Tremblay S, Spencer B, Pall R, Wong A (2021) Hiểu được sự phát triển theo thời gian của nghiên cứu covid-19 thông
qua học máy và xử lý ngôn ngữ tự nhiên. Khoa học giáo khoa 126 (1): 725–739
Ebrahimi M, Yazdavar AH, Sheth A (2017) Những thách thức của phân tích cảm tính đối với các sự kiện động. IEEE
Intell Syst 32 (5): 70–

75
Eke CI, Norman AA, Shuib L, Nweke HF (2020) Nhận dạng Sarcasm trong dữ liệu văn bản: đánh giá hệ thống, thách thức nghiên cứu
và hướng mở. Artif Intell Rev 53 (6): 4215–4258
El-Din DM (2016) Mô hình túi lời nâng cao để giải quyết các thách thức của phân tích tình cảm.
Int J Adv Comput Sci Appl 7 (1): 244–

252
Elith J, Phillips SJ, Hastie T, Dudík M, Chee YE, Yates CJ (2011) Một giải thích thống kê về cực đại cho các nhà sinh thái học.
Divers Distrib 17 (1): 43–

57
Ethayarajh K (2019) Trình bày từ ngữ được ngữ cảnh hóa theo ngữ cảnh như thế nào? So sánh hình dạng của nhúng BERT, ELMO và
GPT-2. arXiv bản in trước arXiv: 190900512
Fan TK, Chang CH (2011) Quảng cáo theo ngữ cảnh lấy Blogger làm trung tâm. Chuyên gia Syst Appl 38 (3): 1777–1788
Fang Z, Zhang Q, Tang X, Wang A, Baron C (2020) Một mô hình phân tích ý kiến ngầm dựa trên tính năng
dựa trên các mẫu ý kiến ngầm. Artif Intell Rev 53 (6): 4547–
4574
Ferrari A, Esuli A (2019) Một cách tiếp cận NLP để phát hiện sự không rõ ràng giữa các miền trong các yêu cầu tiếp cận. Autom
Softw Eng 26 (3): 559–598
Filatova E (2012) Trớ trêu và châm biếm: tạo và phân tích kho dữ liệu bằng cách sử dụng nguồn cung ứng cộng đồng. Trong: Lrec, Cit
eseer, trang 392–398
Flek L (2020) Trả lại N thành NLP: hướng tới các mô hình phân loại được cá nhân hóa theo ngữ cảnh. Trong: Bài phát biểu của
cuộc họp thường niên lần thứ 58 của hiệp hội ngôn ngữ học máy tính, trang 7828–
7838
Flekova L, Preoţiuc-Pietro D, Ruppert E (2015) Phân tích tính phù hợp miền của một từ vựng tình cảm bằng cách xác định các từ
lưỡng cực phân bố. Trong: Kỷ yếu hội thảo lần thứ 6 về các cách tiếp cận tính toán đối với chủ quan, cảm tính và phân
tích phương tiện truyền thông xã hội, trang 77–

84
Fredriksen-Goldsen KI, Kim HJ (2017) Khoa học thực hiện nghiên cứu với người lớn tuổi LGBT - giới thiệu về lão hóa với niềm tự
hào: Nghiên cứu sức khỏe quốc gia, lão hóa và tình dục / giới tính (NHAS)
Gao Z, Feng A, Song X, Wu X (2019) Phân loại tình cảm phụ thuộc vào mục tiêu với BERT. Quyền truy cập IEEE
7: 154290–
154299
George DR, Rovniak LS, Kraschnewski JL (2013) Nguy cơ và cơ hội đối với truyền thông xã hội trong y học.
Clin Sản Gynecol 56 (3)
Ghazi D, Inkpen D, Szpakowicz S (2015) Phát hiện các kích thích cảm xúc trong các câu mang cảm xúc. Trong: Hội nghị liên quốc
gia về xử lý văn bản thông minh và ngôn ngữ học tính toán. Springer, trang 152–165
Gower JC (1966) Một số tính chất khoảng cách của phương pháp véc tơ và gốc tiềm ẩn được sử dụng trong phân tích đa biến.
Biometrika 53 (3–
4): 325–
338
Hailong Z, Wenyan G, Bo J (2014) Học máy và các phương pháp dựa trên từ vựng cho phân loại cảm tính Trong: Hội nghị ứng dụng
và hệ thống thông tin web lần thứ 11 năm 2014. IEEE, trang 262–
265
Hajek P, Barushka A, Munk M (2020) Phát hiện đánh giá người tiêu dùng giả mạo bằng cách sử dụng mạng thần kinh sâu tích hợp
nhúng từ và khai thác cảm xúc. Neural Comput Appl 32 (23): 17259–
17274
Hamdan H, Bellot P, Bechet F (2015) Lsislif: Crf và hồi quy logistic để trích xuất mục tiêu ý kiến và phân tích phân cực tình
cảm. Trong: Kỷ yếu hội thảo quốc tế lần thứ 9 về đánh giá ngữ nghĩa (SemEval 2015), trang 753–758
Han K, Xiao A, Wu E, Guo J, Xu C, Wang Y (2021) Máy biến áp trong máy biến áp. arXiv bản in trước arXiv:
210300112
1 3
Han T, Liu C, Yang W, Jiang D (2019) Một khung học tập đối nghịch mới trong mạng nơ-ron phức hợp sâu để chẩn đoán thông minh
các lỗi cơ học. Hệ thống dựa trên bí quyết 165: 474–487
Hangya V, Farkas R (2017) Một nghiên cứu thực nghiệm so sánh về phân tích tình cảm trên các phương tiện truyền thông xã hội
thể loại và ngôn ngữ. Artif Intell Rev 47 (4): 485–505
Hassonah MA, Al-Sayyed R, Rodan A, Ala'M AZ, Aljarah I, Faris H (2020) Một phương pháp tiếp cận trình bao bọc tiến hóa và lai
tạo tiên tiến để phân tích tình cảm về các chủ đề khác nhau trên twitter. Hệ thống dựa trên bí quyết 192: 105353
Hassonah MA, Al-Sayyed R, Rodan A, Ala'M AZ, Aljarah I, Faris H (2020) Một phương pháp tiếp cận trình bao bọc tiến hóa và lai
tạo tiên tiến để phân tích tình cảm về các chủ đề khác nhau trên twitter. Hệ thống dựa trên bí quyết 192: 105353
Heerschop B, van Iterson P, Hogenboom A, Frasincar F, Kaymak U (2011) Tính phủ định trong phân tích tình cảm. Trong: Hội thảo
truy xuất thông tin Hà Lan-Bỉ lần thứ 11 (DIR 2011), Citeseer, pp
38–
39
Hershcovich D, Donatelli L (2021) Đó là ý nghĩa quan trọng: tình trạng nghệ thuật trong NLP và ngữ nghĩa.
KI-Künstliche Intelligenz trang 1–16
Ho C, Murad MAA, Doraisamy S, Kadir RA (2014) Trích xuất các diễn giải từ vựng và cụm từ: đánh giá về
văn học. Artif Intell Rev 42 (4): 851–
894
Hssina B, Merbouha A, Ezzikouri H, Erritali M (2014) Một nghiên cứu so sánh về cây quyết định id3 và c4. 5.
Int J Adv Comput Sci Appl 4 (2): 13–

19
Hu N, Bose I, Koh NS, Liu L (2012) Thao tác đánh giá trực tuyến: phân tích xếp hạng, khả năng đọc và tình cảm. Decis Support
Syst 52 (3): 674–

684
Hu X, Tang J, Gao H, Liu H (2014) Phát hiện người gửi spam trên mạng xã hội với thông tin tình cảm. Trong: 2014 IEEE
hội nghị quốc tế về khai thác dữ liệu. IEEE, trang 180–189
Hunter ST, Cushenbery L, Friedrich T (2012) Thuê một lực lượng lao động sáng tạo: một nỗ lực cần thiết nhưng đầy thử thách
độc đáo. Hum Resour Manag Rev 22 (4): 303–

322
Hussein DMEDM (2018) Một cuộc khảo sát về những thách thức trong phân tích tâm lý. J King Saud Univ Eng Sci
30 (4): 330–
338
Imani MB, Keyvanpour MR, Azmi R (2013) Một phương pháp lựa chọn tính năng nhúng mới: một nghiên cứu so sánh trong việc áp
dụng phân loại văn bản. Appl Artif Intell 27 (5): 408–
427
Jain PK, Pamula R, Ansari S, Sharma D, Maddala L (2019) Dự đoán đề xuất hãng hàng không sử dụng dữ liệu phản hồi được tạo
cus tomer. In: Hội nghị quốc tế lần thứ 4 năm 2019 về hệ thống thông tin và mạng máy tính (ISCON). IEEE, trang 376–379
Jain PK, Pamula R, Ansari S (2021) Một phương pháp học máy có giám sát để đánh giá độ tin cậy
của nội dung do người dùng tạo. Wirel Pers Commun 118 (4): 2469–
2485
Jain PK, Pamula R, Srivastava G (2021) Một bài đánh giá tài liệu có hệ thống về các ứng dụng máy học để phân tích tâm lý
người tiêu dùng bằng cách sử dụng các bài đánh giá trực tuyến. Comput Sci Rev 41: 100413
Jain PK, Pamula R, Yekun EA (2021c) Một mô hình dự đoán nhóm đa nhãn hiệu để đề xuất dịch vụ từ các nội dung trên mạng xã
hội. J Siêu máy tính 1–

18
Jain PK, Quamer W, Pamula R, Saravanan V (2021d) Spsan: Mô hình nhận thức khía cạnh dựa trên mạng lưới quan tâm đến bản thân
thưa thớt để phân tích tình cảm. J Ambient Intell Humaniz Comput 1–
18
Jain PK, Saravanan V, Pamula R (2021) CNN-LSTM kết hợp: một cách tiếp cận học sâu để phân tích thời điểm người tiêu dùng
bằng cách sử dụng nội dung định tính do người dùng tạo. Quy trình sử dụng đường sắt ít chất lượng xuyên Á 20 (5): 1–
15
Jain PK, Yekun EA, Pamula R, Srivastava G (2021) Dự đoán đề xuất của người tiêu dùng trong các bài đánh giá trực tuyến sử
dụng mô hình học máy được tối ưu hóa cuckoo. Máy tính Electr Eng 95: 107397
Janjua F, Masood A, Abbas H, Rashid I, Khan MMZM (2021) Phân tích văn bản của tập dữ liệu dựa trên phản bội thông qua học máy
bán giám sát. Futur Gener Comput Syst 125: 652–660
Jiménez-Zafra SM, Martín-Valdivia MT, Molina-González MD, Ureña-López LA (2019) Chúng ta nói về bác sĩ và thuốc như thế nào?
phân tích tình cảm trong các diễn đàn bày tỏ ý kiến cho lĩnh vực y tế. Artif Intell Med 93: 50–57
Juraska J, Walker M (2021) Sự chú ý thực sự là tất cả những gì bạn cần: giải mã hướng dẫn sự chú ý về mặt ngữ nghĩa cho dữ
liệu thành văn bản nlg. arXiv bản in trước arXiv: 210907043
Kaity M, Balakrishnan V (2020) Từ vựng cảm xúc và các ngôn ngữ không phải tiếng Anh: một cuộc khảo sát. Knowl Inf Syst
1–36
Kamal A (2013) Phân loại tính chủ quan bằng cách sử dụng các kỹ thuật máy học để khai thác các cặp quan điểm - tính năng từ
các nguồn ý kiến trên web. arXiv preprint arXiv: 13126962
Kanapala A, Pal S, Pamula R (2019) Tóm tắt văn bản từ các văn bản pháp luật: một cuộc khảo sát. Artif Intell Rev
51 (3): 371–402
Kang H, Yoo SJ, Han D (2012) Senti-lexicon và các thuật toán Naïve Bayes cải tiến để phân tích tình cảm
đánh giá về nhà hàng. Chuyên gia Syst Appl 39 (5): 6000–
6010
1 3
Kasmuri E, Basiron H (2017) Phân tích tính chủ quan trong khai thác ý kiến — một tổng quan tài liệu có hệ thống. Int J
Adv Soft Comput Appl 9 (3): 133–

159
Kaufmann M (2012) Jmaxalign: một công cụ căn chỉnh câu song song entropy tối đa. Trong: Kỷ yếu của
COLING 2012: tài liệu trình diễn, trang 277–288
Khairnar J, Kinikar M (2013) Các thuật toán học máy để khai thác ý kiến và phân loại tình cảm.
Int J Sci Res Publ 3 (6): 1–
6
Khan MT, Durrani M, Ali A, Inayat I, Khalid S, Khan KH (2016) Phân tích tình cảm và bản chất phức tạp
ngôn ngữ ral. Mô hình Syst Thích ứng Phức hợp 4 (1): 1–19
Kiritchenko S, Zhu X, Mohammad SM (2014) Phân tích cảm xúc của các văn bản ngắn không chính thức. J Artif Intell Res
50: 723–762
Kitaev N, Klein D (2018) Phân tích cú pháp thành ngữ bằng bộ mã hóa tự chú ý. arXiv bản in trước arXiv: 18050
1052
Kolchyna O, Souza TT, Treleaven P, Aste T (2015) Phân tích tình cảm trên Twitter: Phương pháp Lexicon, máy
phương pháp học tập và sự kết hợp của chúng. arXiv bản in trước arXiv: 150700955
Korkontzelos I, Nikfarjam A, Shardlow M, Sarker A, Ananiadou S, Gonzalez GH (2016). J
Thông tin Y sinh 62: 148–158
Kosamkar V, Chaudhari SS (2013) Cải tiến hệ thống phát hiện xâm nhập sử dụng c4. 5 cây quyết định và máy vector cổng sup. Luận
án Tiến sĩ, Luận án Tiến sĩ, Đại học Mumbai
Kraaijeveld O, De Smedt J (2020) Sức mạnh dự đoán của tâm lý Twitter công khai để dự báo tiền điện tử
giá tiền tệ. J Int Finan Markets Inst Money 65: 101188
Kumar A, Garg G (2020) Tổng quan tài liệu có hệ thống về phân tích tình cảm dựa trên ngữ cảnh trong đa xã hội
phương tiện truyền thông. Multimed Tools Appl 79 (21): 15349–15380
Kumar A, Teeja MS (2012) Phân tích cảm xúc: quan điểm về quá khứ, hiện tại và tương lai của nó. Int J Intell Syst
Appl 4 (10): 1
Kumar KN, Uma V (2021) Từ điển dựa trên Sentinet thông minh để phân tích cảm xúc theo ngữ cảnh: mạng thần kinh tối ưu hóa tối
ưu hóa để phân loại tình cảm trên phương tiện truyền thông xã hội. J Siêu máy tính 77: 12801–12825
Kumar S, Yadava M, Roy PP (2019) Sự kết hợp giữa phản ứng EEG và phân tích tình cảm của các sản phẩm đánh giá
dự đoán sự hài lòng của khách hàng. Inf Fusion 52: 41–52
Lakkaraju H, Socher R, Manning C (2014) Xem xét phân tích tình cảm cụ thể bằng cách sử dụng học sâu phân cấp. Trong: Hội thảo
NIPS về học sâu và học đại diện, trang 1-9
Lal YK, Kumar V, Dhar M, Shrivastava M, Koehn P (2019) Loại bỏ tình cảm khỏi văn bản trộn mã.
Trong: Kỷ yếu cuộc họp thường niên lần thứ 57 của hiệp hội ngôn ngữ học máy tính: hội thảo nghiên cứu sinh viên, trang
371–377
Lapponi E, Read J, Øvrelid L (2012) Đại diện và giải quyết phủ định trong phân tích tình cảm. Năm 2012, hội nghị quốc tế IEEE
lần thứ 12 về hội thảo khai thác dữ liệu. IEEE, trang 687–
692
Lata K, Singh P, Dutta K (2020) Đánh giá toàn diện về bộ tính năng được sử dụng cho độ phân giải ảnh tương tự. Nghệ sĩ
Intell Rev 54: 2917–
3006
Levashina J, Hartwell CJ, Morgeson FP, Campion MA (2014) Phỏng vấn việc làm có cấu trúc: tổng quan và đánh giá định lượng các
tài liệu nghiên cứu. Pers Psychol 67 (1): 241–293
Li F, Wang W, Xu J, Yi J, Wang Q (2019) Nghiên cứu so sánh về đánh giá tính dễ bị tổn thương cho mạng lưới đường ống dẫn khí
chôn lấp đô thị dựa trên phương pháp SVM và ANN. Xử lý môi trường an toàn 122: 23–
32
Li X, Bing L, Zhang W, Lam W (2019b) Khai thác BERT để phân tích tình cảm dựa trên khía cạnh đầu cuối.
arXiv preprint arXiv: 191000883
Li YM, Li TY (2013) Khai thác thông tin thị trường từ blog nhỏ. Decis Support Syst 55 (1): 206–217
Ligthart A, Catal C, Tekinerdogan B (2021) Đánh giá có hệ thống trong phân tích tình cảm: một nghiên cứu cấp ba. Nghệ sĩ
Intell Rev 54: 4997–
5053
Lin C, He Y (2009) Mô hình chủ đề / tình cảm chung để phân tích tình cảm. Trong: Kỷ yếu của ACM lần thứ 18
hội nghị về quản lý thông tin và tri thức, trang 375–384
Ling M, Chen Q, Sun Q, Jia Y (2020) Mạng thần kinh lai cho phân tích tình cảm Sina Weibo. IEEE Trans Comput Soc Syst 7 (4): 983–
990
Liu B (2012) Phân tích cảm xúc và khai thác ý kiến. Bài giảng Synth Hum Lang Technol 5 (1): 1–167
Liu B, Zhang L (2012) Một cuộc khảo sát về khai thác ý kiến và phân tích tình cảm. Trong: Aggarwal C, Zhai C (eds)
Khai thác dữ liệu văn bản. Springer, Boston, trang 415–

463
Liu B và cộng sự (2010) Phân tích cảm tính và tính chủ quan. Handb Nat Lang Process 2 (2010): 627–666
Liu P, Qiu X, Huang X (2016) Mạng nơ ron lặp lại để phân loại văn bản với học đa tác vụ.
Lu B, Ott M, Cardie C, Tsou BK (2011) Phân tích tình cảm đa khía cạnh với các mô hình chủ đề. Trong: Hội nghị quốc tế IEEE lần
thứ 11 năm 2011 về hội thảo khai thác dữ liệu. IEEE, trang 81–88
1 3
Mackey TK, Miner A, Cuomo RE (2015) Khám phá thị trường thương mại thuốc lá điện tử: xác định các đặc điểm tiếp thị thuốc
lá điện tử trên internet và các lỗ hổng quy định. Phụ thuộc vào rượu do ma túy 156: 97–
103
Majumder N, Hazarika D, Gelbukh A, Cambria E, Poria S (2018) Phân tích tình cảm đa phương thức sử dụng hier
kết hợp lưu trữ với mô hình ngữ cảnh. Syst dựa trên bí quyết 161: 124–133
Maks I, Vossen P (2012) Một mô hình từ vựng để phân tích tình cảm sâu sắc và các ứng dụng khai thác ý kiến.
688
McDuf D, El Kaliouby R, Cohn JF, Picard RW (2014) Dự đoán mức độ thích quảng cáo và ý định mua hàng: phân tích quy mô lớn
về phản ứng của khuôn mặt với quảng cáo. IEEE Trans Afect Comput 6 (3): 223–235
Medhat W, Hassan A, Korashy H (2014) Các thuật toán và ứng dụng phân tích cảm xúc: một cuộc khảo sát. Ain Shams Eng J 5
(4): 1093–1113
Mendon S, Dutta P, Behl A, Lessmann S (2021) Một cách tiếp cận kết hợp giữa học máy và từ vựng để phân tích thời điểm:
nâng cao hiểu biết từ dữ liệu twitter về thảm họa thiên nhiên. Inf Syst Front 23: 1145–1168
Meng J, Long Y, Yu Y, Zhao D, Liu S (2019) Phân tích tình cảm văn bản xuyên miền dựa trên phương pháp cnn_ft.
Thông tin 10 (5): 162
Mezquita Y, Alonso RS, Casado-Vara R, Prieto J, Corchado JM (2020) Đánh giá về thuật toán k-nn dựa trên học máy lượng tử
và cổ điển. Trong: Hội nghị chuyên đề quốc tế về máy tính phân tán và trí tuệ nghệ thuật. Springer, trang 189–198
Mikolov T, Chen K, Corrado G, Dean J (2013) Ước lượng khoa học của các biểu diễn từ trong không gian vectơ.
Miotto R, Wang F, Wang S, Jiang X, Dudley JT (2018) Học sâu về chăm sóc sức khỏe: đánh giá, cơ hội
và những thách thức. Tóm tắt Bioinform 19 (6): 1236–1246
Mite-Baidal K, Delgado-Vera C, Solís-Avilés E, Espinoza AH, Ortiz-Zambrano J, Varela-Tapia E (2018)
Phân tích tình cảm trong lĩnh vực giáo dục: một tổng quan tài liệu có hệ thống. Trong: Hội nghị quốc tế về công
nghệ và đổi mới. Springer, trang 285–
297
Mohammad SM (2017) Những thách thức trong phân tích tình cảm. Trong: Hướng dẫn thực hành để phân tích tình cảm.
Springer, trang 61–
83
Moraes R, Valiati JF, Neto WPG (2013) Phân loại tình cảm cấp tài liệu
giữa SVM và ANN. Chuyên gia Syst Appl 40 (2): 621–
633
Moraes R, Valiati JF, Neto WPG (2013) Phân loại tình cảm cấp tài liệu
giữa SVM và ANN. Chuyên gia Syst Appl 40 (2): 621–
633
Moreo A, Romero M, Castro J, Zurita JM (2012) Tình cảm tin tức theo định hướng bình luận dựa trên Lexicon ana
hệ thống lyzer. Chuyên gia Syst Appl 39 (10): 9166–

9180
Mowlaei ME, Abadeh MS, Keshavarz H (2020) Phân tích tình cảm dựa trên khía cạnh sử dụng từ vựng dựa trên khía cạnh thích
ứng. Chuyên gia Syst Appl 148: 113234
Mukherjee A, Venkataraman V, Liu B, Glance N (2013) Người đánh giá giả mạo có thể đang làm gì? Trong: Kỷ yếu hội nghị AAAI
quốc tế về web và mạng xã hội, tập 7
Naseem U, Razzak I, Musial K, Imran M (2020) Tính năng nhúng theo ngữ cảnh thông minh sâu dựa trên Transformer
để phân tích tình cảm trên twitter. Futur Gener Comput Syst 113: 58–69
Ortigosa-Hernández J, Rodríguez JD, Alzate L, Lucania M, Inza I, Lozano JA (2012) Tiếp cận phân tích người gửi bằng cách
sử dụng phương pháp học bán giám sát đối với các phân loại đa chiều. Máy tính thần kinh
92: 98–115
Oueslati O, Cambria E, HajHmida MB, Ounelli H (2020) Đánh giá về nghiên cứu phân tích tình cảm bằng tiếng Ả Rập
ngôn ngữ. Futur Gener Comput Syst 112: 408–430
Paré DJ (2003) Trang web này có phân phối không? Dịch vụ thương mại điện tử B2B cho các nước đang phát triển. Inf Soc
19 (2): 123–
134
Park HW, Park S, Chong M (2020) Cuộc trò chuyện và khung tin tức y tế trên twitter: infodemiological
nghiên cứu về covid-19 ở Hàn Quốc. J Med Internet Res 22 (5): e18897
Park S, Kim Y (2016) Xây dựng từ điển từ điển bằng cách tiếp cận dựa trên từ điển cho phân loại tình cảm. Trong: Hội nghị
quốc tế IEEE lần thứ 14 năm 2016 về nghiên cứu, quản lý và ứng dụng kỹ thuật phần mềm (SERA), trang 39–
44, https://
doi.org/10.1109/SERA.2016.7516126
Parvin SA, Sumathi M, Mohan C (2021) Những thách thức của phân tích tình cảm-một cuộc khảo sát. Vào: 2021 Hội nghị quốc
tế lần thứ 5 về xu hướng trong lĩnh vực điện tử và tin học (ICOEI). IEEE, trang 781–
786
Patel HH, Prajapati P (2018) Nghiên cứu và phân tích các thuật toán phân loại dựa trên cây quyết định. Int J Com
đặt Sci Eng 6 (10): 74–
78
Patil N, Lathi R, Chitre V (2012) Phân loại thẻ khách hàng dựa trên c5. 0 & các thuật toán giỏ hàng. Int J Eng
Res Appl 2 (4): 164–
167
Peng M, Zhang Q, Jiang Yg, Huang XJ (2018) Phân loại tình cảm giữa nhiều miền với thông tin cụ thể về miền đích. Trong:
Kỷ yếu cuộc họp thường niên lần thứ 56 của hiệp hội ngôn ngữ học máy tính (Tập 1: Bài báo dài), trang 2505–2513
1 3
Peng Y, Yan S, Lu Z (2019) Chuyển giao việc học trong xử lý ngôn ngữ tự nhiên y sinh: đánh giá của BERT và ELMo trên mười bộ dữ
liệu điểm chuẩn. arXiv bản in trước arXiv: 190605474
Pennington J, Socher R, Manning CD (2014) Găng tay: vectơ toàn cầu để biểu diễn từ. Trong: Tiếp theo hội nghị năm 2014 về các
phương pháp thực nghiệm trong xử lý ngôn ngữ tự nhiên (EMNLP), pp

1532–1543
Pham TH, Le-Hong P (2017) Mô hình mạng nơron hồi quy end-to-end cho tiếng Việt có tên entity rec ognition: word-level so với
character-level. Trong: Hội nghị quốc tế của Hiệp hội ngôn ngữ học tính toán Pacifc. Springer, trang 219–232
Piryani R, Madhavi D, Singh VK (2017) Lập bản đồ phân tích của nghiên cứu khai thác ý kiến và phân tích tình cảm trong giai
đoạn 2000–
2015. Inf Process Manag 53 (1): 122–150
Plank B, Søgaard A, Goldberg Y (2016) Gắn thẻ phần nói nhiều ngôn ngữ với mô hình bộ nhớ ngắn hạn hai chiều và mất phụ trợ.
Poria S, Cambria E, Winterstein G, Huang GB (2014) Các mẫu câu: các quy tắc dựa trên sự phụ thuộc cho khái niệm
phân tích mức độ tình cảm. Syst dựa trên bí quyết 69: 45–63
Poria S, Chaturvedi I, Cambria E, Hussain A (2016) Phân tích nhận thức và cảm xúc đa phương thức dựa trên MKL dựa trên cảm xúc
đa phương thức. Trong: Hội nghị quốc tế lần thứ 16 IEEE về khai thác dữ liệu (ICDM).
IEEE, trang 439–448
Poria S, Cambria E, Hazarika D, Mazumder N, Zadeh A, Morency LP (2017) Nhiều cấp độ suy giảm để phân tích tình cảm đa phương
thức theo ngữ cảnh. Trong: Hội nghị quốc tế IEEE 2017 về khai thác dữ liệu (ICDM). IEEE, trang 1033–1038
Poria S, Hussain A, Cambria E (2018a) Kết hợp các manh mối văn bản với thông tin nghe nhìn để phân tích tình cảm đa phương
thức. Trong: Phân tích tình cảm đa phương thức. Springer, trang 153–178
Poria S, Majumder N, Hazarika D, Cambria E, Gelbukh A, Hussain A (2018) Sis phân tích tình cảm đa phương thức: giải quyết các
vấn đề chính và thiết lập đường cơ sở. IEEE Intell Syst 33 (6): 17–
25
Poria S, Hazarika D, Majumder N, Mihalcea R (2020) Dưới đỉnh của tảng băng: Những thách thức hiện tại và hướng đi mới trong
nghiên cứu phân tích tình cảm. IEEE Trans Afect Comput
Pravalika A, Oza V, Meghana N, Kamath SS (2017) Phương pháp phân tích tình cảm theo tên miền đối với dữ liệu mạng xã hội hỗn
hợp mã. Trong: Hội nghị quốc tế lần thứ 8 năm 2017 về công nghệ máy tính, truyền thông và mạng (ICCCNT). IEEE, trang 1–6
Qiu G, He X, Zhang F, Shi Y, Bu J, Chen C (2010) DASA: quảng cáo hướng đến sự không hài lòng dựa trên
phân tích tình cảm. Chuyên gia Syst Appl 37 (9): 6182–6191
Quinlan JR (2014) C4. 5: chương trình học máy. Elsevier, Amsterdam
Rana TA, Cheah YN (2016) Khai thác khía cạnh trong phân tích tình cảm: phân tích so sánh và khảo sát. Artif Intell Rev 46 (4):
459–483
Rao D, Ravichandran D (2009) Cảm ứng từ vựng phân cực bán giám sát. Trong: Kỷ yếu 12 con giáp
Sự khác biệt của chương Châu Âu của ACL (EACL 2009), trang 675–682
Rao G, Huang W, Feng Z, Cong Q (2018) LSTM với các biểu diễn câu cho phân loại senti ment cấp tài liệu. Máy tính thần kinh
308: 49–
57
Ravi K, Ravi V (2015) Một cuộc khảo sát về khai thác ý kiến và phân tích tình cảm: nhiệm vụ, cách tiếp cận và ứng dụng
hàng tấn. Syst dựa trên hiểu biết 89: 14–

46
Razon A, Barnden J (2015) Một cách tiếp cận mới để phân loại khả năng đọc văn bản tự động dựa trên lập chỉ mục khái niệm với
các tính năng n-gram part-of-speech tích hợp. Trong: Kỷ yếu quốc tế trao tặng những tiến bộ gần đây trong xử lý ngôn ngữ
tự nhiên, trang 521–528
Remus R (2013) Lập mô hình và biểu diễn sự phủ định trong cảm tính dựa trên công nghệ máy học dựa trên dữ liệu. Trong: ESSEM @
AI * IA, trang 22–33
Revathy R, Lawrance R (2017) Phân tích so sánh c4. 5 và c5. 0 thuật toán về dữ liệu dịch hại cây trồng. Int J
Tính toán độ phân giải sáng tạo Commun Eng 5 (1): 50–58
Ritter A, Etzioni O, Clark S (2012) Trích xuất sự kiện miền mở từ twitter. Trong: Kỷ yếu hội nghị quốc tế ACM SIGKDD lần thứ 18
về Khám phá tri thức và khai thác dữ liệu, trang 1104–

1112
Rizos G, Hemker K, Schuller B (2019) Bổ sung để ngăn chặn: tăng dữ liệu văn bản ngắn trong học sâu để phân loại ngôn từ kích
động thù địch. Trong: Kỷ yếu hội nghị quốc tế ACM lần thứ 28 về quản lý thông tin và tri thức, trang 991–1000
Rognone L, Hyde S, Zhang SS (2020) Tin tức về thị trường tiền điện tử: một con số so sánh thực nghiệm với forex. Int Rev
Financial Anal 69: 101462
Rufer N, Knitza J, Krusche M (2020) # Covid4Rheum: một nghiên cứu twitter phân tích trong thời gian
Đại dịch covid-19. Rheumatol Int 40 (12): 2031–

2037
Rui H, Liu Y, Whinston A (2013) Ai và chuyện gì quan trọng? Sự hoàn hảo của các tweet về doanh số bán phim.

870
Salah Z, Al-Ghuwairi ARF, Baarah A, Aloqaily A, Qadoumi B, Alhayek M, Alhijawi B (2019) Một bài đánh giá có hệ thống về khai
thác ý kiến và phân tích tình cảm trên mạng xã hội. Int J Bus Inf Syst 31 (4): 530–554
1 3
Sánchez-Rada JF, Iglesias CA (2019) Bối cảnh xã hội trong phân tích tình cảm: sự xác nhận chính thức, tổng quan về
xu hướng hiện tại và khuôn khổ để so sánh. Inf Fusion 52: 344–
356
Sann R, Lai PC (2020) Hiểu rõ về sự thất bại của dịch vụ trong chu kỳ khách của khách sạn: áp dụng phân tích tình cảm dựa
trên khía cạnh NLP cho ngành khách sạn. Int J Hosp Manag 91: 102678
Saunders D (2021) Thích ứng miền để dịch máy thần kinh. Luận án Tiến sĩ, Đại học Cambridge
Schouten K, Frasincar F (2015) Khảo sát về phân tích tình cảm ở cấp độ khía cạnh. IEEE Trans Knowl Data Eng
28 (3): 813–830
Sharma A, Lyons J, Dehzangi A, Paliwal KK (2013) Một kỹ thuật chiết xuất tính năng sử dụng bi-gram probabili
mối quan hệ của ma trận tính điểm xác định vị trí để nhận dạng nếp gấp protein. J Theor Biol 320: 41–
46
Shayaa S, Jaafar NI, Bahri S, Sulaiman A, Wai PS, Chung YW, Piprani AZ, Al-Garadi MA (2018) Senti đề cập đến phân tích dữ
liệu lớn: phương pháp, ứng dụng và thách thức mở. IEEE Truy cập 6: 37807–37827
Singh JP, Irani S, Rana NP, Dwivedi YK, Saumya S, Roy PK (2017) Dự đoán "sự hữu ích" của trực tuyến
đánh giá của người tiêu dùng. J Xe buýt Res 70: 346–
355
Singh K, Sen I, Kumaraguru P (2018) Một kho tài liệu twitter để gắn thẻ POS hỗn hợp mã tiếng Anh-Hin-ddi. Trong: Kỷ yếu
hội thảo quốc tế lần thứ sáu về xử lý ngôn ngữ tự nhiên trên mạng xã hội, trang 12–
17
Singh M, Jakhar AK, Pandey S (2021) Phân tích tình cảm về tác động của coronavirus trong đời sống xã hội bằng cách sử dụng
mô hình BERT. Soc Netw Anal Min 11 (1): 1–
11
Singh RK, Sachan MK, Patel R (2021) Chế độ xem 360 độ về phân loại ý kiến đa miền: một cuộc khảo sát.
Artif Intell Rev 54 (2): 1385–1506
Singh S, Gupta P (2014) Nghiên cứu so sánh id3, giỏ hàng và c4. 5 thuật toán cây quyết định: một cuộc khảo sát. Int J Adv
Inf Sci Technol 27 (27): 97–103
Socher R, Perelygin A, Wu J, Chuang J, Manning CD, Ng AY, Potts C (2013) Mô hình sâu đệ quy cho cấu trúc ngữ nghĩa trên
một ngân hàng tình cảm. Trong: Kỷ yếu hội nghị năm 2013 về các phương pháp thực nghiệm trong xử lý ngôn ngữ tự
nhiên, trang 1631–1642
Soleymani M, Garcia D, Jou B, Schuller B, Chang SF, Pantic M (2017) Một cuộc khảo sát về phân tích người gửi đa phương
thức. Hình ảnh Vis Comput 65: 3–
14
Stappen L, Schuller B, Lefter I, Cambria E, Kompatsiaris I (2020) Tóm tắt về MuSe 2020: phân tích tình cảm đa phương thức,
tương tác mục tiêu cảm xúc và phát hiện độ tin cậy trong các phương tiện truyền thông đời thực.
Trong: Kỷ yếu hội nghị quốc tế ACM lần thứ 28 về đa phương tiện, trang 4769–
4770
Straka M, Hajic J, Straková J (2016) UDP Công thức: đường ống có thể đào tạo để xử lý CoNLL-U thực hiện mã hóa ing, phân
tích hình thái, gắn thẻ vị trí và phân tích cú pháp. Trong: Kỷ yếu hội nghị quốc tế lần thứ mười về nguồn ngôn ngữ
và đánh giá (LREC'16), trang 4290–4297
Subhashini L, Li Y, Zhang J, Atukorale AS, Wu Y (2021) Khai thác và phân loại đánh giá của khách hàng: một cuộc khảo sát.
Artif Intell Rev 54: 6343–6389
Sun C, Huang L, Qiu X (2019) Sử dụng BERT để phân tích tình cảm dựa trên khía cạnh thông qua xây dựng aux
câu iliary. arXiv bản in trước arXiv: 190309588
Taboada M, Brooke J, Tofloski M, Voll K, Stede M (2011) Các phương pháp dựa trên Lexicon để phân tích tình cảm sis. Nhà
ngôn ngữ học máy tính 37 (2): 267–
307
Thet TT, Na JC, Khoo CS (2010) Phân tích tình cảm dựa trên khía cạnh của các bài phê bình phim trên thảo luận
bảng. J Inf Sci 36 (6): 823–
848
Tian Y, Galery T, Dulcinati G, Molimpakis E, Sun C (2017) Tình cảm trên Facebook: phản ứng và biểu tượng cảm xúc. Trong:
Kỷ yếu hội thảo quốc tế lần thứ F về xử lý ngôn ngữ tự nhiên trên mạng xã hội, trang 11–
16
Tran T, Ba H, Huynh VN (2019) Đo lường tình cảm đánh giá khách sạn: phương pháp tiếp cận phân tích tình cảm dựa trên khía
cạnh của người tiêu dùng. Trong: Hội nghị chuyên đề quốc tế về sự không chắc chắn tích hợp trong mô hình kiến thức
và ra quyết định. Springer, trang 393–
405
Tripathy A, Agrawal A, Rath SK (2015) Phân loại các đánh giá tình cảm bằng cách sử dụng các kỹ thuật học máy. Thủ tục khoa
học tính toán 57: 821–
829
Tubishat M, Idris N, Abushariah MA (2018) Trích xuất khía cạnh ngầm trong phân tích tình cảm: đánh giá, phân loại, cơ hội
và thách thức mở. Inf Process Manag 54 (4): 545–
563
Turney PD, Littman ML (2003) Đo lường khen ngợi và phê bình: suy luận về định hướng ngữ nghĩa từ
sự kết hợp. ACM Trans Inf Syst 21 (4): 315–
346
Uysal AK, Murphey YL (2017) Phân loại tình cảm: phương pháp tiếp cận dựa trên lựa chọn tính năng so với học sâu. Trong:
Hội nghị quốc tế IEEE 2017 về máy tính và công nghệ thông tin (CIT).
IEEE, trang 23–30
Valdivia A, Luzíón MV, Herrera F (2017) Tính trung lập trong bài toán phân tích tình cảm dựa trên số đông mờ nhạt. Trong:
Hội nghị quốc tế IEEE 2017 về hệ thống mờ (FUZZ-IEEE). IEEE, trang 1–6
Valdivia A, Luzón MV, Cambria E, Herrera F (2018) Các mô hình bỏ phiếu đồng thuận để phát hiện và tán tỉnh
tính trung lập trong phân tích tình cảm. Inf Fusion 44: 126–
135
1 3
Valencia F, Gómez-Espinosa A, Valdés-Aguirre B (2019) Dự đoán biến động giá của các loại tiền điện tử sử dụng phân tích tâm lý
và máy học. Entropy 21 (6): 589
Van de Camp M, Van den Bosch A (2012) Mạng xã hội chủ nghĩa. Decis Support Syst 53 (4): 761–769
Varelas G, Voutsakis E, Raftopoulou P, Petrakis EG, Milios EE (2005) Các phương pháp tương đồng ngữ nghĩa trong wordnet và ứng
dụng của chúng để truy xuất thông tin trên web. Trong: Kỷ yếu hội thảo quốc tế ACM thường niên lần thứ 7 về quản lý dữ
liệu và thông tin Web, trang 10–

16
Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, Kaiser L, Polosukhin I (2017)
Chú ý là tất cả những gì bạn cần. arXiv bản in trước arXiv: 170603762
Vateekul P, Koomsubha T (2016) Một nghiên cứu về phân tích tình cảm bằng cách sử dụng các kỹ thuật học sâu trên dữ liệu twitter
của Thái Lan. Trong: Hội nghị chung quốc tế lần thứ 13 năm 2016 về khoa học máy tính và công nghệ phần mềm (JCSSE).
IEEE, trang 1–
6
Vechtomova O (2017) Phân biệt cực phụ thuộc ngữ cảnh của từ: một cách tiếp cận truy xuất thông tin. Inf Process Manag 53 (5):
1062–1079
Venugopalan M, Gupta D (2015) Khám phá phân tích tình cảm trên dữ liệu twitter. Trong: Hội nghị quốc tế lần thứ tám năm 2015
về máy tính đương đại (IC3). IEEE, trang 241–

247
Vijay D, Bohra A, Singh V, Akhtar SS, Shrivastava M (2018) Dự đoán cảm xúc và tạo tập đoàn cho văn bản mạng xã hội hỗn hợp mã
tiếng Hindi-tiếng Anh. Trong: Kỷ yếu hội nghị năm 2018 của chương Bắc Mỹ của Hiệp hội Ngôn ngữ Tính toán: cửa hàng công
việc nghiên cứu sinh viên, trang 128–

135
Wadawadagi R, Pagi V (2020) Phân tích cảm xúc với mạng nơron sâu: nghiên cứu so sánh và
đánh giá hiệu suất. Artif Intell Rev 53: 6155–6195
Wang G, Sun J, Ma J, Xu K, Gu J (2014) Phân loại tình cảm: đóng góp của việc học theo nhóm.
Decis Support Syst 57: 77–

93
Wang Z, Ho SB, Cambria E (2020) Cảm nhận tình cảm đa cấp theo tỷ lệ fne với môi trường xung quanh han
dling. Int J Hệ thống biết dựa trên Fuzziness không chắc chắn 28 (04): 683–697
Wankhade M, Annavarapu CSR, Verma MK (2021) CBVoSD: vectơ dựa trên ngữ cảnh qua mô hình tổng hợp miền tình cảm để phân loại
đánh giá. J Siêu máy tính 1–

37
Weerasooriya T, Perera N, Liyanage S (2016) Một phương pháp để trích xuất các từ khóa cần thiết từ một tweet bằng cách sử dụng
các công cụ NLP. Trong: Hội nghị quốc tế lần thứ 16 năm 2016 về những tiến bộ trong CNTT-TT cho các khu vực mới nổi
(ICTer). IEEE, trang 29–

34
Wilson T, Wiebe J, Hofmann P (2009) Nhận biết phân cực theo ngữ cảnh: khám phá các tính năng để phân tích tình cảm cấp độ cụm
từ. Nhà ngôn ngữ học máy tính 35 (3): 399–433
Wu D, Chi M (2017) Bộ nhớ ngắn hạn dài với các kết nối bậc hai trong mạng nơron đệ quy cho
đại diện cho ngữ nghĩa thành phần. IEEE Truy cập 5: 16077–16083
Wu P, Li X, Shen S, He D (2020) Tóm tắt ý kiến trên mạng xã hội sử dụng nhận thức cảm xúc và cuộc trò chuyện
mạng nơron hiến pháp. Int J Inf Manag 51: 101978
Xia H, Yang Y, Pan X, Zhang Z, An W (2020) Phân tích tình cảm cho các bài đánh giá trực tuyến bằng cách sử dụng các trường dom
chạy có điều kiện và máy vectơ hỗ trợ. Điện tử Commer Res 20 (2): 343–360
Xia Y, Cambria E, Hussain A, Zhao H (2015) Phân định cực tính của từ sử dụng mô hình Bayes và
các tính năng cấp ý kiến. Cognit Comput 7 (3): 369–

380
Xing FZ, Cambria E, Welsch RE (2018) Dự báo tài chính dựa trên ngôn ngữ tự nhiên: một cuộc khảo sát. Artif Intell
Rev 50 (1): 49–
73
Yadav A, Vishwakarma DK (2020) Phân tích cảm xúc bằng cách sử dụng kiến trúc học sâu: đánh giá. Artif Intell Rev 53 (6): 4335–
4385
Yan-Yan Z, Bing Q, Ting L (2010) Tích hợp bằng chứng nội bộ và liên tài liệu để cải thiện phân loại tình cảm câu. Acta Autom
Sinica 36 (10): 1417–
1425
Yang B, Cardie C (2014) Học nhận thức ngữ cảnh để phân tích tình cảm ở cấp độ câu với larization hậu môn. Trong: Kỷ yếu cuộc
họp thường niên lần thứ 52 của hiệp hội ngôn ngữ học máy tính (Tập 1: Bài báo dài), trang 325–335
Yaseen Q và cộng sự (2021) Phát hiện thư rác bằng cách sử dụng các kỹ thuật học sâu. Thủ tục tính toán khoa học
184: 853–858
Yousif A, Niu Z, Tarus JK, Ahmad A (2019) Một cuộc khảo sát về phân tích tình cảm của các trích dẫn khoa học. Artif Intell Rev
52 (3): 1805–1838
Yuan Z, Wu S, Wu F, Liu J, Huang Y (2018) Mô hình chú ý miền cho phân loại tình cảm đa miền
sự. Syst dựa trên bí quyết 155: 1–

10
Yue L, Chen W, Li X, Zuo W, Yin M (2019) Một cuộc khảo sát về phân tích tình cảm trên mạng xã hội. Knowl Inf Syst
60 (2): 617–663
Zhang Z, Wang L, Zou Y, Gan C (2018) Các mạng bộ nhớ động được thiết kế tối ưu cho mục tiêu
phân loại tình cảm. Máy tính thần kinh 309: 36–45
1 3
Zhao W, Guan Z, Chen L, He X, Cai D, Wang B, Wang Q (2017) Nhúng sâu được giám sát yếu để phân tích tình cảm đánh giá sản phẩm.
IEEE Trans Knowl Data Eng 30 (1): 185–

197
Zhao Y, Xu X, Wang M (2019) Dự đoán mức độ hài lòng tổng thể của khách hàng: Bằng chứng dữ liệu lớn từ các đánh giá văn bản
trực tuyến của khách sạn. Int J Hosp Manag 76: 111–
121
Zhu X, Goldberg AB (2009) Giới thiệu về học bán giám sát. Synth Lect Artif Intell Mach Learn
3 (1): 1–130
Zuo E, Zhao H, Chen B, Chen Q (2020) Mạng phức hợp đồ thị không đồng nhất theo ngữ cảnh cụ thể cho
phân tích tình cảm ngầm. IEEE Truy cập 8: 37967–

37975
Zvarevashe K, Olugbara OO (2018) Một khung phân tích tình cảm với khai thác ý kiến về các đánh giá khách sạn. Trong: Hội nghị
năm 2018 về công nghệ thông tin và xã hội (ICTAS).
IEEE, trang 1–4
Ghi chú của nhà xuất bản Springer Nature vẫn giữ thái độ trung lập đối với các tuyên bố về quyền tài phán trong các bản đồ đã
xuất bản và thông tin cơ quan.
1 3

Một cuộc khảo sát về các phương pháp phân tích tình cảm, ứng dụng và thách thức

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Một cuộc khảo sát về các phương pháp phân tích tình cảm, ứng dụng và thách thức

Uploaded by

Copyright:

Available Formats

Machine Translated by Google

Đánh giá trí tuệ nghệ thuật (2022) 55: 5731–

Mayur Wankhade1,2 · Annavarapu Chandra Sekhara Rao1,2 · Chaitanya Kulkarni1,2

Xuất bản trực tuyến: ngày 7 tháng 2 năm 2022

* Annavarapu Chandra Sekhara Rao

5732 M. Wankhade và cộng sự.

tích mạng xã hội (Hangya và Farkas 2017).

tình cảm phát triển cho đến thiên niên kỷ mới.

hiện trong Bảng 1.

công nghệ nổi tiếng để thực hiện công việc này.

cho một ứng dụng nhất định.

nghiên cứu xu hướng thuê.

5734 M. Wankhade và cộng sự.

Hình 1 Phân tích tình cảm

2 cấp độ phân tích tình cảm

2.1 Phân tích tình cảm ở cấp độ tài liệu

2.2 Phân tích tình cảm ở cấp độ câu

www.tripadvisor.com Dựa trên Corpus

Dựa trên từ điển Phát hiện Spam Ý kiến

Tin tức chứng khoán

Nhận xét Khảo sát trực tuyến

Hình 2 Quy trình chung của phân tích tình cảm

2.3 Phân tích tình cảm cấp độ cụm từ

2.4 Phân tích tình cảm ở cấp độ khía cạnh

5736 M. Wankhade và cộng sự.

Bảng 1 Các mô tả khác nhau về chữ viết tắt

Viết tắt Mô tả chữ viết tắt

NLP Xử lý ngôn ngữ tự nhiên

LR Hồi quy logistic

LSTM Bộ nhớ ngắn hạn dài

RNTN Mạng Tensor thần kinh đệ quy

RNN Mạng thần kinh tái diễn

ANN Mạng thần kinh nghệ thuật

RNTN Mạng Tensor thần kinh đệ quy

AI Trí tuệ nghệ thuật

TÔI Entropy tối đa

PoS Các phần của bài phát biểu

NLTK Bộ công cụ Ngôn ngữ Tự nhiên

DCNN Mạng thần kinh chuyển đổi động

SLC Phân loại cấp độ câu

AR-NN Mạng thần kinh tự động hồi quy

3 Thu thập dữ liệu và lựa chọn tính năng

3.1 Bộ sưu tập dữ liệu

v.v. Một số nguồn thu thập dữ liệu cần thiết là:

truy cập và giao dịch nội dung do người dùng tạo.

3.2 Lựa chọn tính năng

5738 M. Wankhade và cộng sự.

3.3 Trích xuất tính năng

biến nhất sử dụng Stanford PoS-tagger (Weerasooriya et al. 2016).

động tốt hơn trong hầu hết các trường hợp.

từ vựng được xác định trước.

hơn, mô hình SG hoạt động tốt hơn.

5740 M. Wankhade và cộng sự.

3.4 Cách tiếp cận lựa chọn tính năng

Varelas và cộng sự.

hình học sâu để phân tích cảm xúc.

flter, embedding, wrapper và hybrid.

bộ dữ liệu có số lượng thuộc tính cao.

các thuật toán cơ bản tốt hơn.

Hình 3 Nhiệm vụ của phân tích tình cảm

3.5 Nhiệm vụ của phân tích tình cảm

5742 M. Wankhade và cộng sự.

Hình 4 Cách tiếp cận phân tích tình cảm