Download as pptx, pdf, or txt
Download as pptx, pdf, or txt
You are on page 1of 33

TÌM HIỂU VỀ

ROBOTS.TXT
TRANG 404
SITEMAP.XML
Nhóm 2
IE204.O21
GVHD: Võ Ngọc Tân
THÀNH VIÊN NHÓM 2

1.Hà Đinh Kiên - 21522244


2.Nguyễn Long Trường - 21520506
3. Bùi Đức Hà - 21520797
4. Nguyễn Hồng Phúc - 21521291
5. Dương Công Hiếu - 21522068
6. Danh Hoàng Khải - 21522181
7.Trịnh Gia Bảo - 21521866
ROBOTS.TXT
1. robots.txt là gì?
• Robots.txt là tập tin văn bản đơn giản với đuôi mở rộng
là .txt.
• Cho phép bot của công cụ tìm kiếm được truy cập dữ liệu
nào và không truy cập dữ liệu nào
• Chứa các tiêu chuẩn web được quản trị viên lập ra để
hướng dẫn cho các công cụ tìm kiếm thu thập thông tin trên
trang để lập chỉ mục.
2. Cú pháp file robots.txt
ĐỊNH DẠNG CƠ BẢN:

• User - agent
• Disallow
• Allow
• Crawl-delay
• Sitemap
3. File robots.txt hoạt động như thế nào?
Các công cụ tìm kiếm có 2 nhiệm
vụ chính:
1. Crawl (cào/ phân tích) dữ
liệu trên trang web để khám
phá nội dung
2. Index nội dung đó để đáp
ứng yêu cầu cho các tìm
kiếm của người dùng
4. Công dụng của robots.txt

• Chặn công cụ tìm kiếm khi


website chưa hoàn thiện
• Chặn trang tìm kiếm với các kết
quả xấu
• Chặn các công cụ thu thập liên
kết website
5. Hạn chế của tệp robots.txt
• Không phải tất cả các trình
duyệt tìm kiếm đều hỗ trợ các
lệnh trong tệp robots.txt
• Mỗi trình dữ liệu có cú pháp
phân tích dữ liệu riêng
• Google vẫn có thể index các
trang bị tệp robots.txt chặn
6. Kiểm tra website có file robots.txt
Nhập Root Domain -> chèn
/robots.txt vào cuối -> Nhấn
Enter.
VD: gtvseo.com/robots.txt
7. Một số lưu ý khi sử dụng tệp robots.txt

• Phân biệt chữ hoa và chữ thường


• Không được viết thừa hoặc thiếu khoảng trắng
• Mỗi lệnh viết trên một dòng. Muốn viết lệnh mới nên xuống
dòng sau đó viết tiếp
• Không tự ý thêm các ký tự đặc biệt dễ gây nhầm lẫn
• Kiểm tra thường xuyên file robots.txt
• Không sử dụng robots.txt để ngăn dữ liệu nhạy cảm
SITEMAP.XML
SITEMAP.XML LÀ GÌ
• Sitemap xml - bản đồ của một
website

• Tập hợp các tập tin bao trọn


các dạng URL của website
đó.

• Chỉ đường cho bot của các • Chứa các đường link liên kết có nhiệm vụ trích
công cụ tìm kiếm dễ dàng để dẫn đến trang website chính
truy cập và tìm thấy các URL
có trên website.
SITEMAP.XML LÀ GÌ

Có 2 loại:
• XML sitemap:
Giúp bot công cụ tìm kiếm crawl website
dễ dàng hơn
• HTML sitemap:
Người dùng tìm kiếm, truy cập vào tài
nguyên trên web
Cải thiện thứ hạng trang web
SITEMAP.XML LÀ GÌ

XML Sitemap của gtvseo.com


SITEMAP.XML LÀ GÌ

HTML Sitemap của Apple


CÔNG DỤNG
• Sitemap.xml có thể mang về cho bạn bộ siêu dữ liệu, các liên kết của chúng luôn cho
phép giá trị kết nối với các website trong Sitemap.xml.

• Cung cấp cho bạn những thông tin quan trọng

• Rút ngắn thời gian index của Google

• Giúp tìm ra các lỗi trên site

• Cập nhật dữ liệu website trên google


CHỨC NĂNG SITEMAP.XML

• Định hướng máy tìm kiếm đến trang web, cải


thiện đánh giá trang web và tăng cường thứ hạng
trang web

• Xác định những trang quan trọng trong các bản đồ


website

• Đăng tải lại toàn bộ những nội dung, hay các thay
đổi khi bạn điều chỉnh trang web
CÁCH KHỞI TẠO XML SITEMAP VỚI
YOAST SEO

Bạn tải về phần mềm chuẩn


SEO Yoast, sau đó thực hiện các
bước cài đặt cũng như kích hoạt
để chúng hoạt động.
CÁCH KHỞI TẠO XML SITEMAP VỚI
YOAST SEO
Bạn vào giao diện, ngay thanh công
cụ thẳng phía bên tay trái màn hình
của trang chủ SEO Yoast. Bạn di
chuyển chuột đến mục SEO sau đó
nhấp vào Feature để bật Advance
hoạt động.
CÁCH KHỞI TẠO XML SITEMAP VỚI
YOAST SEO
Bạn thực hiện các thao tác quản lý trang, như Max Entries/Sitemap, làm sạch
Pages/Posts ra khỏi Sitemap… Sau đó bạn bấm vào See the XML sitemap xem sitemap
đã hoạt động hay chưa.
CÁCH KHỞI TẠO XML SITEMAP VỚI
YOAST SEO
Khi bạn thao tác xong 3 bước được hướng dẫn ở trên, thì có thể nói bạn đã tạo ra một
Sitemap.xml cho website của mình bằng SEO Yoast.
TRANG
404
1. Lỗi 404 là gì?
Là một mã phản hồi chuẩn của HTTP phản hồi đến người dùng để người dùng biết rằng máy
chủ của trình duyệt web (Browser) không thể tìm thấy thông tin hoặc trang web mà người
dùng yêu cầu

Lỗi này khiến cho website bị Google đánh giá thấp và làm giảm thứ hạng trên bảng kết
quả tìm kiếm của Google.
2. Các loại lỗi 404
• 404 Error.
• Error 404.
• 404 Not Found.
• Error 404 Not Found.
• The requested URL [URL] was not found on this server (Yêu cầu tìm kiếm URL không
thể tìm thấy trên máy chủ).
• HTTP 404 (lỗi giao thức kết nối).
• 404 File or Directory Not Found (không thể tìm thấy tệp hoặc danh mục muốn truy vấn).
• HTTP 404 Not Found (không thể tìm thấy giao thức kết nối).
• 404 Page Not Found (không thể tìm thấy trang).
3. Nguyên nhân

• ULR bị thay đổi


• Sai sót khi bật mod_rewrite
• Website đang bị lỗi code
4. Hậu quả
• Gây ảnh hưởng đến trải nghiệm người truy cập web, gia tăng tỷ lệ thoát trang và giảm
traffic.
• Gây ra các thiệt hại kinh tế lớn nếu website của bạn dùng để bán hàng hay quảng cáo
dịch vụ.
• Đặc biệt là ảnh hưởng tới kết quả SEO trang web của bạn.
4. Hậu quả
• Đặc biệt là ảnh hưởng tới kết quả SEO trang web của bạn.

⚬ Việc website mắc nhiều lỗi 404 có thể gây khó khăn cho việc tiếp tục crawl những
các link khác.
⚬ Lỗi 404 not found khiến website của bạn bị Google đánh giá thấp đồng thời thứ hạng
website trên công cụ tìm kiếm bị tụt giảm.
⚬ Nếu người dùng gặp tình trạng nhiều trang trên một website bị lỗi đó là một trải
nghiệm tồi với họ. Khi đó tỉ lệ Bounce Rate cao, time on site thấp và tương tác với
người dùng thấp làm tụt giảm traffic và ranking trên SERPs
5. Công cụ kiểm tra lỗi 404
• Webmaster Tools
5. Công cụ kiểm tra lỗi 404

• XENU LINK SLEUTH


5. Công cụ kiểm tra lỗi 404

• SCREAMING FROG SPIDER SEO


5. Công cụ kiểm tra lỗi 404

• LINK CHECKER
6. Cách khắc phục
• Tạo một trang riêng thông báo lỗi 404
• Xóa trang 404
• Dùng lệnh chuyển hướng
• Kiểm tra tệp tin
• Kiểm tra quyền truy cập
• Ghi nhật ký lỗi
nhóm 2

T h a n k
yo u!

You might also like