Duplicate content là gì? Các lưu ý để tránh

Duplicate content

Duplicate content là gì

Duplicate content là việc cùng một nội dung tương tự nhau xuất hiện tại nhiều nơi trên internet. Cũng có thể hiểu cơ bản là các nội dung giống nhau đến từng chữ một, hay giống dàn bài, hay phần lớn nội dung được xuất hiện lặp đi lặp lại ở nhiều địa chỉ URL khác nhau làm cho công cụ khó quyết định kết quả phù hợp cho người dùng.

Vì thế mặc dù về mặt kỹ thuật thì đây không phải là một hình phạt nhưng duplicate content sẽ tác động không tốt đến SEO, ảnh hưởng đến xếp hạng website trên SERP.

Ví dụ: bài viết của bạn về “từ khóa A” xuất hiện tại 2 URL khác nhau:

http://www.example.com/keyword-x/

http://www.example.com/article-category/keyword-x/

Thì đây được xem là duplicate content.

Ảnh hưởng của Duplicate content đến SEO

Nguyên nhân gây ra trùng lặp nội dung

Hiểu sai về khái niệm URL

Đối với developer thì họ định danh cho các bài viết qua ID mà bài viết có trong cơ sở dữ liệu, không phải qua các URL. Tuy nhiên với công cụ tìm kiếm thì URL là mã định danh riêng biệt cho mỗi nội dung. Do sự hiểu lầm này có thể dẫn đến một số sai sót trong quá trình phát triển website.

ID phiên

Website của bạn cho phép khách hàng truy cập và thực hiện các thao tác như lưu trữ, thêm giỏ hàng bằng cách tạo ra các phiên. Session hay còn gọi là phiên sử dụng, là một lịch sử về những dữ liệu trong quá trình khách hàng truy cập.

Mỗi phiên sẽ có một ID và lưu trữ tại đâu đó, thường là cookie. Tuy nhiên các công cụ tìm kiếm lại không lưu trữ cookie! Một số hệ thống thêm ID phiên vào URL gây ra nhiều địa chỉ URL khác nhau cho cùng một nội dung và dẫn đến duplicate content.

Sao chép nội dung

Đôi khi các website khác sử dụng nội dung trên website của bạn, có hoặc không có được sự đồng ý. Nếu các website khác cố tình sao chép nội dung mà không xin phép hoặc dẫn nguồn về bài viết gốc thì bạn có thể thực hiện yêu cầu DMCA đến Google.

Nội dung không chỉ là các bài viết mà còn có thể là thông tin trên các trang ecommerce và gây ra sự trùng lặp nội dung. Hay vô tình nhiều website bán cùng một sản phẩm và sử dụng các mô tả từ nhà sản xuất thì nó sẽ giống hệt nhau và xuất hiện tại nhiều URL gây ra duplicate content.

Còn đối với trường hợp bạn sao chép nội dung từ các website khác thì cần liên kết nguồn đến bài viết gốc và đảm bảo có sự cho phép của tác giả vì không phải ai cũng đồng ý cho bạn lấy nội dung của họ.

Phân trang, chuyên mục

Trong WordPress, cũng như trong một số hệ thống quản trị khác, có một tùy chọn cho phép đánh số trang comment.

Điều này dẫn đến nội dung bị trùng lặp trên URL bài viết và URL bài viết + /comment-page-1/, /comment-page-2/, hay các liên kết phân trang chuyên mục như /page-1/, /page-2/ v.v.

Các trang thân thiện với máy in

Nếu hệ thống quản lý nội dung của bạn tạo các trang thân thiện với máy in và bạn liên kết tới các trang đó từ các trang bài viết của mình, thì Google thường sẽ tìm thấy chúng, trừ khi bạn chặn chúng một cách cụ thể.

Các phiên bản nội dung thân thiện với máy in này cũng có thể gây ra sự cố nội dung trùng lặp khi nhiều phiên bản của trang được lập chỉ mục.

WWW và không phải WWW

Nếu trang web của bạn có các phiên bản riêng biệt tại “www.site.com” và “site.com” (có và không có tiền tố “www”) và cùng một nội dung tồn tại ở cả hai phiên bản, thì bạn đã tạo các bản sao của từng phiên bản đó.

Điều tương tự cũng áp dụng cho các trang web duy trì phiên bản ở cả http:// và https://. Nếu cả hai phiên bản của một trang đều hoạt động và hiển thị với các công cụ tìm kiếm, thì bạn có thể gặp phải sự cố duplicate content.

Cách tìm nội dung trùng lặp

Kiểm tra index website

Một cách đơn giản là kiểm tra số lượng URL được lập chỉ mục của website. Bạn có thể kiểm tra index bằng 2 cách:

Sử dụng thanh tìm kiếm của Google

Sử dụng GSC

: truy cập vào Google Search Console liên kết đến website và vào phần Index (lập chỉ mục).

Nếu website bạn có tổng cộng 50 bài viết, trang thì số lượng index sẽ không vượt quá 50, nếu số lượng cao hơn như 70, 100 thì có thể website bạn đang gặp tìm trạng Duplicate Content

Tìm kiếm một đoạn trên Google

Cách này để kiểm tra các nội dung trùng lặp bên ngoài website. Bạn sao chép khoảng một đoạn ngắn trong nội dung bài viết website đặt bên trong dấu ngoặc kép và cho vào google search, lúc này sẽ hiện kết quả tất cả các website có nội dung liên quan.

Vd: Nhập vào Google như sau để kiểm tra nội dung trong ngoặc kép có trùng lặp không:

“Cách này để kiểm tra các nội dung trùng lặp bên ngoài website.”

Nếu website của bạn xuất hiện không phải kết quả đầu tiên thì bạn đang gặp vấn đề duplicate content vì Google đánh giá bạn không phải là bài viết gốc. Tuy nhiên cách này chỉ áp dụng được với các website nhỏ, đối với website có số lượng bài viết nhiều hãy sử dụng các công cụ hỗ trợ ở phần tiếp theo.

Sử dụng công cụ kiểm tra trùng lặp nội dung

Một số công cụ SEO sẽ hỗ trợ cho việc kiểm tra các nội dung trùng lặp như:

Duplichecker:
Siteliner
PlagSpotter
Plagiarismchecker.com
…

Các công cụ kiểm tra trùng lặp nội dung này sẽ quét tất cả các nội dung trùng lặp với bài viết của bạn và trả kết quả bao gồm cả phần trăm trùng lặp của từng nội dung.

Sử dụng 301 redirect

Trong phần lớn trường hợp thì cách tốt nhất để khắc phục tình trạng duplicate content đó là 301 redirect từ trang trùng lặp sang trang gốc.

Khi nhiều các trang đã được index kết hợp thành một trang duy nhất sẽ không chỉ giúp các URL ngừng cạnh tranh với nhau trong cùng một từ khóa mà còn truyền các sức mạnh và tín hiệu link về trang gốc giúp bài viết đó dễ tăng xếp hạng hơn.

Sử dụng canonical tag

Một cách khác để xử lý duplicate content đó là sử dụng thuộc tính rel = canonical. Thẻ canonical sẽ khai báo cho công cụ tìm kiếm biết rằng đây là bản sao và các đánh giá xếp hạng, sức mạnh liên kết sẽ trả về bài viết gốc được canonical đến.Bạn có thể sử dụng canonical cho cả các chuyên mục, comment, hãy canonical các trang 2, 3, 4,… về URL chuyên mục, comment gốc.

Để thêm canonical tag bạn phải thêm thuộc tính rel=canonical vào phần đầu HTML của mỗi phiên bản trùng lặp, và đưa URL gốc vào.

Định dạng:<head>…[mã khác có thể có trong phần đầu HTML của tài liệu]…<link href=”URL CỦA TRANG GỐC” rel=”canonical” />…[mã khác có thể có trong tài liệu của bạn Đầu HTML]…</head>

Ngoài ra, nếu bạn sử dụng website wordpress thì sẽ có tính năng canonical được thiết lập sẵn trong các plugin hỗ trợ SEO như AIO SEO, Rank math,… Với các plugin này bạn chỉ cần nhập URL vào là đã có thể hoàn tất.

Meta Noindex wordpress tag hoặc category

Một cách khác để khắc phục, tránh duplicate content đó là sử dụng meta robot cùng với khai báo “noindex, follow”. Meta noindex tag cũng thêm vào phần đầu HTML các trang bạn muốn loại bỏ khỏi chỉ mục.

Định dạng:

<head>…[mã khác có thể nằm trong phần đầu HTML của tài liệu]…<meta name=”robots” content=”noindex,follow”>…[mã khác có thể nằm trong phần đầu HTML của tài liệu của bạn ]…</head>

Meta robots noindex này cho phép các công cụ tìm kiếm thu thập dữ liệu nhưng không cho phép đưa các URL đó vào chỉ mục.

Duplicate content là gì

Ảnh hưởng của Duplicate content đến SEO