Apakah itu duplikat konten?
Konten Duplikat atau disingkat DC adalah sebutan untuk konten web yang dapat diakses dalam bentuk yang sama dengan URL berbeda di Internet.
Oleh Konten duplikat atau “konten duplikat”, adalah konten dari berbagai situs web yang sangat mirip atau bahkan sama persis. Mesin pencari, termasuk Google, berusaha mencegah duplikat konten, sehingga situs web yang menggunakan terlalu banyak konten duplikat akan diturunkan indeksnya. Apalagi jika dicurigai ada manipulasi untuk keperluan SEO. Karena alasan ini, halaman dengan konten yang disalin mungkin kehilangan peringkat atau bahkan tidak diindeks.
Kerugian dari duplikat konten
Mesin pencari memandang duplikat konten sebagai hal negatif karena tidak memberikan nilai tambah bagi pengguna. Namun, setiap situs web pasti akan dirayapi dan diindeks, yang berarti sumber daya akan terbuang percuma.
Dulu, website sering kali dipenuhi dengan konten duplikat untuk tujuan SEO, sehingga Google memutuskan untuk mengambil tindakan terhadap konten yang digunakan berulang kali. Dengan perubahan algoritma seperti pembaruan Panda, Google telah mulai menurunkan halaman dengan konten duplikat di peringkatnya masing-masing.
Tindakan pencegahan yang harus diambil terhadap duplikat konten
Duplikat konten tidak secara langsung mengakibatkan penalti dari mesin pencari masing-masing. Namun, karena ada risiko duplikat konten akan dilihat secara negatif dan tidak lagi diindeks, operator situs web harus mengambil langkah-langkah berikut untuk menghindari duplikat konten:
301 pengalihan
Pengalihan dengan kode 301 masuk akal untuk selalu mengarahkan mesin pencari dan pembaca ke halaman yang diinginkan dan melewati konten lama. Misalnya, jika sebagian besar halaman diganti dengan URL yang berbeda, sebanding dengan peluncuran ulang, disarankan untuk mengalihkan melalui 301. Sehingga alih-alih dua halaman dengan konten yang sama, pengunjung website, meskipun mengklik URL satu halaman, langsung dibawa ke halaman kedua dan benar. Google juga tidak melihat pengalihan ini sebagai masalah.
Gunakan URL yang benar
Untuk mencegah duplikat konten, menggunakan URL yang benar sangatlah penting.
Banyak sistem pengelolaan dan pelacakan konten yang secara tidak sengaja menghasilkan konten duplikat karena memfaktorkan ulang URL halaman.
Minimalkan duplikat konten
Operator situs web harus menghindari duplikat konten sebisa mungkin dan menghasilkan konten yang unik. Pada banyak halaman, modul teks individual harus atau harus digunakan secara berlebihan, dan terkadang bahkan duplikasi seluruh halaman tidak dapat dikesampingkan. Namun, webmaster harus membatasi hal ini sebisa mungkin dan, jika perlu, menginformasikan mesin pencari melalui link dalam kode HTML bahwa halaman dengan konten yang sama sudah ada.
Selain konten duplikat yang dibuat sendiri, situs web lain juga menghasilkan konten duplikat. Hal ini sering terjadi ketika operator situs web membagikan atau menjual kontennya ke berbagai situs web atau situs web lain menggunakan konten tersebut tanpa izin yang diperlukan. Dalam kedua kasus tersebut, masing-masing operator situs web harus menginstruksikan operator situs web lain untuk menandai konten yang disalin dengan tautan kembali ke konten asli atau tag noindex. Hal ini memungkinkan mesin pencari untuk mencatat di mana konten asli berada dan konten mana yang harus diindeks.
Penggunaan tag canonical/href lang/noindex atau robots.txt tidak diperbolehkan
Dengan menggunakan banyak tag, bentuk duplikat konten tertentu bahkan dapat dicegah. Tag kanonik, misalnya di area header, memberitahu Google untuk mengindeks halaman yang dirujuk oleh tag tersebut. Namun, salinan laman tempat tag diintegrasikan harus diabaikan oleh perayap.
Tag meta noindex digunakan untuk menunjukkan kepada mesin pencari bahwa ia harus merayapi halaman tersebut tetapi tidak memaksa untuk mengindeksnya. Sedangkan entri penolakan di robots.txt memungkinkan webmaster, dan juga Googlebot, merayapi laman dan kontennya.
Larang dapat dimasukkan ke dalam file robots.txt untuk menjaga seluruh halaman, jenis halaman, atau jenis konten agar tidak dirayapi dan juga agar tidak diindeks oleh Google dan Co.
robots.txt adalah file yang mengatur konten apa saja yang boleh dan tidak boleh ditangkap oleh crawler mesin pencari.
Di sisi lain, Disallow memastikan bahwa mesin pencari tidak memiliki akses yang sesuai ke konten yang ditentukan.
Tag href lang digunakan untuk memberi sinyal kepada mesin pencari bahwa suatu halaman hanyalah implementasi dari domain dalam bahasa lain. Misalnya, jika sebuah domain berada di bawah .co.uk untuk pasar Inggris dan .com untuk pasar AS, tag href lang menunjukkan bahwa domain tersebut merupakan cabang dari domain lainnya, sehingga mencegah fakta bahwa mesin pencari yang mengevaluasi halaman sebagai duplikat konten.
Konten duplikat internal dan eksternal
Ada dua jenis konten duplikat yang berbeda. Perbedaan dibuat antara konten duplikat internal dan eksternal. Konten duplikat internal memengaruhi domain/nama host Anda sendiri, sedangkan konten duplikat eksternal terbatas pada lintas domain. Itu terjadi di bawah dua domain atau lebih.
Contoh
Biasanya, toko online harus berjuang dengan duplikat konten internal. Halaman detail produk juga dapat diakses tanpa kategori dan/atau halaman produk yang sesuai:
Halaman https://www.onlineshop-domain.com/categorie/productpage/productdetailspage dan
https://www.onlineshop-domain.com/produktdetailseite akan menjadi contoh konten duplikat internal.