Pengertian Web Crawling

web crawling adalah proses di mana search engine menemukan konten yang di-update di sebuah situs atau halaman baru, perubahan situs, atau link yang mati. Web Crawling juga dapat disebut sebagai proses di mana mesin pencari mengirimkan tim robot untuk menemukan konten baru dan konten yang telah di update.

Cara Kerja Web Crawler

Berikut ini adalah cara kerja dari web crawler:

  1. web crawler akan mengunjungi sebuah situs dan berbagai link yang terdapat dalam halaman tersebut. Namun jika situs kita belum ada link lain di dalamnya, kita bisa meminta search engine untuk mendatangi situs tersebut.
  2. yang kedua kita hanya perlu memasukkan situs URL kita di Google Search Console.
  3. Kemudian, tugas tools web crawling berikutnya adalah mencatat setiap link yang mereka temukan ke indeks mereka.
  4. Namun, perlu kita tahu bahwa web crawler hanya akan mengumpulkan informasi dari laman yang bersifat publik.
  5. Setelah itu, web crawler akan mengumpulkan berbagai informasi, seperti tulisan dan meta tag.
  6. Informasi tersebut akan tersimpan dalam indeks search engine sehingga dapat muncul ketika pengguna mencari konten dengan keyword yang sama.

Contoh Web Crawler

Berikut adalah contoh tools populer untuk web crawling:

1. Googlebot

Googlebot adalah web crawler yang paling banyak digunakan saat ini. Seperti namanya, web crawler ini adalah milik Google.

2. HTTrack

HTTrack adalah web crawler yang bersifat open source. Kita bisa men download situs world wide web (www) dari internet ke komputer sehingga kita bisa melihatnya secara offline.

3. Cyotek Webcopy

Serupa dengan HTTrack, Cyotek Webcopy dapat digunakan untuk men-download situs dari internet ke komputer.

4. Webhose

Webhose adalah web crawler yang dapat mengubah konten website yang tidak terstruktur menjadi data feeds yang dapat dibaca oleh mesin.

X
× Ada Yang Bisa Kami Bantu?