Apa Itu Web Crawling??

Assalamualaikum Warahmatullahi Wabarakatuh.

Kembali lagi dengan saya Admin yang paling gans :v,,, pada artikel kali ini saya akan memberikan penjelasan mengenai Web Crawling...

Ok tanpa banyak bacot langsung saja...

Web Crawling adalah salah satu bentuk aksi hacking dengan meng-copy halaman website ke dalam komputer lokal. Tujuannya adalah untuk memudahkan analisis struktur sebuah website secara offline.

Tidak semua isi website bisa dipindahkan ke dalam komputer lokal, salah satunya adalah web yang terbuat dari flash yang tidak bisa dipindahkan secara sempurna karena link yang terdapat didalamnya tidak tersimpan didalam file HTML maupun script PHP.

Untuk melakukan aksi Web Crawling, kita memerlukan sebuah program yang bernama HTTrack.

Berikut cara kerjanya :

- Pertama silahkan download program HTTrack nya terlebih dahulu
http://www.httrack.com/page/2/en/index.html

- Install dan dan buka HTTrack nya.

- Langsung saja klik "next".

- Pada kotak new project name dan project category, isikan dengan nama apa aja. Pada kotak base path, pilih lokasi tempat untuk menyimpan hasil download isi website. Klik next.

-Isikan alamat website / blog yang akan di download pada kotak web address. Untuk action kita pilih default saja yaitu Download web site. Klik next.

- Kemudian pada kotak remote control, pilih Do not connect to a provider jika sudah terhubung ke internet. Klik finish.

- Tunggu hingga proses download selesai.

- Jika sudah selesai klik finish.

- Setelah selesai, buka direktori tempat kita menyimpan.

- Misalkan kita menyimpannya di direktori C:, kemudian buka file dengan nama index.html

- Selesai, kurang lebih begitulah cara mengambil semua isi website orang lain.

Selain cara diatas, ada sebuah trik sederhana bagaimana anda bisa mengetahui direktori apa saja yang terdapat dalam sebuah website. Untuk melakukan hal ini anda hanya perlu memasukkan sebuah robots.txt dibelakang nama sebuah website. Contohnya http://www.victorya.com/robots.txt

Berikut hasil yang ditampilkan :

User-agent :

Disallow: /administrator/

Disallow: /cache/

Disallow: /components/

Disallow: /images/

Disallow: /include/

Disallow: /installation/

Disallow: /languange/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/