Ardhi Ramadhani: Pertemuan 7 : Pengantar Web Science

Pertemuan 7 : Pengantar Web Science

NAMA: ARDHI RAMADHANI

NPM : 50419978

KELAS : 2IA14

MATKUL : Pengantar Web Science #

SOAL :

1. Jelaskan pengertian dan berikan contoh tentang Web Crawler

Jawab :

Web Crawler, atau biasa disebut spiders, adalah jenis bot yang biasanya dioperasikan oleh mesin telusur seperti Google dan Bing. Tujuannya adalah untuk mengindeks konten situs web di seluruh Internet sehingga situs web tersebut dapat muncul di hasil mesin pencari.

Sebuah web crawler, Spiders, atau bot mesin pencari mengunduh dan mengindeks konten dari seluruh Internet. Tujuan dari bot semacam itu adalah untuk mempelajari tentang (hampir) setiap halaman web di web, sehingga informasi dapat diambil saat dibutuhkan. Mereka disebut "Web Crawlers" karena crawling(perayapan) adalah istilah teknis untuk mengakses situs web secara otomatis dan mendapatkan data melalui program perangkat lunak.

Bot ini hampir selalu dioperasikan oleh mesin pencari. Dengan menerapkan algoritme penelusuran ke data yang dikumpulkan oleh perayap web, mesin telusur dapat menyediakan tautan yang relevan sebagai tanggapan atas kueri penelusuran pengguna, menghasilkan daftar laman web yang muncul setelah pengguna mengetikkan penelusuran ke Google atau Bing (atau mesin telusur lain) .

Web Crawler dapat diartikan seperti seseorang yang menelusuri semua buku di perpustakaan yang tidak terorganisir dan menyusun katalog kartu sehingga siapa pun yang mengunjungi perpustakaan dapat dengan cepat dan mudah menemukan informasi yang mereka butuhkan.

Contoh Web Crawler :

Amazonbot adalah crawler web Amazon untuk identifikasi konten web dan penemuan backlink.
Baiduspider dari Baidu (mesin pencari dari China)
Bingbot untuk mesin pencari Bing oleh Microsoft
DuckDuckBot untuk DuckDuckGo
Exabot untuk mesin pencari Prancis Exalead
Sogou Spider dari Sogou (mesin pencari dari China)
Googlebot dari Google
Yahoo! Slurp dari Yahoo
Yandex Bot dari Yandex (mesin pencari dari Rusia)

2. Jelaskan cara kerja dari Web Crawler

Jawab :

Web Crawler "merayapi" melalui web untuk menemukan halaman situs web yang akan dikunjungi, menggunakan beberapa algoritme untuk menilai nilai konten atau kualitas tautan dalam indeksnya. Aturan ini menentukan perilaku perayapannya: situs mana yang akan di-crawl, seberapa sering halaman di-crawl ulang, berapa banyak halaman di situs yang akan diindeks, dan sebagainya. Saat mengunjungi situs web baru, ia mengunduh file robots.txt — protokol "standar pengecualian robot" yang dirancang untuk membatasi akses tak terbatas oleh alat perayap web. File tersebut berisi informasi peta situs (URL yang akan di-crawl) dan aturan penelusuran (halaman mana yang akan di-crawl dan bagian mana yang diabaikan).

Crawler melacak setiap link, baik internal maupun eksternal, menambahkan ke halaman berikutnya yang dikunjungi. Proses ini diulangi hingga perayap mendarat di laman tanpa tautan lagi atau menemukan kesalahan seperti 404 dan 403, memuat konten situs ke dalam basis data dan indeks mesin telusur. Ini adalah basis data kata dan frasa yang sangat besar yang ditemukan di setiap halaman, yang juga menentukan di mana kata-kata tersebut muncul di halaman web yang berbeda. Ketika fungsi pencarian dan kueri digunakan, ini membantu pengguna akhir menemukan halaman web dengan kata atau frase yang dimasukkan.

Contoh faktor yang dipertimbangkan adalah:

Kualitas konten
Konten yang cocok dengan kueri pengguna
Jumlah tautan yang mengarah ke konten
Berapa kali telah dibagikan secara online

Contoh beberapa cara kerja Web Crawler :

Menemukan URL: Pertama, mesin telusur mungkin telah merayapi laman web tersebut sebelumnya. Kedua, mesin pencari dapat menemukan halaman web dengan mengikuti link dari halaman yang telah dirayapi. Ketiga, pemilik situs web dapat meminta mesin telusur untuk merayapi URL dengan mengirimkan peta situs (file yang memberikan informasi tentang laman di situs). Membuat peta situs yang jelas dan membuat situs web yang mudah dinavigasi adalah cara yang baik untuk mendorong mesin telusur merayapi situs web Anda.
Menjelajahi Daftar Seed/Benih: Selanjutnya, mesin pencari memberikan web crawler daftar alamat web untuk diperiksa. URL ini dikenal sebagai benih. Web Crawler mengunjungi setiap URL di daftar, mengidentifikasi semua link di setiap halaman, dan menambahkannya ke daftar URL yang akan dikunjungi. Dengan menggunakan peta situs dan basis data tautan yang ditemukan selama perayapan sebelumnya, perayap web memutuskan URL mana yang akan dikunjungi berikutnya. Dengan cara ini, perayap web menjelajahi internet melalui tautan.
Menambahkan ke Indeks: Saat crawler web mengunjungi seed di daftar mereka, mereka menemukan dan merender konten dan menambahkannya ke indeks. Indeks adalah tempat mesin pencari menyimpan semua pengetahuannya tentang internet. Ukurannya lebih dari 100.000.000 gigabyte! Untuk membuat gambaran lengkap dari internet (yang sangat penting untuk halaman hasil pencarian yang optimal), perayap web harus mengindeks setiap sudut dan celah internet. Selain teks, perayap web membuat katalog gambar, video, dan file lainnya.
Memperbarui Indeks: Web Crawler mencatat sinyal utama, seperti konten, kata kunci, dan kesegaran konten, untuk mencoba memahami tentang apa halaman itu. Menurut Google, "Perangkat lunak ini memberikan perhatian khusus pada situs baru, perubahan pada situs yang ada, dan tautan mati.” Ketika menemukan item ini, itu memperbarui indeks pencarian untuk memastikan itu adalah yang terbaru.
Frekuensi Perayapan: Web Crawler merayapi internet 24/7, tetapi seberapa sering setiap laman dirayapi? Menurut Google, “Program komputer menentukan situs mana yang akan dirayapi, seberapa sering, dan berapa banyak laman yang diambil dari setiap situs.” Program ini mempertimbangkan anggapan pentingnya situs web Anda dan jumlah perubahan yang Anda buat sejak perayapan terakhir. Ini juga melihat permintaan perayapan situs web Anda, atau tingkat minat yang dimiliki Google dan penelusurnya di situs web Anda. Jika situs Anda populer, kemungkinan Googlebot akan sering merayapi untuk memastikan pemirsa Anda dapat menemukan konten terbaru Anda melalui Google.

3. Jelaskan fungsi dari Web Crawler

Jawab :

Fungsi dari Web Crawler adalah membuat indeks. Jadi Web Crawler adalah dasar dari pekerjaan mesin pencari. Mereka pertama-tama menjelajahi web untuk mencari konten dan kemudian membuat hasilnya tersedia bagi pengguna. Crawler terfokus, misalnya, fokus pada situs web saat ini yang relevan dengan konten saat mengindeks.

Fungsi lain Web Crawler :

Portal perbandingan harga mencari informasi tentang produk tertentu di Web, sehingga harga atau data dapat dibandingkan secara akurat.
Di bidang penambangan data, perayap dapat mengumpulkan email atau alamat pos perusahaan yang tersedia untuk umum.
Alat analisis web menggunakan Crawler atau Spider untuk mengumpulkan data untuk tampilan halaman, atau link masuk atau keluar.
Crawler berfungsi untuk menyediakan hub informasi dengan data, misalnya, situs berita.
Informasi untuk penelitian akademis
Riset pasar untuk menemukan tren paling populer
Layanan atau lokasi terbaik untuk penggunaan pribadi
Pekerjaan atau peluang dalam bisnis
Melacak perubahan konten
Mendeteksi situs web berbahaya
Pengambilan harga otomatis dari situs pesaing untuk strategi penetapan harga
Mengidentifikasi potensi penjualan terlaris untuk platform e-niaga dengan mengakses data dari kompetisi
Peringkat popularitas pemimpin atau bintang film
Akses umpan data dari ribuan merek serupa
Mengindeks tautan yang paling sering dibagikan di jejaring sosial
Akses dan indeks daftar pekerjaan berdasarkan ulasan dan gaji karyawan
Tolok ukur harga dan katalogisasi berbasis kode pos untuk pengecer
Membangun database ulasan layanan dengan menggabungkan ulasan yang tersebar di berbagai sumber
Mengekstrak data dari kantor berita dan umpan sosial untuk berita terbaru, digunakan untuk menghasilkan konten otomatis
Mengakses data pasar dan sosial untuk membangun mesin rekomendasi keuangan
Menemukan ruang obrolan terkait teroris

4. Jelaskan cara memblokir Web Crawler

Jawab :

Anda dapat memblokir perayap web agar tidak mengindeks situs web Anda. Misalnya, menggunakan file robots.txt dengan aturan tertentu seperti menahan perayap web yang mendaftar dengan mengatakan, "Jangan masuk!" Atau jika header HTTP Anda berisi kode status yang menyampaikan bahwa halaman tersebut tidak ada, crawler web tidak akan meng-crawlnya. Dalam beberapa kasus, webmaster mungkin secara tidak sengaja memblokir crawler web agar tidak mengindeks halaman, itulah mengapa penting untuk memeriksa kemampuan crawl situs Anda secara berkala.

Webmaster dapat menggunakan protokol robots.txt untuk berkomunikasi dengan crawler web, yang selalu memeriksa file robots.txt halaman sebelum merayapi halaman. Berbagai aturan dapat dimasukkan ke dalam file. Misalnya, Anda dapat menentukan halaman mana yang dapat dirayapi bot, menentukan tautan mana yang dapat diikuti bot, atau menyisih sama sekali dari perayapan menggunakan robots.txt. Google memberikan alat penyesuaian yang sama untuk semua webmaster, dan tidak mengizinkan penyuapan atau memberikan hak khusus apa pun. Melarang web crawler melakukan crawling pada halaman yang tak penting bisa mengurangi beban website Anda dan mempercepat proses indexing. contoh robots.txt dapat dilihat di link berikut https://www.cloudflare.com/robots.txt.

Sumber :

https://research.aimultiple.com/web-crawler/

https://www.cloudflare.com/robots.txt

https://www.simplilearn.com/what-is-a-web-crawler-article

----------------------------------------------------------------------------------------------------------------------------

Pertemuan 7 : Pengantar Web Science

NAMA: ARDHI RAMADHANI

NPM : 50419978

KELAS : 2IA14

MATKUL : Pengantar Web Science #