Forum VClass Softskill Pertemuan 2
NAMA: ARDHI RAMADHANI
NPM : 50419978
KELAS : 2IA14
MATKUL : Pengantar Web Science #
Kesimpulan :
Web Archiving
Web Archiving adalah proses mengumpulkan bagian dari WWW dan memastikan koleksi tersebut diawetkan dalam suatu arsip, misalnya situs arsip, untuk diakses peneliti, sejarawan, dan masyarakat umum pada masa datang.
Arsiparis web umumnya mengumpulkan berbagai jenis konten web termasuk halaman HTML Web, style sheet, JavaScript, gambar, dan video. Arsiparsi web menggunakan archive metadata untuk sumber daya yang dikumpulkan seperti access time, MIME type, dan content length. Metadata ini berguna dalam menjaga keaslian dan asal dari koleksi arsip.
Cara kerja Web Archiving :
- Remote Harvesting/Panen Jarak Jauh, untuk mengotomatisasi proses pengumpulan halaman web. Contoh web crawler yang digunakan untuk web pengarsipan meliputi : Heritrix, HTTrack, Wget, On-demand.
- On-Demand, Ada banyak layanan yang dapat digunakan sebagai sumber archive web “on-demand”, menggunakan teknik web crawling. Contohnya seperti : Aleph Archives, archive.is, Archive-It, dll.
- Database Archiving/database pengarsipan, Database Archiving mengacu pada metode untuk mengarsipkan konten database-driven websites. Hal ini biasanya memerlukan ekstraksi konten database ke standard schema, sering menggunakan XML.
- Transactional archiving/Transaksional pengarsipan, Transactional archiving merupakan event-driven yang mengumpulkan transaksi yang berlangsung antara web server dan web browser.
Kesulitan dan keterbatasan :
Crawlers
Web arsip yang mengandalkan web merangkak sebagai sarana utama mereka mengumpulkan Web dipengaruhi oleh kesulitan merangkak web:
- Protokol pengecualian robot dapat meminta crawler tidak dapat mengakses bagian dari sebuah situs web. Beberapa arsiparis web dapat mengabaikan permintaan dan merangkak bagian-bagian pula.
- Sebagian besar dari sebuah situs web mungkin tersembunyi di dalam Web. Misalnya, halaman hasil balik formulir web terletak pada Web dalam karena crawler paling tidak bisa mengikuti link ke halaman hasil.
- Crawler perangkap (misalnya, kalender) dapat menyebabkan crawler untuk mendownload jumlah tak terbatas halaman, sehingga crawler biasanya dikonfigurasi untuk membatasi jumlah halaman dinamis mereka merangkak.
- Beberapa server web yang dikonfigurasi untuk mengembalikan halaman yang berbeda untuk permintaan Pengarsip web dari mereka akan dalam menanggapi permintaan browser biasa. Hal ini biasanya dilakukan untuk mengelabui mesin pencari ke mengarahkan lalu lintas pengguna ke situs Web.
- Tidak hanya harus web arsiparis menghadapi tantangan teknis web pengarsipan, mereka juga harus bersaing dengan hukum kekayaan intelektual.
- Beberapa arsip web pribadi non-profit yang dibuat dapat diakses publik seperti WebCite, Internet Archive atau memori internet memungkinkan pemilik konten untuk menyembunyikan atau menghapus konten yang diarsipkan.
Kurasi web, seperti kurasi digital, memerlukan:
- Sertifikasi dari kepercayaan dan integritas dari isi koleksi
- Mengumpulkan aset Web diverifikasi
- Menyediakan Web pencarian aset dan pengambilan
- Semantik dan ontologis kontinuitas dan komparatif dari isi koleksi
Sebuah suite alat untuk Kurasi Web oleh Konsorsium Pelestarian Internet International :
- situs resmi
- mengumpulkan aset Web NutchWAX
- pencarian Web arsip koleksi Wayback (Sumber Wayback Machine Terbuka)
- pencarian dan navigasi koleksi arsip Web menggunakan NutchWax Web Kurator Alat
- Seleksi dan Pengelolaan Koleksi Web
- WARC Tools
untuk membuat, membaca, parsing dan memanipulasi, web arsip pemrograman - Pencarian
untuk mengindeks dan mencari teks lengkap dan metadata dalam web arsip.
Dari Diskusi diatas, didapat kesimpulan : Web Archive mempunyai peran yang sangat penting dalam mengumpulkan berbagai jenis konten web menggunakan Web Crawler dan memastikan bahwa kumpulan konten tersebut diawetkan dalam suatu arsip sebagai metadata/untuk menjaga keaslian dan asal dari koleksi arsip yang nantinya dapat diakses peneliti, sejarawan, dan masyarakat umum pada masa mendatang. semua itu bertujuan untuk memperoleh, melestarikan, dan menyediakan akses ke informasi historis yang dipublikasikan secara online.