Minggu, 27 Juni 2021

Forum VClass Softskill Pertemuan 2

Forum VClass Softskill Pertemuan 2

NAMA: ARDHI RAMADHANI
NPM : 50419978
KELAS : 2IA14
MATKUL : Pengantar Web Science #

Kesimpulan :
Web Archiving
Web Archiving adalah proses mengumpulkan bagian dari WWW dan memastikan koleksi tersebut diawetkan dalam suatu arsip, misalnya situs arsip, untuk diakses peneliti, sejarawan, dan masyarakat umum pada masa datang.
Arsiparis web umumnya mengumpulkan berbagai jenis konten web termasuk halaman HTML Web, style sheet, JavaScript, gambar, dan video. Arsiparsi web menggunakan archive metadata untuk sumber daya yang dikumpulkan seperti access time, MIME type, dan content length. Metadata ini berguna dalam menjaga keaslian dan asal dari koleksi arsip.
Cara kerja Web Archiving :
  • Remote Harvesting/Panen Jarak Jauh, untuk mengotomatisasi proses pengumpulan halaman web. Contoh web crawler yang digunakan untuk web pengarsipan meliputi : Heritrix, HTTrack, Wget, On-demand.
  • On-Demand, Ada banyak layanan yang dapat digunakan sebagai sumber archive web “on-demand”, menggunakan teknik web crawling. Contohnya seperti : Aleph Archives, archive.is, Archive-It, dll.
  • Database Archiving/database pengarsipan, Database Archiving mengacu pada metode untuk mengarsipkan konten database-driven websites. Hal ini biasanya memerlukan ekstraksi konten database ke standard schema, sering menggunakan XML.
  • Transactional archiving/Transaksional pengarsipan, Transactional archiving merupakan event-driven yang mengumpulkan transaksi yang berlangsung antara web server dan web browser.
Kesulitan dan keterbatasan :
Crawlers
    Web arsip yang mengandalkan web merangkak sebagai sarana utama mereka mengumpulkan Web dipengaruhi oleh kesulitan merangkak web:
  • Protokol pengecualian robot dapat meminta crawler tidak dapat mengakses bagian dari sebuah situs web. Beberapa arsiparis web dapat mengabaikan permintaan dan merangkak bagian-bagian pula.
  • Sebagian besar dari sebuah situs web mungkin tersembunyi di dalam Web. Misalnya, halaman hasil balik formulir web terletak pada Web dalam karena crawler paling tidak bisa mengikuti link ke halaman hasil.
  • Crawler perangkap (misalnya, kalender) dapat menyebabkan crawler untuk mendownload jumlah tak terbatas halaman, sehingga crawler biasanya dikonfigurasi untuk membatasi jumlah halaman dinamis mereka merangkak.
keterbatasan :
  • Beberapa server web yang dikonfigurasi untuk mengembalikan halaman yang berbeda untuk permintaan Pengarsip web dari mereka akan dalam menanggapi permintaan browser biasa. Hal ini biasanya dilakukan untuk mengelabui mesin pencari ke mengarahkan lalu lintas pengguna ke situs Web.
  • Tidak hanya harus web arsiparis menghadapi tantangan teknis web pengarsipan, mereka juga harus bersaing dengan hukum kekayaan intelektual.
  • Beberapa arsip web pribadi non-profit yang dibuat dapat diakses publik seperti WebCite, Internet Archive atau memori internet memungkinkan pemilik konten untuk menyembunyikan atau menghapus konten yang diarsipkan.
Kurasi web, seperti kurasi digital, memerlukan:
  • Sertifikasi dari kepercayaan dan integritas dari isi koleksi
  • Mengumpulkan aset Web diverifikasi
  • Menyediakan Web pencarian aset dan pengambilan
  • Semantik dan ontologis kontinuitas dan komparatif dari isi koleksi
Sebuah suite alat untuk Kurasi Web oleh Konsorsium Pelestarian Internet International :
  • situs resmi
  • mengumpulkan aset Web NutchWAX
  • pencarian Web arsip koleksi Wayback (Sumber Wayback Machine Terbuka)
  • pencarian dan navigasi koleksi arsip Web menggunakan NutchWax Web Kurator Alat
  • Seleksi dan Pengelolaan Koleksi Web
Lain sumber Peralatan terbuka untuk memanipulasi web arsip:
  • WARC Tools
    untuk membuat, membaca, parsing dan memanipulasi, web arsip pemrograman
  • Pencarian
    untuk mengindeks dan mencari teks lengkap dan metadata dalam web arsip.
Dari Diskusi diatas, didapat kesimpulan Web Archive mempunyai peran yang sangat penting dalam mengumpulkan berbagai jenis konten web menggunakan Web Crawler dan memastikan bahwa kumpulan konten tersebut diawetkan dalam suatu arsip sebagai metadata/untuk menjaga keaslian dan asal dari koleksi arsip yang nantinya dapat diakses peneliti, sejarawan, dan masyarakat umum pada masa mendatang. semua itu bertujuan untuk memperoleh, melestarikan, dan menyediakan akses ke informasi historis yang dipublikasikan secara online.

Sabtu, 26 Juni 2021

Tugas VClass Softskill Pertemuan 2

Tugas VClass Softskill Pertemuan 2

NAMA: ARDHI RAMADHANI
NPM : 50419978
KELAS : 2IA14
MATKUL : Pengantar Web Science #


Soal :
1.  Apa yang anda ketahui tentang Web Archiving
Jawab :
Web Archiving adalah proses mengumpulkan data yang telah direkam di World Wide Web, menyimpannya, memastikan data disimpan dalam arsip, dan membuat data yang dikumpulkan tersedia untuk penelitian masa depan. Web Archiving umumnya mengumpulkan berbagai jenis konten web termasuk halaman HTML Web, style sheet, JavaScript, gambar, dan video. Arsiparsi web menggunakan archive metadata untuk sumber daya yang dikumpulkan seperti access time, MIME type, dan content length. Metadata ini berguna dalam menjaga keaslian dan asal dari koleksi arsip.

2. Sebutkan dan Jelaskan serta berikan contoh cara kerja Web Archiving
Jawab :
Cara kerja Web Archiving :
  • Remote Harvesting
    Merupakan cara yang plaing umum dalam web archiving dengan menggunkana teknik web crawlers yang secara otomatis melakukan proses pengumpulan halaman web. Metode yang digunakan web crawler untuk mengakses halaman web sama semeprti user mengakses halaman web menggunakan wob browser. Contoh web crawler yang digunakan dalam web archiving seperti :
    > Heritrix
    > HTTrack
    > Wget
  • On-Demand
    Ada banyak layanan yang dapat digunakan sebagai sumber archive web “on-demand”, menggunakan teknik web crawling. Contohnya seperti :
    > Aleph Archives
    > archive.is
    > Archive-It
    > Archivethe.net
    > Compliance WatchDog by SiteQuest Technologies
    > freezePAGE snapshots
  • Database Archiving
    Databasa Archiving mengacu pada metode untuk menarsipkan konten database-driven websites. Hal ini biasanya memerlukan ekstraksi konten database ke standard schema, sering menggunakan XML. Setelah disimpan dalam format standar, konten yang diarsipkan dari beberapa databse dapat tersedia untuk diakses dengan menggunakan single access system. Motode ini digunkanan seprti pada DeepArc dan Xinq masiing masing dikembangkan oleh Bibliothèque nationale de France dan National Library of Australia.
  • Transactional archiving
    Transactional archiving merupakan event-driven yang mengumpulkan transaksi yang berlangsung antara web server dan web browser. Hal ini terutama digunakan untuk menjamin keaslian dari isi suatu website, pada tanggal tertentu. Hal ini sangatlah penting untuk organisasi atau perusahaan yang perlu mematuhi persyaratan hukum atau peraturan untuk mengungkapkan dan mempertahankan informasi.