Ardhi Ramadhani: Juni 2021

Forum VClass Softskill Pertemuan 2

NAMA: ARDHI RAMADHANI

NPM : 50419978

KELAS : 2IA14

MATKUL : Pengantar Web Science #

Kesimpulan :

Web Archiving

Web Archiving adalah proses mengumpulkan bagian dari WWW dan memastikan koleksi tersebut diawetkan dalam suatu arsip, misalnya situs arsip, untuk diakses peneliti, sejarawan, dan masyarakat umum pada masa datang.

Arsiparis web umumnya mengumpulkan berbagai jenis konten web termasuk halaman HTML Web, style sheet, JavaScript, gambar, dan video. Arsiparsi web menggunakan archive metadata untuk sumber daya yang dikumpulkan seperti access time, MIME type, dan content length. Metadata ini berguna dalam menjaga keaslian dan asal dari koleksi arsip.

Cara kerja Web Archiving :

Remote Harvesting/Panen Jarak Jauh, untuk mengotomatisasi proses pengumpulan halaman web. Contoh web crawler yang digunakan untuk web pengarsipan meliputi : Heritrix, HTTrack, Wget, On-demand.
On-Demand, Ada banyak layanan yang dapat digunakan sebagai sumber archive web “on-demand”, menggunakan teknik web crawling. Contohnya seperti : Aleph Archives, archive.is, Archive-It, dll.
Database Archiving/database pengarsipan, Database Archiving mengacu pada metode untuk mengarsipkan konten database-driven websites. Hal ini biasanya memerlukan ekstraksi konten database ke standard schema, sering menggunakan XML.
Transactional archiving/Transaksional pengarsipan, Transactional archiving merupakan event-driven yang mengumpulkan transaksi yang berlangsung antara web server dan web browser.

Kesulitan dan keterbatasan :

Crawlers

Web arsip yang mengandalkan web merangkak sebagai sarana utama mereka mengumpulkan Web dipengaruhi oleh kesulitan merangkak web:

Protokol pengecualian robot dapat meminta crawler tidak dapat mengakses bagian dari sebuah situs web. Beberapa arsiparis web dapat mengabaikan permintaan dan merangkak bagian-bagian pula.
Sebagian besar dari sebuah situs web mungkin tersembunyi di dalam Web. Misalnya, halaman hasil balik formulir web terletak pada Web dalam karena crawler paling tidak bisa mengikuti link ke halaman hasil.
Crawler perangkap (misalnya, kalender) dapat menyebabkan crawler untuk mendownload jumlah tak terbatas halaman, sehingga crawler biasanya dikonfigurasi untuk membatasi jumlah halaman dinamis mereka merangkak.

keterbatasan :

Beberapa server web yang dikonfigurasi untuk mengembalikan halaman yang berbeda untuk permintaan Pengarsip web dari mereka akan dalam menanggapi permintaan browser biasa. Hal ini biasanya dilakukan untuk mengelabui mesin pencari ke mengarahkan lalu lintas pengguna ke situs Web.
Tidak hanya harus web arsiparis menghadapi tantangan teknis web pengarsipan, mereka juga harus bersaing dengan hukum kekayaan intelektual.
Beberapa arsip web pribadi non-profit yang dibuat dapat diakses publik seperti WebCite, Internet Archive atau memori internet memungkinkan pemilik konten untuk menyembunyikan atau menghapus konten yang diarsipkan.

Kurasi web, seperti kurasi digital, memerlukan:

Sertifikasi dari kepercayaan dan integritas dari isi koleksi
Mengumpulkan aset Web diverifikasi
Menyediakan Web pencarian aset dan pengambilan
Semantik dan ontologis kontinuitas dan komparatif dari isi koleksi

Sebuah suite alat untuk Kurasi Web oleh Konsorsium Pelestarian Internet International :

situs resmi
mengumpulkan aset Web NutchWAX
pencarian Web arsip koleksi Wayback (Sumber Wayback Machine Terbuka)
pencarian dan navigasi koleksi arsip Web menggunakan NutchWax Web Kurator Alat
Seleksi dan Pengelolaan Koleksi Web

Lain sumber Peralatan terbuka untuk memanipulasi web arsip:

WARC Tools
untuk membuat, membaca, parsing dan memanipulasi, web arsip pemrograman
Pencarian
untuk mengindeks dan mencari teks lengkap dan metadata dalam web arsip.

Dari Diskusi diatas, didapat kesimpulan : Web Archive mempunyai peran yang sangat penting dalam mengumpulkan berbagai jenis konten web menggunakan Web Crawler dan memastikan bahwa kumpulan konten tersebut diawetkan dalam suatu arsip sebagai metadata/untuk menjaga keaslian dan asal dari koleksi arsip yang nantinya dapat diakses peneliti, sejarawan, dan masyarakat umum pada masa mendatang. semua itu bertujuan untuk memperoleh, melestarikan, dan menyediakan akses ke informasi historis yang dipublikasikan secara online.

Tugas VClass Softskill Pertemuan 2

NAMA: ARDHI RAMADHANI

NPM : 50419978

KELAS : 2IA14

MATKUL : Pengantar Web Science #

Soal :

1. Apa yang anda ketahui tentang Web Archiving

Jawab :

Web Archiving adalah proses mengumpulkan data yang telah direkam di World Wide Web, menyimpannya, memastikan data disimpan dalam arsip, dan membuat data yang dikumpulkan tersedia untuk penelitian masa depan. Web Archiving umumnya mengumpulkan berbagai jenis konten web termasuk halaman HTML Web, style sheet, JavaScript, gambar, dan video. Arsiparsi web menggunakan archive metadata untuk sumber daya yang dikumpulkan seperti access time, MIME type, dan content length. Metadata ini berguna dalam menjaga keaslian dan asal dari koleksi arsip.

2. Sebutkan dan Jelaskan serta berikan contoh cara kerja Web Archiving

Jawab :

Cara kerja Web Archiving :

Remote Harvesting
Merupakan cara yang plaing umum dalam web archiving dengan menggunkana teknik web crawlers yang secara otomatis melakukan proses pengumpulan halaman web. Metode yang digunakan web crawler untuk mengakses halaman web sama semeprti user mengakses halaman web menggunakan wob browser. Contoh web crawler yang digunakan dalam web archiving seperti :
> Heritrix
> HTTrack
> Wget
On-Demand
Ada banyak layanan yang dapat digunakan sebagai sumber archive web “on-demand”, menggunakan teknik web crawling. Contohnya seperti :
> Aleph Archives
> archive.is
> Archive-It
> Archivethe.net
> Compliance WatchDog by SiteQuest Technologies
> freezePAGE snapshots
Database Archiving
Databasa Archiving mengacu pada metode untuk menarsipkan konten database-driven websites. Hal ini biasanya memerlukan ekstraksi konten database ke standard schema, sering menggunakan XML. Setelah disimpan dalam format standar, konten yang diarsipkan dari beberapa databse dapat tersedia untuk diakses dengan menggunakan single access system. Motode ini digunkanan seprti pada DeepArc dan Xinq masiing masing dikembangkan oleh Bibliothèque nationale de France dan National Library of Australia.
Transactional archiving
Transactional archiving merupakan event-driven yang mengumpulkan transaksi yang berlangsung antara web server dan web browser. Hal ini terutama digunakan untuk menjamin keaslian dari isi suatu website, pada tanggal tertentu. Hal ini sangatlah penting untuk organisasi atau perusahaan yang perlu mematuhi persyaratan hukum atau peraturan untuk mengungkapkan dan mempertahankan informasi.

Ardhi Ramadhani

Minggu, 27 Juni 2021

Forum VClass Softskill Pertemuan 2

Sabtu, 26 Juni 2021

Tugas VClass Softskill Pertemuan 2

Postingan Populer