Pengantar Information Retrieval


Information Retrieval adalah "Studi tentang sistem pengindeksan, pencarian, dan mengingat data, khususnya teks atau bentuk tidak terstruktur lainnya."

Definisi

“Information Retrieval adalah seni dan ilmu mencari informasi dalam dokumen, mencari dokumen itu sendiri, mencari metadata yang menjelaskan dokumen, atau mencari dalam database, apakah relasional database itu berdiri sendiri atau database hypertext jaringan seperti Internet atau intranet, untuk teks , suara, gambar, atau data “, (virtechseo.com).

Information Retrieval adalah ilmu yang beririsan antara bidang ilmu informasi dan ilmu komputer.  IR Berkutat dengan pengindeksan dan pengambilan informasi dari sumber informasi heterogen dan sebagian besar-tekstual. Istilah ini diciptakan oleh Mooers pada tahun 1951, yang menganjurkan bahwa diterapkan ke “aspek intelektual” deskripsi informasi dan sistem untuk pencarian (Mooers, 1951). “

Sejarah Information Retrieval

Sejarah panjang Information Retrieval tidak dimulai pada internet. Hanya dalam dekade terakhir dan setengah dari jurnal – jurnal elektornik (IEEE) dalam pencariannya di web meluas dan pencariannya telah diintegrasikan ke sistem desktop dan sistem operasi mobile. Sebelum digunakan oleh masyarakat luas di kehidupan sehari-hari dalam mesin pencari, sistem IR ditemukan dalam aplikasi komersial dan intelijen sekitar pada tahun 1960-an. Sistem pencarian berbasis komputer awal dibangun di akhir 1940-an dan terinspirasi oleh perintis inovasi dalam awal pertengahan abad ke-20. Sebagaimana pada teknologi komputer, kemampuan sistem retrieval tumbuh dengan pesat pada sektor kecepatan prosesor dan kapasitas penyimpanan. Pengembangan sistem tersebut juga mencerminkan perkembangan cepat dari pendekatan berbasis perpustakaan manual, pengindeksan, dan mencari informasi dengan metode yang semakin otomatis. Sebuah sistem information retrieval (IR) menempatkan informasi yang relevan dengan permintaan pengguna. Sebuah sistem IR biasanya mencari di koleksi data tidak terstruktur atau semi-terstruktur (misalnya halaman web, dokumen, gambar, video, dll). Kebutuhan untuk sistem IR terjadi ketika koleksi mencapai ukuran dimana katalog dengan teknik tradisional tidak bisa lagi mengatasi. Mirip dengan hukum Moore yang terus-menerus meningkatkan kecepatan prosesor, telah terjadi penggandaan konsisten dalam kapasitas penyimpanan digital setiap dua tahun. Jumlah bit informasi dikemas ke dalam inch persegi permukaan hard drive tumbuh dari 2.000 bit di 1.956-100.000.000.000 bit pada tahun 2005. Dengan pertumbuhan informasi digital tidak terstruktur, melalui jaringan dengan kecepatan tinggi, akses cepat global dalam jumlah besar dari informasi itu, satu-satunya solusi yang layak untuk mencari item relevan dari database text yang berjumlah besar itu adalah sistem pencarian dan sistem IR tersebar dimana – mana. ulasan singkat pengerjaan ini di masa lalu berfokus pada algoritma yang mengambil permintaan pengguna dan mengambil satu set yang relevan dokumen. Ulasan diatas merupakan perkembangan awal elektro-mekanik dan komputasi perangkat yang menggunakan katalog untuk mencari secara manual. Ini diikuti tentang bagaimana IR pindah ke pengindeksan kata-kata secara otomatis dalam teks dan bagaimana kompleks bahasa query Boolean berubah menjadi query dengan teks sederhana.

Tujuan Information Retrieval

Information retrieval atau Sistem temu balik adalah menemukan(biasanya dokumen) dari sebuah ketidakstrukturan yang alami(biasanya teks) untuk memenuhi sebuah kebutuhan informasi dari koleksi yang berukuran besar(biasanya disimpan pada komputer). Sistem information retrieval atau sistem temu balik informasi bertujuan untuk mencukupi kebutuhan informasi pengguna dengan sumber informasi yang tersedia sesuai dengan situasi. Penulis mempresentasikan ide dan pikiran mereka ke dalam sebuah dokumen, pencari dokumen mencari sebuah dokumen di dalam sekumpulan dokumen dimana pencari tersebut tidak mengetahui dengan pasti bagaimana cara menemukan dan mengenali dokumen yang tepat sesuai dengan kebutuhannya, sistem temu balik informasi mempertemukan ide yang ditulis penulis tersebut dengan kebutuhan informasi yang dibutuhkan oleh pencari dokumen tersebut yang dinyatakan kedalam pernyataan (query).

----

Menurut Hersh (2003), Secara prinsip, penyimpanan informasi dan penemuan kembali informasi adalah hal yang sederhana. Misalkan terdapat tempat penyimpanan dokumen-dokumen dan seseorang (user) merumuskan suatu pertanyaan (request atau query) yang jawabannya adalah himpunan dokumen yang mengandung informasi yang diperlukan yang diekspresikan melalui pertanyaan user. User bisa saja memperoleh dokumen-dokumen yang diperlukannya dengan membaca semua dokumen dalam tempat penyimpanan, menyimpan dokumen-dokumen yang relevan dan membuang dokumen lainnya. Hal ini merupakan perfect retrieval, tetapi solusi ini tidak praktis. Karena user tidak memiliki waktu atau tidak ingin menghabiskan waktunya untuk membaca seluruh koleksi dokumen, terlepas dari kenyataan bahwa secara fisik user tidak mungkin dapat melakukannya.

Information Retrieval merupakan bagian dari computer science yang berhubungan dengan pengambilan informasi dari dokumen-dokumen yang didasarkan pada isi dan konteks dari dokumen-dokumen itu sendiri. Information Retrieval merupakan suatu pencarian informasi (biasanya berupa dokumen) yang didasarkan pada suatu query (inputan user) yang diharapkan dapat memenuhi keinginan user dari kumpulan dokumen yang ada. Sedangkan, definisi query dalam Information Retrieval menurut referensi merupakan sebuah formula yang digunakan untuk mencari informasi yang dibutuhkan oleh user, dalam bentuk yang paling sederhana, sebuah query merupakan suatu keywords (kata kunci) dan dokumen yang mengandung keywords merupakan dokumen yang dicari dalam IRS.

Proses yang terjadi di dalam Information Retrieval System terdiri dari 2 bagian utama, yaitu Indexing subsystem, dan Searching subsystem (matching system). Proses indexing dilakukan untuk membentuk basisdata terhadap koleksi dokumen yang dimasukkan, atau dengan kata lain, indexing merupakan proses persiapan yang dilakukan terhadap dokumen sehingga dokumen siap untuk diproses. Proses indexing sendiri meliputi 2 proses, yaitu document indexing dan term indexing. Dari term indexing akan dihasilkan koleksi kata yang akan digunakan untuk meningkatkan performansi pencarian pada tahap selanjutnya.

Tahap-tahap yang terjadi pada proses indexing ialah:

  1. Word Token, yaitu mengubah dokumen menjadi kumpulan term dengan cara menghapus semua karakter dalam tanda baca yang terdapat pada dokumen dan mengubah kumpulan term menjadi lowercase.
  2. Stopword Removal. Proses penghapusan kata-kata yang sering ditampilkan dalam dokumen seperti: and, or, not dan sebagainya.
  3. Stemming. Proses mengubah suatu kata bentukan menjadi kata dasar.
  4. Term Weighting. Proses pembobotan setiap term di dalam dokumen.

 

Ada 3 (tiga) jenis Model Information Retrival (IR), yaitu :

  1. Model Boolean : merupakan model IR sederhana yang berdasarkan atas teori himpunan dan aljabar boolean
  2. Model Vector Space : merupakan model IR yang merepresentasikan dokumen dan query dalam bentuk vektor dimensional
  3. Model Probabilistic : merupakan model IR yang menggunakan framework probabilistik

Model ruang vektor dan model probabilistik adalah model yang menggunakan pembobotan kata dan perangkingan dokumen. Hasil retrieval yang didapat dari model-model ini adalah dokumen terangking yang dianggap paling relevan terhadap query.

Dalam model ruang vektor, dokumen dan query direpresentasikan sebagai vektor dalam dalam ruang vektor yang disusun dalam indeks term, kemudian dimodelkan dengan persamaan geometri. Sedangkan model probabilistik membuat asumsi-asumsi distribusi term dalam dokumen relevan dan tidak relevan dalam orde estimasi kemungkinan relevansi suatu dokumen terhadap suatu query.