Cara Kerja Search Engine

April 09, 2018
Secara umum, cara kerja search engine dimulai dengan proses perangkat lunak Spider melakukan pencarian (crawling) di World Wide Web terhadap halaman-halaman baru untuk dikumpulkan dan ditambahkan ke indeks-indeks search engine tersebut. Selanjutnya, perangkat lunak Index menangkap apa saja yang disampaikan oleh spider.

Cara Kerja Search Engine
Ilustrasi Cara Kerja Search Engine

Seperti yang telah dijelaskan pada bagian sebelumnya, search engine terdiri atas perangkat lunak Spider, perangkat lunak Index, dan perangkat lunak Query. Spider berfungsi untuk melakukan pencarian halaman-halaman bare, kemudian menambahkannya ke indeks-indeks search engine. Spider tidak mengumpulkan gambar, melainkan hanya mengumpulkan link dan URL. Perangkat lunak Index kemudian menangkap atau menerima apa saja yang sudah dikumpulkan oleh Spider.

Index memaknai sekumpulan teks, link, dan URL dengan menggunakan algoritma, yaitu suatu rumusan matematika yang kompleks yang dapat melakukan indeks terhadap kata-kata, frasa, dan kalimat. Pada dasarnya, algoritma tersebut melakukan analisa terhadap halaman-halaman dan semua link untuk kombinasi kata dan memberikan nilai yang memungkinkan search engine untuk melakukan penilaian seberapa penting halaman atau URL tersebut untuk dicari oleh para pengguna internet. Perangkat lunak Query adalah bentuk search engine yang secara fisik dapat kita lihat dalam tampilan kotak sederhana tempat kita mengetikkan kata kunci yang digunakan untuk mencari informasi yang diperlukan. Meski sederhana, Query mempunyai kemampuan melakukan pencarian yang luar biasa. Bagian ini bertugas melakukan pengecekan record-record yang sudah dibuat dengan menggunakan perangkat lunak Index.

Kata-kata yang digunakan untuk melakukan pencarian melalui search engine disebut sebagai kata kunci atau key word. Kata kunci akan menentukan hasil pencarian yang kemudian akan ditampilkan dalam bentuk daftar berdasarkan tingkat kepentingan dan popularitas masing-masing link atau URL. Alat untuk memaksimalkan pencarian dengan menggunakan kata kunci disebut sebagai search engine optimizers. Penggunaan kata kunci dalam website kita akan membuat URL web kita berhasil dicari oleh banyak orang. Hal tersebut tentu membawa dampak yang positif bagi perkembangan website kita karena jika website kita tidak pernah dikunjungi orang maka bisa dipastikan bisnis di internet kita gagal atau mungkin juga bangkrut.

Cara Kerja Teknis Search Engine


Cara Kerja Teknis Search Engine
Ilustrasi Cara Kerja Teknis Search Enginee

Search engine mencocokkan hasil pencarian (queries) dengan indeks yang mereka buat. Indeks tersebut terdiri atas kata-kata di masing-masing dokumen dengan ditambah penunjuk (pointers) ke lokasi-lokasi tertentu dalam dokumen tersebut. Dokumen tersebut disebut file yang diinversi (inverted file). Suatu search engine atau disebut IR system terdiri atas empat modul esensial, yaitu:

Pemroses dokumen (a document processor)
Pemroses pencarian (a query processor)
Fungsi pencarian dan pencocokkan (a search and matching function)
Kemampuan membuat ranking (a ranking capability)

Pada saat pengguna berfokus pada pencarian atau melakukan searching maka fungsi pencarian dan pencocokkan (the search and matching function) hanya merupakan salah satu bagian dari empat modul di atas. Masing-masing dari keempat modul tersebut dapat memberi hasil-hasil sesuai dengan yang dimaksud pengguna ketika mereka menggunakan search engine sebagai alat untuk melakukan pencarian informasi. Bagian berikut ini akan membahas satu persatu ke empat modul di atas.

Pemroses Dokumen

Pemroses dokumen mempersiapkan, memroses, dan memasuk-kan dokumen, halaman-halaman, atau situs-situs (URL) yang dicari oleh pengguna. Pemroses dokumen melakukan langkah-langkah di antaranya:


  1. Menormalisasi alur dokumen ke dalam format yang sudah didefinisikan terlebih dahulu.
  2. Memecah-mecah alur dokumen ke dalam unit-unit yang dapat dikeluarkan sesuai dengan keinginan.
  3. Melakukan isolasi dan membuat potongan-potongan sub-dokumen metatags.
  4. Melakukan identifikasi elemen-elemen yang berpotensi untuk dapat diindeks dalam dokumen-dokumen.
  5. Menghapus kata-kata penghenti (stop words).
  6. Membuat kata dasar istilah-istilah (stems terms).
  7. Melakukan ekstrak masukan-masukan ke indeks.
  8. Menghitung bobot.
  9. Menciptakan dan melakukan update file inverse utama yang dicari oleh search engine untuk mencocokkan pencarian dengan dokumen.


Langkah 1-3:
Pra-pemrosesan. Untuk memperoleh hasil pencarian yang maksimal, maka tiga langkah pertama ini hanya melakukan standarisasi format-format yang diketemukan saat menurunkan dokumen-dokumen dari berbagai sumber atau menangani berbagai situs. Langkah-langkah ini berfungsi untuk meleburkan data ke dalam struktur data yang konsisten dimana semua proses downstream dapat tertangani. Kebutuhan adanya format yang konsisten dan berbentuk baik penting dalam kaitannya dengan proporsi langsung ke tingkat langkah yang lebih remit berikutnya pada pemrosesan dokumen. Langkah kedua penting karena semua penunjuk (pointers) yang disimpan ke dalam file inversi akan memungkinkan terciptanya suatu sistem yang dipergunakan untuk mengeluarkan unit-unit dalam berbagai ukuran, misalnya situs, halaman, dokumen, potongan, paragraf, atau kalimat.

Langkah 4:
Melakukan identifikasi elemen-elemen ke dalam indeks. Melakukan identifikasi semua elemen yang potensial untuk diindeks dalam dokumen yang akan mempengaruhi sifat dan kualitas representasi dokumen dimana search engine tersebut melakukan pencariannya. Dalam membuat desain suatu sistem. Kita hams membuat definisi kata "istilah". Apakah istilah merupakan karakter-karakter alpha-numeric antara spasi atau tanda baca. Jika ya bagaimana dengan frasa-frasa yang bukan komposisional dimana frasa-frasa merupakan kata-kata yang terpisah yang tidak mempunyai makna, misalnya seperti "skunk work? atau "hot dog', atau simbol-simbol inter-kata, seperti tanda hubung (-) atau tanda petik satu 0 yang dapat menunjukkan perbedaan antara "small business men" versus "small-business men." Masing-masing search engine tergantung pada seperangkat aturan dimana pemroses dokumen hams melaksanakan tindakan apa yang akan diambil oleh "tokenizer," (perangkat lunak yang digunakan untuk mendefinisikan suatu istilah yang sesuai untuk melakukan proses indeks).

Langkah 5: 
Menghapus kata-kata penghenti (stop words). Langkah ini membantu menyimpan sumber daya sistem dengan menghilangkan dari pemrosesan selanjutnya dan pencocokan potensial. Istilah-istilah tersebut mempunyai nilai kecil dalam menemukan dokumen-dokumen yang bermanfaat sebagai tanggapan terhadap pencarian yang dilakukan oleh pengguna search engine. Kata-kata penghenti dapat berjumlah sampai dengan 40 dari kata teks dalam suatu dokumen, maka kata tersebut tetap masih mempunyai kepentingan tertentu. Daftar kata-kata penghenti terdiri atas semua kelas kata yang diketahui membawa makna kecil, misalnya artikel (a, the), kata penghubung (and, but), kata sera (oh, but), preposisi (in, over), kata pengganti orang (he, it), kata-kata "to be" verb (is, are). Untuk menghentikan kata-kata ini, algoritma membandingkan calon-calon istilah yang diindeks dalam suatu dokumen serta menghilang-kan istilah-istilah tertentu dari indeks pencarian.

Step 6:
Pembentukan kata dasar istilah (stemming term). Pembentukan kata dasar akan menghilangkan kata-kata penambahan (suffixes). Tujuannya adalah: efisiensi untuk mengurangi jumlah kata dan mempercepat proses pencarian. Sebagai contoh kata-kata analysis, analyzing, analyzer, analyzes, dan analyzed.

Istilah dokumen stern adalah analy- maka search engine akan mencari kata yang mengandung kata dasar tersebut.

Langkah 7:
Mengeluarkan entri indeks. Setelah selesai langkah-langkah 1-6, pemroses dokumen mengeluarkan entri yang tersisa dari dokumen aslinya. Di bawah ini merupakan contoh pencarian paragraf:

"Milosevic's comments, carried by the official news agency Tanjug, cast doubt over the  governments at the talks, which the international community has called to try to prevent an all-out war in the Serbian province. "President Milosevic said it was well known that Serbia and Yugoslavia were firmly committed to resolving problems in Kosovo, which is an integral part of Serbia, peacefully in Serbia with the participation of the representatives of all ethnic communities," Tanjug said Milosevic was speaking during a meeting with British Foreign Secretary Robin Cook, who delivered an ultimatum to attend negotiations in a week's time on an autonomy proposal for Kosovo with ethnic Albanian leaders from the province. Cook earlier told a conference that Milosevic had agreed to study the proposal."
Langkah 1 hingga 6 mengurangi teks dalam pencarian menjadi sebagai berikut:
"Milosevic comm carri offic new agen Tanjug cast doubt govern talk interna commun call try prevent all-out war Serb province President Milosevic said well known Serbia Yugoslavia firm commit resolv problem Kosovo integr part Serbia peace Serbia partkip representa ethnic commun Tanjug said Milosevic speak meeti British Foreign Secretaiy Robin Cook deliver ultimat attend negoti week time autonomy propos Kosovo ethnic Alban lead province Cook earl told conference Milosevic agree study propos. 
The output of step 7 is then inserted and stored in an inverted file that lists the index entries and an indication of their position and frequency of occurrence. The specific nature of the index entries, however, will vary based on the decision in Step 4 concerning what constitutes an "indexable term." More sophisticated document processors will have phrase recognizers, as well as Named Entity recognizers and Categorize's, to insure index entries such as Milosevic are tagged as a Person and entries such as Yugoslavia and Serbia as Countries."

Step 8:
Tugas pembobotan istilah. Pembobotan dilaksanakan oleh file indeks dengan menggunakan pembobotan biner berupa: angka 1 ada dan angka 0 tidak ada.

Step 9:
Membuat indeks. Indeks atau disebut juga sebagai file yang diinversi merupakan struktur data internal yang menyimpan informasi indeks dan yang akan dicari untuk masing-masing pencarian. File tersebut berkisar dari daftar yang sederhana untuk setiap urutan alpha-numeric dalam perangkat dokumen atau halaman-halaman yang sedang diindeks sesuai dengan seluruh angka identifikasi di dokumen-dokumen dimana urutan terjadi sampai ke yang kompleks secara kebahasaan. Semakin lengkap informasi dalam indeks, semakin baik hasil pencarian.

Pemrosesan Pencarian (Query)



Pemrosesan pencarian mempunyai tujuh tahap sebagai berikut:

Langkah 1:
Tokenizing. Search engine membuat token / tanda pada alur pencarian, yaitu memecah ke dalam segmen yang dapat dipahami dengan menandai sebagai alpha-numeric string yang ada antara spasi dan / atau tanda baca.

Langkah 2:
Penguraian Kalimat (Parsing). Karena pengguna menggunakan operator khusus dalam pencarian, termasuk Boolean, operator kedekatan (adjacency, atau proximity operators), maka sistem memerlukan penguraian dalam pencarian tersebut. Operator mungkin menggunakan bentuk tanda kutip, dan / atau.

Langkah 3 dan 4:
Daftar Penghentian dan Pembentukan kata Dasar (Stop list and stemming). Search engine tertentu akan melanjutkan pencarian dan menggantikan daftar kemudian melakukan stemming pencarian, mirip dengan semua proses di atas dalam bagian pemrosesan dokumen.

Step 5:
Menciptakan hasil pencarian. Bagaimana masing-masing search engine menciptakan representasi pencarian tergantung pada bagaimana sistem melakukan pencocokan. Jika meng-gunakan metode statistik, maka hasil pencarain dengan meng-gunakan representasi statistik yang akan digunakan. Jika metode Boolean yang digunakan maka sistem akan menciptakan perang-kat logic istilah yang dihubungkan dengan kata AND, OR, atau NOT.

Step 6:
Perluasan hasil pencarian. Karena pengguna search engine biasanya menggunakan hanya satu pernyataan dalam pencarian informasi yang mereka butuhkan. Oleh karena itu sangat memungkinkan menggunakan kata-kata sinonim dari pada istilah yang tepat. Oleh karena itu, maka sistem akan memperluas ke dalam pencarian menggunakan sinonim kata.

Langkah 7:
Pembobotan istilah hasil pencarian (Query term weighting) Langkah akhir dalam pemrosesan hasil pencarian mencakup menghitung bobot istilah dalam hasil pencarian. Kadang pengguna mengontrol langkah ini dengan menunjukkan bagaimana cara menghitung bobot masing-masing istilah atau hanya menampilkan kata atau istilah yang sering muncul atau sering digunakan dalam pencarian untuk meyakinkan relevansinya.

Beberapa search engine merealisasikan pembobotan didasarkan pada sistem, tetapi search engine lain melakukan pembobotan secara tidak langsung dengan melakukan hasil pencarian per-tama yang mempunyai tingkat kepentingan lebih tinggi.

Fungsi Pencarian Dan Pencocokan

Bagaimana sistem melakukan fungsi pencarian dan pencocokan sesuai dengan model teoritis penarikan informasi yang melandasi filsafat perancangan sistem. Berikut adalah uraiannya secara umum:


  • Mencari file yang diinversi untuk dokumen yang sesuai dengan persyaratan hasil pencarian disebut sebagai "cocok" atau matching yang merupakan pencarian biner standar tanpa mempertimbangkan apakah pencarian berakhir dalam tahapan tertentu.
  • Setelah ditentukan subset dokumen atau halaman yang cocok dengan persyaratan hasil pencarian maka nilai yang mirip kemudian akan dihitung antara hasil pencarian dan masing-masing dokumen atau halaman berdasarkan algoritma penilaian yang digunakan oleh sistem. Penilaian didasarkan pada ada atau tidak adanya istilah hasil pencarian, frekuensi munculnya istilah, pemenuhan logika Boolean, atau pembobotan istilah hasil pencarian.
  • Selanjutnya sistem akan menghadirkan daftar urutan hasil pencarian kepada pengguna berdasarkan pembobotan.
  • Search engine menentukan ranking yang kemudian daftar ranking hasil pencarian diberikan kepada pengguna.
  • Sistem yang canggih akan melanjutkan ke langkah di mana pengguna dimungkinkan untuk memberikan umpan balik mengenai hasil pencarian.

Karakteristik Kecocokan Hasil Pencarian

Beberapa karakteristik kecocokan hasil pencarian antara lain:

  • Frekuensi Munculnya Istilah: Tingkat kecocokan/relevansi salah satunya dinilai berdasarkan frekuensi kemunculan istilah yang dicari oleh pengguna.
  • Lokasi istilah: Banyak search engine lebih mengutamakan kata-kata yang ditemukan dalam judul atau paragraf utama atau di meta data suatu dokumen.
  • Analisis Link/Link Analysis: Beberapa search engine menekankan pada analisis link yang bekerja seperti cara mengutip daftar pustaka berdasarkan bobot dan ranking.
  • Popularitas: Google dan beberapa search engine lain menambahkan faktor popularitas untuk menentukan kecocokan nilai halaman. Popularitas berkaitan dengan sering atau tidaknya link atau halaman tersebut dicari orang.
  • Tanggal Publikasi: Beberapa search engine menekankan pada dokumen-dokumen terbaru dibanding yang lama.
  • Panjang Pendeknya Dokumen yang Dicari: Kecocokan juga dipertimbangkan oleh search engine berdasarkan panjang pendeknya dokumen yang dicari.
  • Kedekatan Istilah: Search engine juga mempertimbangkan kedekatan istilah yang digunakan untuk mencari informasi tertentu maka penggunaan istilah yang tepat sangat menentukan hasil pencarian. Search engine menampilkan informasi yang paling dekat dengan istilah yang digunakan oleh pengguna.
  • Penggunaan Kata Benda yang Tepat: Penggunaan kata benda yang tepat akan dipertimbangkan oleh search engine dalam menentukan kecocokan basil pencarian.

Share this

Related Posts

Previous
Next Post »