SEARCH ENGINE (WEB CRAWLER)

Proses web crawler dalam mengunjungi setiap dokumen web disebut dengan web crawling atau spidering. Beberapa websites, khususnya yang berhubungan dengan pencarian menggunakan proses spidering untuk memperbaharui data data mereka. Web crawler biasa digunakan untuk membuat salinan secara sebhagian atau keseluruhan halaman web yang telah dikunjunginya agar dapat dip roses lebih lanjut oleh system pengindexan. Crawler dapat juga digunakan untuk proses pemeliharaan sebuah website, seperti memvalidasi kode html sebuah web, dan crawler juga digunakan untuk memperoleh data yang khusus seperti mengumpulkan alamat e-mail.

Web crawler termasuk kedalam bagian software agent atau yang lebih dikenal dengan istilah program bot. Secara umum crawler memulai prosesnya dengan memberikan daftar sejumlah alamat website untuk dikunjungi, disebut sebagai seeds. Setiap kali sebuah halaman web dikunjungi, crawler akan mencari alamat yang lain yang terdapat didalamnya dan menambahkan kedalam daftar seeds sebelumnya.

SEJARAH

Archie : ditemukan tahun 1990 di Mc Gill University, Motreal. Diciptakan untuk mengindeks FTP (File Transfer Protocol) , membuat orang dapat mencari file yang mereka butuhkan.
Gopher : nama Gopher dipilih karena merupakan nama maskot dari University of Minnesota’s. Diciptakan pada tahun 1991 oleh Mark McCahill dan digunakan untuk mengindeks teks tertentu. Untuk mencari file yang telah terindeks di Gopher diperlukan dua program yaitu : Veronica (Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) dan Jughead (Jonzy’s Universal Gopher Hierarchy Excavation and Display).
Wandex : suatu mesin pencari dengan bentuk seperti yang sekarang kita kenal, dibangun oleh Matthew Gray di MIT pada 1993.
Akhir 90 dan awal tahun 2000 merupakan kebangkitan luar biasa dari search engine dimana bermunculan search engine, seperti Google , Yahoo , Altavista , Lycos, dll.

CARA KERJA

Mesin pencari web bekerja dengan cara menyimpan informasi tentang banyak halaman web, yang diambil langsung dari WWW. Halaman-halaman ini diambil dengan web crawler — browser web otomatis yang mengikuti setiap pranala yang dilihatnya. Isi setiap halaman lalu dianalisis untuk menentukan cara mengindeksnya (misalnya, kata-kata diambil dari judul, subjudul, atau field khusus yang disebut meta tag). Data tentang halaman web disimpan dalam sebuah database indeks untuk digunakan dalam pencarian selanjutnya.
Mesin pencari juga menyimpan dan memberikan informasi hasil pencarian berupa pranala yang merujuk pada file, seperti file audio, file video, gambar, foto dan sebagainya
Ketika seorang pengguna mengunjungi mesin pencari dan memasukkan query, biasanya dengan memasukkan kata kunci, mesin mencari indeks dan memberikan daftar halaman web yang paling sesuai dengan kriterianya

KOMPONEN

a. Web Crawler atau web spider

Mengumpulkan semua informasi yang ada di dalam halaman web
Bekerja secara otomatis dengan cara memberikan sejumlah alamat website untuk dikunjungi serta menyimpan semua informasi yang terkandung didalamnya
Membuat salinan secara sebhagian atau keseluruhan halaman web yang telah dikunjunginya agar dapat dip roses lebih lanjut oleh system pengindexan
Pemeliharaan sebuah website, seperti memvalidasi kode html sebuah web, dan crawler juga digunakan untuk memperoleh data yang khusus seperti mengumpulkan alamat e-mail.
Kemampuan web crawler untuk mengikuti perkembangan teknologi web, dimana setiap kali teknologi baru muncul, web crawler harus dapat menyesuaikan diri agar dapat mengunjungi halaman web yang menggunakan teknologi baru tersebut.
Proses sebuah web crawler untuk mendata link – link yang terdapat didalam sebuah halaman web menggunakan pendekatan regular expression

b. Indexing system

Menganalisa halaman web yang telah tersimpan sebelumnya dengan cara mengindeks setiap kemungkinan term yang terdapat di dalamnnya. Data term yang ditemukan disimpan dalam sebuah database indeks untuk digunakan dalam pencarian selanjutnya.
Mengumpulkan, memilah dan menyimpan data untuk memberikan kemudahan dalam pengaksesan informasi secara tepat dan akurat. Proses pengolahan halaman web agar dapat digunakan untuk proses pencarian berikutnya dinakamakan web indexing.
Tujuan dari penyimpanan data berupa indeks adalah untuk performansi dan kecepatan dalam menemukan informasi yang relevan berdasarkan inputan user

c. Search system

berhubungan langsung dengan pengguna, menyediakan hasil pencarian informasi yang diinginkan. Ketika seorang pengguna mengunjungi mesin pencari dan memasukkan kata kunci, search system akan mencari data dari indeks database, data yang cocok kemudian akan ditampilkan.

ARSITEKTUR

Web Crawler merupakan program yang pengumpul informasi yang hasilnya akandisimpan pada sebuah database. Sebuah web crawler akan berjalan menelusuri halaman web dan mengumpulkan dokumen-dokumen atau data-data di dalamnya. Selanjutnya web crawler akan membangun sebuah daftar indeks untuk memudahkan proses pencarian.

Crawler diawali dengan adanya daftar URL yang akan dikunjungi (seeds). Setelah crawler mengunjugi URL tersebut, kemudian mengidentifikasi semua hyperlink dari halaman itu dan menambahkan kembali ke dalam seeds (crawl frontier).

Setelah web crawler mengunjungi halaman-halaman web yang ditentukan di dalam seeds, maka web crawler membawa data-data yang dicari oleh user kemudian menyimpanya ke sebuah storage. Web crawler dapat dibuat untuk mencari informasi yang berhubungan dengan topik tertentu saja. Web crawler yang hanya mengumpulkan topik tertentu saja disebut dengan topical web crawler. Proses crawling merupakan proses dimana web crawler mengumpulkan data-data dari halaman web. Web crawler dimulai dengan sekumpulan URL, kemudian mendownload setiap halamannya, mendapatkan link dari setiap page yang dikunjungi kemudian mengulangi kembali proses crawling pada setiap link halaman tersebut.

Sistem aplikasi Web Crawler, seorang user akan berinteraksi dengan system melalui user interface. Dalam user interface tersebut, user akan diminta untuk melakukan kombinasi terhadap komputer rakitan sesuai dengan kebutuhannya kemudian sistem akan melakukan pencarian ke dalam database local komputer. Data yang tersedia di dalam database adalah data hasil sikronisasi dari proses crawling yang berjalan saat system sedang terhubung dengan internet pada waktu-waktu yang ditentukan sebelumnya. Ketika aplikasi edang menjalankan proses crawling, maka aplikasi akan melakukan sikronisasi data. Proses sinkronisasi akan menjalankan perintah crawling yang akan menjelajahi halaman-halaman website yang telah ditentukan dan hasilnya akan disimpan ke database komputer lokal. Proses ini akan mengecek ada tidaknya perubahan data yang tersedia di internet. Jika terdapat perubahan harga, maka sistem akan melakukan update terhadap barang yang mengalami perubahan tersebut. Ketika sudah tidak terhubung lagi dengan jaringan (offline), maka user akan mengakses database hasil sinkronisasi

TERAPAN

TeleportPro

WebCrawler ada banyak jenisnya beberapa yang populer adalah BlackWidow dan TeleportPro. Salah satu yang banyak digunakan adalah TeleportPro mengapa ? karena TeleportPro mempunyai banyak kelebihan dari software lainnya yang sejenis. TeleportPro adalah WebCrawler yang sangat cepat, flexibel dan mudah digunakan.
TeleportPro menggunakan algorithma khusus untuk mempercepat pencarian halaman web, mengidentifikasi dan mengklasifikasikan link, dan mendownload file. TeleportPro akan menjelajahi situs dan menyimpan semua informasi yang dibutuhkan, TeleportPro mencari file-file dan link yang belum ditemukan, ini berguna bila ingin mendownload situs secara berkala.
Dengan TeleportPro ini kita bisa browsing secara offline dan menghemat waktu online, mencari bahan artikel menggunakan TeleportPro merupakan cara efektif bagi seorang blogger, inilah alasan mengapa harus Belajar Internetdan TeleportPro.

Looksmart ( NASDAQ : LOOK ) adalah sebuah perusahaan periklanan online yang berbasis di San Francisco. Looksmart menyediakan produk iklan pencarian dan layanan kepada pengiklan teks, serta ditargetkan bayar per klik pencarian dan iklan kontekstual melalui Jaringan Iklan yang Cari. Untuk penerbit yang ingin membuat jaringan sendiri bermerek mereka iklan vertikal, Looksmart juga lisensi dan pengelolaan jaringan pencarian iklan menggunakan platform AdCenter nya. Looksmart adalah salah satu dari lima anggota pendiri Panel Pengukuran Klik IAB.

Kesepakatan dengan Microsoft

Menyadari sulitnya membangun merek yang berorientasi konsumen, Looksmart membangun sebuah strategi baru sekitar lisensi direktori pencarian untuk berbagai portal dan situs internet. Sebuah jumlah yang signifikan dari pendapatan Looksmart yang berasal dari kesepakatan lisensi yang menguntungkan dengan Microsoft , yang ditandatangani pada tahun 1998, untuk menyediakan layanan direktori dan daftar. Pada 1998-2001, Looksmart adalah sponsor bangga Sesame Street .

Penawaran Umum Perdana

Looksmart go public pada Agustus 1999, sebagai bagian dari ledakan teknologi luas di Silicon Valley . Saham mereka debut di US $ 12 per saham, dan mencapai tinggi lebih dari US $ 70 pada awal tahun 2000. Investor modal ventura Australia seperti kelompok CHAMP (melalui mereka dana Investasi Australia Mezzanine) membuat keuntungan yang sangat kuat pada pra-IPO investasi mereka.

Para Penurunan Pasar Iklan Online

Perusahaan ini terkena "kecelakaan tech" pada tahun 2000. Seperti dengan sisa industri, Looksmart kehilangan sejumlah besar pelanggan iklan besar yang mengalami kebangkrutan pada tahun 2000, dan dipaksa untuk mengurangi pengeluaran dan memberhentikan sejumlah besar staf pada awal 2001 untuk bertahan hidup.
Evan Thornley dan Ellery Tracey telah menjual saham setelah berakhirnya "lock-up" pada pejabat perusahaan setelah IPO, tapi ditunda Program penjualan saham mereka pada tahun 2000 setelah harga saham pergi di bawah harga IPO sebesar US $ 12. Mereka kembali Program penjualan saham mereka pada tahun 2004.

Tahun Kemudian dengan Microsoft (2001 - 2003)

Setelah pengurangan biaya besar di awal tahun 2001, perusahaan memilih untuk fokus pada hubungannya dengan Microsoft, dan khususnya, pengembangan bisnis daftar dibayar. Daftar Looksmart dan bisnis lisensi, baik didominasi oleh kontrak dengan Microsoft, dengan cepat menjadi sumber utama pendapatan. Pada tahun 2002, perusahaan ini menjadi menguntungkan.
Pada pertengahan tahun 2002 Evan Thornley mengumumkan niatnya untuk kembali ke Australia dan mengundurkan diri sebagai Chief Executive dan Peter Tomassi, Chief Product Officer perusahaan untuk menerima beasiswa Universitas Columbia. Pada saat itu, ada divisi di Dewan selama proses untuk menunjuk seorang CEO baru dan sebagai hasilnya 3 direksi mengundurkan diri dari Dewan pada tahun 2002, dan direksi baru yang ditunjuk.
Pada tahun 2002, Looksmart juga mengubah sebelumnya "mengirimkan situs" model di mana bisnis bisa membayar biaya untuk memiliki situs mereka terdaftar dalam direktori Looksmart, dan mengadopsi model bayar-per-klik. Hal ini menyebabkan langsung ke gugatan class action, yang telah dilunasi pada bulan September 2003 oleh Looksmart menawarkan klik gratis untuk bisnis website yang telah terdaftar di bawah sistem sebelumnya.
Sejumlah perusahaan internet, termasuk Looksmart, dipengaruhi oleh tindakan pemerintah negara bagian dan federal di Amerika Serikat terhadap situs perjudian internet. Semua mesin pencari utama yang terlibat dalam penyelidikan oleh AS Jaksa Agung, dan kemudian Looksmart dan semua mesin pencari utama lainnya setuju untuk berhenti menerima iklan teks dari perusahaan judi internet.

Setelah Microsoft

Pada akhir 2003, Microsoft mengumumkan bahwa mereka tidak akan memperbarui kontraknya dengan Looksmart, yang pada saat itu menyumbang lebih dari 70% dari pendapatan Looksmart itu. Sebagai hasil dari ketergantungan perusahaan pada pendapatan ini, skala besar pemecatan dan PHK terjadi, termasuk penutupan semua non-AS operasi, yang semuanya tidak menguntungkan.
Furl , didirikan oleh Mike Giles pada 2002, dibeli oleh Looksmart pada bulan September 2004 [1] .
Evan Thornley mundur sebagai Ketua Mei 2004 dan digantikan oleh Teresa Dial, seorang mantan CEO dari Wells Fargo. Pada bulan Mei 2005 Evan Thornley dan Tracey Ellery mengumumkan bahwa mereka tidak akan berdiri untuk pemilihan kembali kepada Dewan Direksi pada akhir masa jabatan mereka pada bulan Juni 2005.
Seorang CEO yang berbasis di AS baru, David Hills, diangkat pada Oktober 2004, dan menambahkan beberapa eksekutif baru dan berusaha untuk diversifikasi aliran pendapatan Looksmart sementara masih terus memposting kerugian serupa dengan yang dari era Thornley.
Looksmart mengakuisisi relawan dibangun direktori Zeal pada Oktober 2000, dan ditutup Zeal pada tanggal 28 Maret 2006.
Pada bulan Juni 2007, John Simonelli, petugas keuangan kepala, mengumumkan niatnya untuk mengundurkan diri atas penunjukan pengganti.
Pada bulan Juli 2007, Looksmart menjual crawler pencarian Grub untuk Wikia, Inc . ^[1] sebesar $ 50.000.

kesudahan

Pada tanggal 26 Juli 2007, CEO David Hills mengundurkan diri. Perusahaan mengatakan bahwa ia meninggalkan untuk memulai bisnis sendiri. Ketua Dewan Ted Barat diasumsikan tugas CEO interim.
Beberapa bangunan yang Looksmart rumah itu disewakan untuk MySpace pada akhir 2007. ^[2] Tanda Looksmart luar kantor telah dihapus pada Desember 2007 dan diganti dengan yang baru.

MSN Search

Mesin pencari ini merupakan mesin pencari pertama yang diciptakan oleh Microsoft dan diluncurkan pertama kali tahun 1998. MSN Search terdiri dari mesin, indeks, dan web crawler. Sejak diluncurkan, mesin pencari ini terus berkembang dan mengalami penyempurnaan. Pada November 2004, Microsoft melakukan upgrade terhadap mesin pencari ini dengan bekerja sama dengan Picsearch khusus untuk menampilkan hasil pencarian gambar.

Live Search

Pengembangan yang terus dilakukan oleh Microsoft menghasilkan keputusan untuk memisahkan mesin pencari dengan Windows Live. Pada akhirnya Microsoft mengubah nama mesin pencarinya menjadi Live Search, yang kemudian dikonsolidasikan dengan Microsoft adCenter. Reorganisasi yang dilakukan ini, menimbulkan banyak perubahan dalam kebijakan, misalnya menghentikan beberapa produk seperti Windows Live Expo, Live Search Macros, dan sebagainya.
Perubahan yang terus dilakukan Microsoft ini ternyata belum membuahkan hasil. Microsoft menyadari bahwa penggunaan brand name untuk produk mesin pencari sangatlah penting. Akhirnya untuk menciptakan indentitas baru, Microsoft menghadirkan suatu mesin pencari baru pada tanggal 3 Juni 2009, yang diberi nama Bing, kepada seluruh pengguna Internet di dunia

Google

Google muncul di akhir tahun 1997, dimana Google memasuki pasar yang telah diisi oleh para pesaing lain dalam penyediaan layanan mesin pencari, seperti Yahoo, Altavista, HotBot, Excite, InfoSeek dan Lycos, dimana perusahaan-perusahaan tersebut mengklaim sebagian perusahaan yang bergerak dalam bidang layanan pencarian di internet. Hingga akhirnya Google mampu menjadi sebagai penyedia mesin pencari yang cukup diperhitungkan di dunia.
Saat tingginya persaingan antar mesin pencari yang ada, namun mesin pencari lain tidak mampu menghentikan kesuksesan Google. Setelah Yahoo mampu pada posisi puncak di sekitar tahun 2000, Google mampu menerobos liga besar tersebut. sehingga Google dipandang sebagai mesin pencari yang utama seperti yang kita ketahui pada hari ini.

Ayu's Site

NO caption

Jumat, 02 Maret 2012

Search Engine