Tổng Quan Và Hệ Thống Search Engine

September 20, 2010
1. Các b phn cu thành h thng search engine
1.1 B thu thp thông tin – Robot
Robot là mt chương trình t đng duyt qua các cu trúc siêu liên kết đ thu thp tài liu & mt cách đ quy nó nhn v tt c tài liu có liên kết vi tài liu này. Robot được biết đến dưới nhiu tên gi khác nhau : spider, web wanderer hoc web worm,… Nhng tên gi này đôi khi gây nhm ln, như t ‘spider’, ‘wanderer’ làm người ta nghĩ rng robot t nó di chuyn và t ‘worm’ làm người ta liên tưởng đến virus. V bn cht robot ch là mt chương trình duyt và thu thp thông tin t các site theo đúng giao thc web. Nhng trình duyt thông thường không được xem là robot do thiếu tính ch đng, chúng ch duyt web khi có s tác đng ca con người.
1.2 B lp ch mc – Index
H thng lp ch mc hay còn gi là h thng phân tích và x lý d liu, thc hin vic phân tích, trích chn nhng thông tin cn thiết (thường là các t đơn , tghép , cm t quan  trng) t nhng d liu mà robot thu thp được và t chc thành cơ s d liu riêng đ có th tìm kiếm trên đó mt cách nhanh chóng, hiu qu. H thng ch mc là danh sách các t khoá, ch rõ các t khoá nào xut hin trang nào, đa chnào. Tìm hiu v Search Engine và xây dng ng dng minh ho cho Search Engine tiếng Vit
1.3 B tìm kiếm thông tin – Search Engine
Search engine là cm t dùng ch toàn b h thng bao gm b thu thp thông tin, b lp ch mc & b tìm kiếm thông tin. Các b này hot đng liên tc t lúc khi đng h thng, chúng ph thuc ln nhau v mt d liu nhưng đc lp vi nhau về mt hot đng. Search engine tương tác vi user thông qua giao din web, có nhim v tiếp nhn & tr v nhng tài liu tho yêu cu ca user. Nói nôm na, tìm kiếm t là tìm kiếm các trang mà nhng t trong câu truy vn (query) xut hin nhiu nht, ngoi tr stopword (các t quá thông dng như mo t a, an, the,…). Mt t càng xut hin nhiu trong mt trang thì trang đó càng được chn đ tr v cho người dùng. Và mt trang cha tt c các t trong câu truy vn thì tt hơn
là mt trang không cha mt hoc mt s t. Ngày nay, hu hết các search engine đu h tr chc năng tìm cơ bn và nâng cao, tìm t đơn, t ghép, cm t, danh t riêng, hay gii hn phm vi tìm kiếm như trên đ mc, tiêu đ, đon văn bn gii thiu vtrang web,….. Ngoài chiến lược tìm chính xác theo t khoá, các search engine còn c gng ‘hiu ‘ ý nghĩa thc s ca câu hi thông qua nhng câu ch do người dùng cung cp. Điu này được th hin qua chc năng sa li chính t, tìm c nhng hình thc biến đi khác nhau ca mt t. Ví d : search engine s tìm nhng t như speaker, speaking, spoke khi người dùng nhp vào t speak.
2. Nguyên lý hot đng
Search engine điu khin robot đi thu thp thông tin trên mng thông qua các siêu liên kết ( hyperlink ). Khi robot phát hin ra mt site mi, nó gi tài liu (web Tìm hiu v Search Engine và xây dng ng dng minh ho cho Search Engine tiếng Vit page) v cho server chính đ to cơ s d liu ch mc phc v cho nhu cu tìm kiếm thông tin.
Bi vì thông tin trên mng luôn thay đi nên robot phi liên tc cp nht các site cũ. Mt đ cp nht ph thuc vào tng h thng search engine. Khi search engine nhn câu truy vn t user, nó s tiến hành phân tích, tìm trong cơ s d liu ch mc & tr v nhng tài liu tho y
Sưu tầm : Pogo Game

Share this

Related Posts

Previous
Next Post »