Bộ THu Thập Thông Tin

September 20, 2010
1. ng dng ca Robot
Robot thường được s dng cho nhng mc đích sau :
1.1 Phân tích, thng kê – Statistical Analysis
Robot đu tiên được dùng đ đếm s lượng web server, s tài liu trung bình ca mt server, t l các dng file khác nhau, kích thước trung bình ca mt trang web, đ kết dính, …
1.2 Duy trì siêu liên kế - Maintenance
Mt trong nhng khó khăn ca vic duy trì mt siêu liên kết là nó liên kết vi nhng trang b hng (dead links) khi nhng trang này b thay đi hoc thm chí b xóa. Tht không may vn chưa có cơ chế nào cnh báo các b duy trì v s thay đi này.  Trên thc tế khi các tác gi nhn ra tài liu ca mình cha nhng liên kết hng, h sthông báo cho nhau, hoc thnh thong đc gi thông báo cho h bng email. Mt s robot, chng hn MOMspider có th tr giúp tác gi phát hin các liên kết hng cũng như duy trì các cu trúc siêu liên kết cùng ni dung ca mt trang web. Chc năng này lp li liên tc mi khi mt tài liu được cp nht, nh đó mi vn đxy ra s được gii quyết nhanh chóng.
1.3 Ánh x đa ch web - Mirroring
Mirroring là mt k thut ph biến trong vic duy trì các kho d liu ca FPT. Mt ánh x (mirror) s sao chép toàn b cu trúc cây thư mc và thường xuyên cp nht nhng file b thay đi. Điu này cho phép nhiu người cùng truy xut mt ngun d liu, gim s liên kết b tht bi, nhanh hơn và ít chi phí hơn so vi truy cp trc tiếp vào site thc s cha các d liu này.
1.4 Phát hin tài nguyên – Resource Discovery
Có l ng dng thú v nht ca robot là dùng nó đ phát hin tài nguyên. Con người không th kim soát ni mt khi lượng thông tin khng l trong môi trường mng. Robot s giúp thu thp tài liu, to và duy trì cơ s d liu, phát hin và xoá bcác liên kết hng nếu có, kết hp vi công c tìm kiếm cung cp thông tin cn thiết cho con người.
1.5 Kết hp các công dng trên- Combined uses
Mt robot có th đm nhn nhiu chc năng. Ví d RBSE Spider [4] va thng kê s lượng tài liu thu được va to cơ s d liu. Tuy nhiên nhng ng dng như thế còn khá ít i.
2. Robot ch mc – Robot Indexing
Trong quá trình thu thp thông tin phc v cho b lp ch mc, ta cn gii quyết nhng vn đ sau :
Mt là : Trong môi trường mng, robot ly thông tin t các site. Vy robot s bt đu t site nào ? Điu này hoàn toàn ph thuc vào robot. Mi robot khác nhau scó nhng chiến lược khác nhau. Thường thì robot s viếng thăm các site ph biến hoc nhng site có nhiu liên kết dn đến nó.
Hai là : Ai s cung cp đa ch ca các site này cho robot ?
Có 2 ngun :
Robot nhn các URL ban đu t user.
Robot phân tích các trang web đ ly các URL mi, đến lượt các URL này trthành đa ch đu vào cho robot. Quá trình này được lp li liên tc.
Ba là : Chn d liu nào trong tài liu đ lp ch mc ?
Quyết đnh chn d liu nào trong tài liu cũng hoàn toàn ph thuc vào robot, thường thì nhng t được lit kê như sau được xem là quan trng :
  góc cao ca tài liu.
 Trong các đ mc
 Được in đm (inktomi)
 Trong URL.
 Trong tiêu đ (quan trng)
 Trong phn miêu t trang web (description) .
 Trong các th dành cho hình nh (ALT graphisc).
 Trong các th cha t khóa.
 Trong các text liên kết.
Mt s robot lp ch mc trên tiêu đ, hoc mt s đon văn bn đu tiên hoc toàn b tài liu (full text). Mt s khác li lp ch mc trên các th META(META tags) hoc các th n, nh vy tác gi ca trang web được quyn n đnh t khoá cho tài liu ca mình. Tuy nhiên chc năng này b lm dng quá nhiu do đó các th META không còn gi được giá tr ban đu ca chúng na.
3. Các chiến thut thu thp d liu [II.1]
Trước khi các trang web được đánh ch mc, tt c các trang web phi được ly v máy ca robot. Đ ly được tt c các trang web, robot phi có chiến thut. T mt s trang web có sn, robot lc ra danh sách các liên kết, ri t đó dò tìm các trang khác. Có 3 chiến thut tìm kiếm Heuristic sau : tìm kiếm theo chiu sâu, tìm kiếm theo chiu rng và tìm kiếm ngu nhiên.
3.1 Chiến thut tìm kiếm theo chiu sâu
T mt danh sách cha các liên kết cn duyt, thc hin các bước sau :
(1) Cho danh sách = {trang đu tiên}
(2) Ly trang đu tiên trong danh sách.
Nếu có qua (3)
Nếu không qua (5)
(3) Trang này đã xét ti chưa ?
Nếu ri, quay li (2)
Nếu chưa, qua (4)
(4) Đánh du đã ti ri. Phân tích và tìm xem liên kết có trong trang đó không?
(4a) Nếu có, thêm liên kết này vào đu danh sách. Quay li (4)
(4b) Nếu không, quay li (2).
(5) Kết thúc.
3.2 Chiến thut tìm kiếm theo chiu rng
T mt danh sách cha các liên kết cn duyt, thc hin các bước sau :
(1) Cho danh sách = {trang đu tiên}
(2) Ly trang đu tiên trong danh sách.
Nếu có qua (3)
Nếu không qua (5)
(3) Trang này đã xét ti chưa ?
Nếu ri, quay li (2)
Nếu chưa, qua (4)
(4) Đánh du đã ti ri. Phân tích và tìm xem liên kết có trong trang đó không?
(4a) Nếu có, thêm liên kết này vào cui danh sách. Quay li (4)
(4b) Nếu không, quay li (2).
(5) Kết thúc.
3.3 Chiến thut tìm kiếm theo ngu nhiên
T mt danh sách cha các liên kết cn duyt, thc hin các bước sau :
(1) Cho danh sách = {trang đu tiên}
(2) Ly ngu nhiên mt trang trong danh sách.
Nếu có qua (3)
Nếu không qua (5)
(3) Trang này đã xét ti chưa ?
Nếu ri, quay li (2)
Nếu chưa, qua (4)
(4) Đánh du đã ti ri. Phân tích và tìm xem liên kết có trong trang đó không?
(4a) Nếu có, thêm liên kết này vào cui danh sách. Quay li (4)
(4b) Nếu không, quay li (2).
(5) Kết thúc.
4. Nhng vn đ cn lưu ý ca web robot
4.1 Chi phí và him ho
Vic s dng các Robot tn khá nhiu chi phí, đc bit là khi chúng được điu khin t xa trên internet. Phn này chúng ta s cùng tho lun v nhng him ho do robot gây ra.
4.1.1 Qúa ti mng và server – Network resource and server load
Sau mt khong thi gian dài, thường là mt tháng, robot s bt đu hot đng mt cách liên tc. Đ tăng tc nhiu robot được phóng ra đng thi do đó cn có băng  thông ln. Tài nguyên mng b khai thác quá mc khi robot yêu cu mt lượng ln thông tin trong khong thi gian quá ngn (rapid fire). Kết qu là thiếu băng thông cho nhng ng dng khác. Server va phi phc v yêu cu ca robot va cung cp dch v cho user, do đó yêu cu ca robot tăng lên bao nhiêu thì dch v s gim xung by nhiêu. Tác gi ca mt con robot đã th nghim bng cách cho thi hành 20 lượt truy cp đng thi vào server ca anh ta. Nhng lúc robot thu thp thông tin, server b chm li. Trong vòng mt tun robot đã viếng thăm site này vi mt yêu cu kinh khng. Chsau 170 lượt truy xut liên tc, th nghim tht bi do server b quá ti.  Rapid fire thc s là thm ho. Hiu qu truyn ti thông tin dng này bng giao thc web hay HTTP st gim thy rõ. Nhng giao thc mi đang được xem xét nhm cu vãn tình thế.
4.1.2 S cp nht quá mc- Updating overhead
Người ta cho rng các cơ s d liu do web robot to ra có th được cp nht tđng nhưng cho đến thi đim này vn chưa có cơ chế kim soát s thay đi trên web mt cách hiu qu. Cp nht thông tin rt quan trng nhưng qúa thường xuyên là điu không cn thiết. Xut phát t thc tế đó HTTP đưa ra k thut ‘if – Modified – Since’ giúp các user – agent xác đnh được thi đim tài liu thay đi. Robot phát hin điu này ch khi nó lưu li các thông tin cũ nhưng s tn nhiu b nh & cn d liu phc tp. Mt trong nhng đc tính ph biến ca robot là kh năng tiếp nhn các t cn tìm trong khi vn thu thp d liu. Tuy nhiên mt s người cho rng đc tính này không đáng hoan nghênh bi hai lý do :
 Đu tiên, các tác v tìm kiếm ca người s dng cui (end - user) góp phn đy server vào ch quá ti.
 Th hai, không có cơ s đm bo có mi quan h gia các t cn tìm, đúng chính t và ti ưu đi vi cơ s d liu. Ví d, nếu b tìm kiếm không h trcác toán t boolean, mt user cn d liu v xe máy mun có được thông tin đúng thay vì nhp vào cm t ‘Ford and garage’ phi nhp vào t ‘car’. Nhưng người đó không h ý thc được điu này. Mt khía cnh nguy him na bt ngun t s đnh hướng sai lm ca end – user. Mt s người s dng công c ca mình rt tt như d đoán được lượng tài liu ln nht có th có, biết chính xác nơi cn tìm d liu, gii hn thi gian s dng robot, trong khi đó mt s khác li lm dng kh năng ca robot mt cách vô tình hoc c ý. Vì vy các tác gi viết robot đ ngh ch nên phân phát sn phm ca mình cho nhng end-user ‘hiu‘ được web robot và nhng khó khăn trong môi trường mng.
4.1.3 Nhng tình hung không mong đi – Bad implementations
Thay vì kim tra trên máy cc b trước, mt s tác gi ln đu tiên viết robot cho th ngay trên các server thc s, điu này làm đau đu không ít nhà qun tr web (web master).
Truy xut trùng lp có th xy ra khi robot không lưu li du vết nhng nơi nó đã đi qua hoc nó không nhn din được các URL mc dù khác nhau v tên nhưng li cùng dn đến mt đa ch, ví d đa ch DSN & IP. Đôi khi, robot lãng phí thi gian và tài nguyên ch đ thu v nhng tài liu mà sau đó phi vt đi. Ví d h thng ch quan tâm đến file văn bn (text file) nhưng robot li nhn c nhng loi file khác như file hình nh, file thc thi, … Trong môi trường mng có nhng vùng gn như vô tn. Ví d, c mi ln phân tích mt trang robot nhn v cùng mt URL nhưng xa hơn mt cp, ‘/cgi-bin/pit/’, và tiếp tc ‘/cgi-bin/pit/a/’, ‘/cgi-bin/pit/a/a’, …. . S lp li không có đim dng này được gi là các l đen (black holes)
4.2 Tiêu chun loi tr robot
Trong quá trình x lý robot không th t quyết đnh tài liu nào được lp chmc, tài liu nào không do đó nó ly tt c nhng gì có th. Thm chí dù xác đnh được tài liu vô ích thì nó cũng đã b ra mt chi phí đáng k cho hot đng thu thp. Tiêu chun loi tr robot ra đi. Các chun này chng nhng ch ra URL nào cn tránh mà còn cnh báo robot v các l đen.
4.2.1 File robot.txt
Robot.txt là mt file cu trúc được đt ti thư mc gc ca server, gm 2 trường
User-agent và Disallow.
 User-agent : cho biết robot nào s b kim soát.
 Disallow : cho biết robot có được phép kết ni vào URL này hay không.
 Xét các ví d sau :
Ví d Ý nghĩa
# / robots.txt file for
http://webcrawler.com/
Ký t # bt đu mt chú thích
User-agent: webcrawler
Disallow:
Robot có tên là webcrawler có th đi đến bt c trang nào ca site
User-agent: lycra
Disallow: /
Robot có tên là lycra b cm trên tt c các trang ca site
User-agent: *
Disallow: /tmp
Disallow: /logs
Mi robot đu không được truy xut vào 2 thư mc tmp và logs
4.2.2 Th META dành cho robot – Robot META tag
META tag là s m rng ca chun loi tr robot, h tr cho tác gi ca nhng trang web không có quyn admin.
V trí Nm trong phn HEAD ca file HTML
Cú pháp <meta name = ‘robots’ content = ‘index, follow’>
Tên trường Ý nghĩa
Meta Th báo hiu bt đu
Name Tên robot s b kim soát
Content C đnh hướng cho robot, các c này có th kết hp vi nhau & được phân cách bng du phy.
Các c ca thuc tính Content Ý nghĩa
[NO]INDEX Robot không nên lp ch mc cho trang này.
[NO]FOLLOW Robot không nên ly các liên kết trang này
ALL = INDEX, FOLLOW
NONE= NOINDEX, NOFOLLOW
Bng 2.3 : Bng giá tr các c ca thuc tính Content trong META tag
4.2.3 Nhược đim ca file robot.txt
Người ta cho rng vic lit kê các trang hoc các thư mc trong file robot.txt slà nguyên nhân thu hút s chú ý t các ‘v khách không mi‘. Thc ra chun loi trrobot ch là du hiu cnh báo, không là bin pháp cm robot cho nên vic tuân theo hay không hoàn toàn là vn đ t nguyn. Tuy nhiên ta vn có cách khc phc :
Mt là :
 To mt thư mc cha tt c các file quan trng.
 Trường Disallow ch lit kê tên thư mc va to.
 Cu hình server sao cho các trang không cha đường dn đến thư mc này.
Đáng bun trên thc tế cách này không đt được kết qu mong đi do mt trong các nguyên nhân sau :
 Các server có robot không b cm có th dn đường các robot b cm khác đến nhng file này.
 Các file quan trng có th nm trong log file (file được t do truy xut)
 Khi cu hình li server, admin có th ‘quên‘ các thư mc này phi cm robot!
…………………………………………
Hai là: chng thc (athorization). Đây là bin pháp hu hiu, được s dng trong nhiu lĩnh vc, đc bit trong nhng môi trường mà s an toàn d liu tr nên rt cn thiết.
Tóm tt :
Có th nói web robot là con dao 2 lưỡi, s dng đúng s gii quyết được nhiu vn đ, s dng sai s đ li nhng hu qu khó đoán. Sau đây là tóm tt cho nhng vn đ cn lưu ý ca web robot
 Tránh lãng phí tài nguyên
 Ch ti v nhng tài liu cn thiết.
 Nếu h thng ch quan tâm đến các file text (.html, .htm, .xml, …), web robot nên b qua các liên kết dn đến nhng file thc thi (.exe, …), file nh (.gif, .bmp, …).
 B qua các trường d liu h thng không dùng đến.
 Đng ly v các trang ging nhau nhiu hơn mt ln.
 Tránh cp nht li các site cũ quá thường xuyên bng cách :
 Ghi nh nhng đa ch web robot đã duyt qua.
 Da vào trường LastModified, trường head. Nếu các trường này khác vi d liu ta đã có thì đó là nhng thông tin cn ghi nhn.
 Không nên duyt hết mt site, ch cn duyt đến mt đ sâu (deep link) cn thiết.
 Tránh làm quá ti server
 Duy trì mt khong thi gian đi gia các ln truy xut liên tiếp.
 Kết ni vi server vào nhng thi đim thích hp. Tham kho ý kiến ca admin đ biết thông tin này.
 Kim tra web robot trên máy cc b, sa li trươc khi chy trên server thc s.
 Tuân theo các lut loi tr robot.
Sưu tầm : Pogo Game

Share this

Related Posts

Previous
Next Post »