網路那麼浩瀚,無邊無際,
為什麼搜尋引擎能那麼厲害,
為你找到你想要資料,
有大部份的原因要歸功於搜尋引擎公司派出的機器人程式或是蜘蛛程式,
這些程式平常沒事就在網路上爬啊爬著,
當他們看到想要的資訊時就將其搜括起來,
藉由這此小蜘蛛搜括回來的資料匯整後建立的龐大的資料庫,
於是我們能在搜尋引擎裡要什麼就有什麼,
當然,也抱括了一些大家意想不到的資料,
例如一些原本你不想給其他人知道的資料,
可能也會因為這些小蜘蛛而曝光,
其實想要讓這些資料不給小蜘蛛看是有小訣竅的,
我們可以在網頁伺服器裡放一個robot.txt檔案,
這個檔案可以設定是否允許小蜘蛛搜索網站以及可搜索的範圍,
不過這個robot.txt裡的規範只對正義的小蜘蛛有效,
邪惡的蜘蛛對這個檔是可視而不見的,
因此robot.txt這個檔基本上是不具強制性的,
但對Google或Yahoo這類大公司而言,
他們應該是會遵守這項道德約定。

網路上的蜘蛛程式範例很多,
個人有自學過perl,
稍微Google一下「perl spider」就能找到一堆Spider的程式碼,
寫Spider程式是很有趣的,
尤其是當跑程式時資料源源而來,
真的省了我們非常多的時間,
下一篇文章我想寫一個在pixnet裡找email帳號的小蜘蛛,
希望他能搜到pixnet裡每個人帳號裡提供的email信箱,
順便也給大家寄寄廣告信(Just Kidding),
哈,當然我不會這麼無聊,
純脆是當練習而以。
arrow
arrow
    全站熱搜

    jck11 發表在 痞客邦 留言(2) 人氣()