對蜘蛛來說,這種特定類型的索引頁是爬行的有效渠道,但是蜘蛛爬行頻率和網站文章更新頻率不盡相同,文章鏈接很有可能就被推到翻頁條中,這樣蜘蛛不可能每天從第1個翻頁條爬到第80個,然后一個文章一個文章的抓取,到數據庫對比,這樣太浪費蜘蛛時間,也浪費你網站的收錄時間,所以蜘蛛需要對這種特殊類型的翻頁式網頁來一個額外的抓取機制,從而保證收錄資源的完全。
有些頁面中每個文章鏈接后面跟隨著對應的發布時間,通過文章鏈接對應的時間集合,判斷時間集合是否按大到小或小到大排序,如果是的話,則說明網頁中的資源是按發布時間有序排布,反之亦然。
蜘蛛對網頁的類型,網頁中翻頁條的位置,翻頁條對應的鏈接,以及列表是否按照時間排序都會做相應的判斷,并根據實際的情況進行處理,但是蜘蛛畢竟不能做到100%的識別準確率,所以如果站長在做翻頁條時不要用JS,更不要用FALSH,同時要有頻率的進行文章更新,配合蜘蛛的抓取,這樣就可以極大地提高蜘蛛識別的準確率,從而提高蜘蛛在你網站的抓取效率。