對(duì)于一個(gè)SEOer,或者一個(gè)需要和SEO打交道的網(wǎng)站制作者而言,準(zhǔn)確了解網(wǎng)絡(luò)搜索引擎能看見(jiàn)什么,看不見(jiàn)什么,將有助于我們更加合理地推進(jìn)工作。
搜索引擎并非完全不具備圖片內(nèi)容辨識(shí)能力,但它通常是只能判斷出有一張圖片正在顯示,但是通常其無(wú)法識(shí)別這張圖片的內(nèi)容是什么。除非這張圖片的提供者用ALT屬性提供了相關(guān)信息。搜索引擎對(duì)圖片的辨識(shí)是通過(guò)識(shí)別像素顏色來(lái)完成的,比如能通過(guò)圖片中肉色比例來(lái)判斷是否是色情圖片,這種判定方式實(shí)在是只能用“很弱”來(lái)評(píng)價(jià)。正因?yàn)楹苋酰赃@種判別是極不準(zhǔn)確的——想必各位還記得當(dāng)初“綠壩”將加菲貓的圖片誤判為色情圖的笑話。目前,搜索引擎通過(guò)光學(xué)字符識(shí)別技術(shù)已經(jīng)能簡(jiǎn)單判斷圖片中包含的文字信息,但一般只限于比較工整的字體。
較早期的SEO觀念認(rèn)為,搜索引擎無(wú)法識(shí)別FLASH文件。在目前,這個(gè)認(rèn)識(shí)已經(jīng)嚴(yán)重過(guò)時(shí)了。無(wú)論是Google還是baidu,它們都可以從FLASH中抽取有用信息來(lái)提交搜索結(jié)果。但是如果要徹底判定這是個(gè)展示什么的FLASH文件,對(duì)于目前的搜索引擎來(lái)說(shuō)還有難度,因?yàn)樗阉饕娓鼈?cè)重于文字信息的抓取。而FLASH的制作者通常喜歡以圖片和音頻內(nèi)容來(lái)完成自己的制作,可能出現(xiàn)的少量文字內(nèi)容通常無(wú)法準(zhǔn)確詮釋該文件的實(shí)際內(nèi)容。
音頻和視頻文件也是搜索引擎通常會(huì)略過(guò)的內(nèi)容,除非是使用了AD3標(biāo)簽的MP3文件或者使用了AAC格式內(nèi)嵌文字性說(shuō)明的增強(qiáng)型播客。但別指望目前的技術(shù)能做到讓搜索引擎辨別這里音頻和視頻里到底在說(shuō)些什么玩意兒。
同樣的,搜索引擎無(wú)法解析文件的源代碼,也無(wú)獲取任何編寫者不希望它獲取的網(wǎng)頁(yè)信息。盡管蜘蛛整天在各類網(wǎng)頁(yè)源代碼上攀爬著,但只要標(biāo)記nofollow,那么相關(guān)代碼內(nèi)容就會(huì)被蜘蛛所忽略。
對(duì)于網(wǎng)站制作者來(lái)說(shuō),有一個(gè)問(wèn)題是特別需要注意的——蜘蛛對(duì)于AJAX表示束手無(wú)策。由于AJAX的動(dòng)態(tài)顯示方式,其直接從數(shù)據(jù)庫(kù)獲取信息而不需要刷新頁(yè)面,故蜘蛛無(wú)法解析那些只會(huì)直接顯示在用戶電腦上的內(nèi)容。不少JavaScript腳本也存在著相似的問(wèn)題,即在用戶僅僅輸入而不執(zhí)行任務(wù)之前,HTML中不生成相關(guān)內(nèi)容。