當前位置:成語大全網 - 新華字典 - 為什麽今日頭條發布的許多文章在知名瀏覽器上搜不到?

為什麽今日頭條發布的許多文章在知名瀏覽器上搜不到?

弄清楚這個問題,需要先了解下其背後的原理。

首先更正下這個問題,搜索結果與瀏覽器無關,而是瀏覽器上使用的搜索引擎相關的。

什麽是瀏覽器?

瀏覽器是壹個展示網頁內容的應用,比如像QQ瀏覽器,谷歌瀏覽器,360瀏覽器,火狐瀏覽器等供我們瀏覽網頁的軟件應用;

什麽是搜索引擎?

搜索引擎是供用戶搜索內容的軟件服務,比如像百度,谷歌,360,bing,搜索等等。

搜索引擎的原理?

可以舉個例子來理解,比如字典工具,我們只需要知道壹個詞的拼音,或者筆畫就可以快速的找到這個詞的詳細內容所在的頁面。

搜索引擎也是類似的,首先收集網絡上大量的內容,然後對這些內容進行處理,建立相應的類似於字典的索引,用戶在輸入內容搜索時,就可以快速的返回相關內容的地址。

為什麽搜不到那?

上面已經說明了搜索引擎的原理,把網絡上所有的內容都建立索引,按理是應該可以搜索到的才對呀,但是卻搜不到,為什麽那?

搜索引擎在爬取內容時,需要遵循壹個叫做robots的協議。

robots協議也叫robots.txt(統壹小寫)是壹種存放於網站根目錄下的ASCII編碼的文本文件,它通常告訴網絡搜索引擎的漫遊器(又稱網絡蜘蛛),此網站中的哪些內容是不應被搜索引擎的漫遊器獲取的,哪些是可以獲取的。

頭條文章的robots協議內容如下

User-agent:*

Disallow:/

Allow:/complain/

Allow:/media_partners/

Allow:/about/

Allow:/user_agreement/

Allow:/$

User-agent:ByteSpider

Allow:/

User-agent:ToutiaoSpider

Allow:/

表示的時只讓頭條的網絡蜘蛛爬取,而禁止其他搜索引擎爬取,因此這些文章在頭條可以搜索到,而其他搜索引擎不可以搜索到。