Google搜索

Google開發的網路搜索引擎

Google搜尋是由Google公司推出的一個互聯網搜索引擎,它是互聯網上最大、影響最廣泛的搜索引擎。Google每日透過不同的服務,處理來自世界各地超過30億次的查詢。

Google搜尋
Google標誌
網站類型
搜索引擎
語言多國語言(~100)
持有者Google公司
創始人拉里·佩奇謝爾蓋·布林
營業額Google Ads廣告
網址google.com
商業性質
註冊選擇性
推出時間1997年9月15日,​27年前​(1997-09-15[1]
現狀發展中
編程語言Python, C, C++[2]
本條目屬於網路搜索引擎系列
網路搜索引擎
元搜索引擎
國際性搜索引擎(多語言)
Google
Yahoo! Search
Bing
僅中文搜索引擎
百度
360搜索
搜狗
yam蕃薯藤
其他搜索引擎
DuckDuckGo
Ecosia
Exalead
Naver
Yandex
Alexa Internet
AOL
Ask.com
Qwant英語Qwant
其他鏈接
搜索引擎的全球市場份額
Google
92.25%
Bing
3.18%
雅虎
1.32%
Yandex
1.02%
百度
0.86%
其它
1.38%
根據StatCounter的2022年2月-2023年2月數據製作[4]

除了搜尋網頁外,Google亦提供搜尋圖像、新聞組、新聞網頁、地圖、影片的服務。2005年6月,Google已儲存超過80億個網頁,1億3千萬張圖片,以及超過1億的新聞組訊息 - 總計大概10億4千萬個項目。它也緩存了編入索引中的絕大多數網頁的內容。

因為Google的名聲,「Google」一個事物做動詞表示的是「在Google上搜索」。它還有引申義「在互聯網上搜索」,甚至「(在實際環境中)搜索」的意思。Google官方透過律師信強烈反對這種濫用他們公司名字的習慣,因為它可能會導致Google變成一個通用商標名。[5]

搜索引擎

物理構造

Google於全球數個地方,僱用伺服器中心來存放較低成本的普通電腦,運行Red Hat Linux作業系統來回應搜索要求和索引網頁。這個於伺服器中心建立的「伺服器園地」以Shared nothing architecture(分佈式資料庫結構)建造。索引是由程序Googlebot執行,它會定期地請求訪問已知的索引建立新頁面。頁面更新愈快,Googlebot訪問亦會愈多。再透過在這些已索引網頁上的連結來發現新頁面,並加入到資料庫。索引資料庫和網頁緩存大小是以兆位元組(terabyte)來衡量的。Google發展了一套檔案系統名為Google檔案系統,儲存這些資料。

Google使用的這些機器的精確大小和位於何處至今未知;Google官方刻意含糊其詞。在John Hennessy和David A. Patterson所著的《計算機結構:走進大數》中,推測Google的服務器場群集計算機群形成的「搜尋場」在2000年大約應該有6000個處理器,12000個普通IDE硬盤(即每個機器2個硬盤1個處理器),他們位於四個地方:二個在矽谷和二個在維吉尼亞。每個都以OC 48的線路(2488 Mbit/s,參見帶寬)連接着因特網並且有一個OC 12(622 Mbit/s)線路連接着其他3個Google分站點。這些連接使用思科12000路由器(Gateway),用二個Foundry Networks BigIron 8000的以太網交換器分流成4 x 1 Gbit/s的線路連接到64個服務器夾,裡面前後各是40台電腦和1台惠普以太網交換機,所以一個架子共有80個機器和2個惠普交換機。

Google在2004年4月發布的IPO S-1表單後,大財政公司的英特網開發單位副總裁Tristan Louis估計了2008年服務器場包含下列各項[1]

  • 720個服務器架
  • 63,272台機器
  • 126,544個處理器
  • 253,088 GHz的處理能力
  • 126,544 GB內存
  • 5,062 TB的硬盤空間

依照這一估計,Google服務器場組成了全球最強大的超級計算機,每秒運行速度至少三倍於地球模擬器

PageRank

Google使用一種名為PageRank的演算法,配合搜尋字串來排名網頁,PageRank是以公司創辦人拉里·佩奇命名。PageRank演算法根據加權係數,推斷該其他連結到網頁的價值來處理。PageRank如此取得由人所建立的鏈接,與及與人關聯的重要性。先前的排名搜尋方法,採用了許多搜尋器,以搜尋的關鍵詞和何時搜尋來排名頁面,或有多相關地關聯該搜尋。另外,Google亦採用其他秘密準則,決定排名網頁的結果。

Google不止索引和緩衝HTML檔案,亦索引13種其他檔案類型,例如PDFWord文件、Excel試算表,以及純文字檔案。除了文本文件,其他文件的是先轉換為HTML版本後緩存的。所以藉助Google可以不需要有這些文件的相應程序就可以看見這些非網頁文件,如Word或是Excel。

Google創新的搜索技術和典雅的用戶界面設計使Google從第一代搜索引擎中脫穎而出。Google並非只使用關鍵詞代理搜索技術,它將自身建立在高級PageRank™(網頁級別)技術基礎之上。這項專利技術可確保始終將最重要的搜索結果首先呈現給用戶。網頁級別可對網頁的重要性進行客觀的分析。用於計算網頁級別的公式包含5億個變量和20多億個項。網頁級別利用巨大的網絡鏈接結構對網頁進行組織整理。當從網頁A鏈接到網頁B時,Google就認為「網頁A投了網頁B一票」。Google還對投票的網頁進行分析。Google複雜的自動搜索方法和結構設計被認為可以避免任何人為感情因素提供公正的搜索結果。隨着搜索引擎優化(SEO)和各種針對PageRank的交換鏈接的行為的流行,Google的PageRank及公正性也越來越受到人們的質疑。

使用者能自定義搜尋引擎。他們能設定一個缺省語言或使用"SafeSearch"過濾技術,設定在每頁上被顯示的結果多少。Google受爭議的放置永久cookie在用戶的機器上以儲存這些信息,這使他們能夠了解過去用戶的搜索內容。任何一次搜索請求(只有頭10個關鍵字被查詢),每次最多查詢頭1000個結果(以每一頁最多100個結果的方式顯示)。

儘管它有極大的索引數目,仍然有相當多數量的數據庫的數據只能是從網站訪問到,而不是藉由連接。這所謂的深網暫時不能被Google數據庫所覆蓋,舉例來說包含了圖書館目錄,官方的法定(政府)公文,電話簿等。

(關於PageRank™的介紹,參見Google的Why Use Google頁頁面存檔備份,存於網際網路檔案館))

Google跳舞

Google跳舞是一種經常被討論的現象,Google跳舞指的是Google月底大量更新數據庫和算法的幾天時間,因為可以發現,這幾天對Google搜索關鍵字如www.yahoo.com得到的結果數是不一樣的。在跳舞期間,一個站點的等級可能在短時間裡戲劇般的改變,而且不同的Google服務器(舉例來說:www.google.com, www2.google.com, www3.google.com, www.google.co.uk, www.google.com.hk 等)可能為相同的關鍵字提供不同的結果。跳舞似乎當是googlebot機器人抓取網頁期間隨即發生的。快速更新的網站,高級別的網頁和新聞網站是最經常被檢查的,雖然新聞不一定如此。小的調節在每月里持續進行以確定網頁級別。在一些情況下,可能需要二到三個月讓新建頁面出現在搜索結果里。從2003年的夏季開始,每月的搜索,索引和等級更新被不間斷的持續更新所取代。這種改變大大減少了Google搜索結果的不穩定性。2003年11月15日,Google似乎進行了有史以來最重要的一次算法升級,後來被稱為「佛羅里達更新」。在這次更新中,幾乎所有商業領域的關鍵詞都受到了影響,尤其是一些熱門的關鍵詞,Google搜索的結果頁完全變了個樣兒,很多頭一天還排在首位的網站被遠遠甩到了500名之後。

Google目前的主要挑戰之一是,它的算法和結果越是得到網路使用者的信賴,商業網站為了利益而暗中破壞結果的風險就越戲劇般的增加。一些搜索引擎優化公司已經開始嘗試使用各種不同的技巧提升Google網頁評級,以使他們客戶的網站更多的被搜索到。Google已經設法減少了一些已知的使用這種方法的網站的Google頁面評級。

由於Google實際上已經成為國際上最流行的搜索引擎,很多網站管理員十分熱衷於跟蹤他們網站在Google上的左側排名,並試圖解釋他們排名變化的原因。現在已有不少網站提供排名Google搜索引擎優化(Search Engine Optimization,SEO)服務,如在一些高流量的討論區內加入商業網站的鏈接,從而使該網站在Google的排名提高。這種措施的確有一定成效,但這種收取客戶金錢,在第三者的討論區上展示廣告,對討論區的讀者造成困擾,也侵害了討論區的商業利益。

還有一種被普遍採用的技術是很多網站使用一個相同的關鍵字連接到某一個特定的網站,以使用戶在Google搜索這個關鍵字的時候,這個網站的排名會出現在結果的較前面。這種方法被稱為Google炸彈。現在Google算法更新的頻率非常快,據猜測,現在算法公式中涉及的變量有300多個,PageRank™在整個Google算法中的影響力已經下降到20%左右,最終平衡的算法中最重要的變量所占的比例不會超過10%,單純靠技術手段提升排名的網站已經禁不住時間的考驗。

Google發布了一系列的文章((頁面存檔備份,存於網際網路檔案館))以指導站長們提升他們網站的頁面評級。

SearchWiki

SearchWiki是Google搜索引擎Web 2.0化的一個體現,讓登錄的用戶得以參與搜索結果的評定。在每個搜索結果中新增了「調升」、「移除」與「評論」的按鈕:「調升」允許用戶將某搜索結果提升到前方;「移除」則可以刪除某搜索結果;「評論」則可以針對某搜索結果留下意見。為防止惡作劇與破壞損害了搜索結果可信度,以上的變動都會記錄下登錄用戶名,而且其他登錄用戶也能看到誰做了什麼改變。

典型的Web 2.0概念網站維基百科創始人吉米·威爾士亦曾提出透過讓用戶參與評定以集用戶群力加強搜索結果有效度的想法,其具體實現即為Wikia Search

隱私

2022年4月底,Google表示用戶可以要求該公司將他們的地址和電話號碼從搜索結果中刪除。[6]

搜索產品

除了搜尋網頁工具,Google還提供搜尋圖像、網上論壇、新聞、影片、當地搜尋、地圖、桌面搜尋等服務。2006年,Google已經索引了250億個網頁與及13億張圖像。

Google還有並非直接與搜尋相關的產品。例如Gmail是一個電子郵件服務,但仍包括搜索功能;Google Browser Sync不提供任何搜索工具,旨在組織使用者的瀏覽時間。

Google即搜即得

Google即搜即得(Instant Search)是Google於2010年9月8日發布的一個新的搜索技術[7],是一項搜索增強功能,能夠使用戶在輸入內容的同時顯示搜索結果,而不需要點擊搜索按鈕或者按下回車鍵。這樣一來,用戶在輸入內容的同時就可瀏覽到相關的搜索結果頁,大大節約了搜索消耗的時間[8]

Google即搜即得可以在用戶即使不知道要尋找什麼,其聯想查詢也對搜索操作有引導幫助,最熱門的聯想查詢詞語會以灰色的文字形式直接地顯示在搜索框裡,這樣當用戶一看到所需的搜索結果時,就可以停止輸入了。[9]而用戶也可以選擇停用這一功能。[10]

對移動設備的支持

對於大多區域、語言,Google即搜即得可以在應用Android 2.2+或者iOS 4+系統的移動設備上作為測試版功能來使用。[11]

審查

色情或其他有冒犯性的搜索關鍵詞不會被納入即搜即得。出版物2600: The Hacker Quarterly英語2600: The Hacker Quarterly編譯了Google Instant不會搜索的關鍵詞列表[12],即Google Instant不會給出含有這些關鍵詞的即搜即得搜索結果。[13][14]

搜索結果即時預覽

Google在搜索結果中提供即時預覽功能,可在點擊搜索結果前預覽對應的網頁。用戶在搜索結果右側的灰色箭頭鼠標懸停,右側空白處便會以圖片的形式給出相應的網頁即時預覽。在部分預覽中,預覽圖片上的相關程度較高的部分文本會突顯於顯示網頁上,從而幫助用戶更好地了解查詢字詞在網頁中將要出現的位置。[15]

預覽中還包含兩個鏈接,一個是緩存網頁,另一個是類似結果。[15]

不過,有些搜索結果可能不會提供預覽。[15]

行動服務

Google針對AndroidiOS系統的行動裝置,提供下載包含行動搜尋、Google助理等多樣服務的Google app[註 1],在Android系統搭載Google Play服務下內建並可更新[17][註 2]

2015年4月,Google宣佈實施移動搜索算法調整的工作,Google會優先顯示對移動端進行優化的網頁內容。這個調整全面影響所有網頁的移動搜索排序。[18]截至2018年12月,在所有搜索結果中,超過一半的網頁使用移動優先索引,這意味着谷歌搜索結果更偏重移動端網站,而不是PC端網站。[19]

使用技巧

google搜尋方法 [20]
inurl: 搜尋網頁連接中包含的關鍵字
site: 搜尋特定域名的網頁
link: 搜尋鏈接到指定網址的網頁

事件

故障

2009年1月31日晚間10時46分(UTC+8)左右,Google搜索引擎的中英文等搜索的結果全部加上了「這個網站可能會損害您的電腦。」。其間,Google的網站管理員中心無法訪問,顯示「Server Error(服務器故障)」。並且有短暫的修復,之後問題仍然存在。此現象約至11時18分(UTC+8)結束,前後至少30分鐘。後Google在官方博客中證實,這是人為失誤,由於惡意網址庫中不慎包含了地址「/」,導致所有包含「/」的網址皆被認為包含可能傷害電腦的軟體。[21]在這個故障後,Google News也出現了一些微小的問題。

黑客襲擊

2013年8月26日,幾名巴勒斯坦的黑客劫持了「Google巴勒斯坦」的域名然後使其重定向至他們的網站,並在其網頁上寫了抗議文字。[22][23]

與澳大利亞政府的法律糾紛

2021年1月22日,澳大利亞政府擬定一項法案,要求GoogleFacebook等公司向澳大利亞當地的新聞出版商付款後,才能展示新聞內容。澳洲議會在2月25日正式通過備受爭議的《新聞媒體與數字平台強制議價法》(News Media and Digital Platforms Mandatory Bargaining Code)。美國網絡巨頭谷歌曾警告,一旦新法實施,該公司會將其搜索引擎服務撤出澳大利亞。[24]因此,在澳大利亞地區的Google搜索頁面上出現黃標警告[25],目前該警告標識已移除。

擬停止在香港地區提供搜索服務

2021年7月6日,香港政府修訂《個人資料(私隱)條例》從而打擊人肉搜索行為。FacebookGoogleTwitter公司警告香港政府,若繼續推動修訂個人資料條例,將會停止在香港提供服務。[26]10月8日,私隱條例修訂生效。[27]

Google搜索在中國大陸

Google.com曾經多次被中國官方以未公開理由封鎖。2009年6月18日,中央電視台焦點訪談》節目批評谷歌的搜索詞語聯想的功能傳播色情低俗信息。在輸入普通的詞語如「母親」時聯想到淫穢內容,一時間谷歌備受中國官媒指責。而據谷歌Trends功能顯示,6月10日來自北京的IP惡意刷入近百次黃色詞語,使黃色詞彙搜索量猛增,17日後此關鍵詞逐漸回落至0。2009年6月24日21時左右,北京的互聯網用戶無法訪問Google.com和Gmail,但使用代理服務器等手段(俗稱翻牆)可以正常訪問,約兩小時後,Google服務恢復訪問[28]

2010年1月14日,Google旗下的Gmail遭到可能來自中國的駭客入侵,並企圖下載中國人權活動人士的電郵。Google後來宣布,Google.cn的搜索服務將關閉,轉由香港域名面向中國大陸用戶提供簡體中文服務。

此後,中國大陸用戶訪問Google時,常被防火長城干擾[29],並於2014年開始完全無法登入[30]

國際化

Google可以搜索很多的語言,並且提供了多種語言的界面[31]

為了達到幽默效果,Google還提供了以下幾種語言的界面:

註釋

  1. ^ 前稱「Google搜尋應用程式」(Google Search app)[16]
  2. ^ Google app與Google Workspace舊稱「Google Apps」容易混淆,須注意兩者區別。

參考文獻

  1. ^ WHOIS - google.com. [2007-08-10]. (原始內容存檔於2012-05-20). 
  2. ^ The Anatomy of a Large-Scale Hypertextual Web Search Engine. Computer Science Department, Stanford University, Stanford, CA. [January 27, 2009]. (原始內容存檔於2012-03-30). 
  3. ^ Alexa Google traffic results. Alexa. [2009-11-15]. (原始內容存檔於2007-11-11). 
  4. ^ Search Engine Market Share Worldwide. StatCounter Global Stats. [2023-03-18] (英語). 
  5. ^ 存档副本. [2013-01-07]. (原始內容存檔於2012-05-30). 
  6. ^ 谷歌保障用戶私隱新政策 准刪搜索結果中個人信息. 星島日報. 
  7. ^ Google Instant Launch Event. [2012-08-10]. (原始內容存檔於2012-08-09). 
  8. ^ “Google即搜即得可为每次搜索节省2到5秒的时间”. [2012-08-10]. (原始內容存檔於2012-08-12). 
  9. ^ 联想查询更智能. [2012-08-10]. (原始內容存檔於2012-08-12). 
  10. ^ 可以停用Google即搜即得吗?. [2012-08-10]. (原始內容存檔於2012-08-12). 
  11. ^ Google即搜即得能否在移动设备上使用?. [2012-08-10]. (原始內容存檔於2012-08-12). 
  12. ^ 2600.com: Google Blacklist - Words That Google Instant Doesn't Like. [2016-11-28]. (原始內容存檔於2017-01-10). 
  13. ^ CNN: Which words does Google Instant blacklist?. [2016-11-28]. (原始內容存檔於2016-03-28). 
  14. ^ The Huffington Post: Google Instant Censorship: The Strangest Terms Blacklisted By Google. [2016-11-28]. (原始內容存檔於2010-10-03). 
  15. ^ 15.0 15.1 15.2 即时预览 - Google网页搜索帮助. [2012-08-10]. (原始內容存檔於2012-05-05). 
  16. ^ Google搜尋應用程式 Windows 8 專用版. [2021-06-09]. (原始內容存檔於2021-06-08). 
  17. ^ Google搜尋說明. [2021-06-08]. (原始內容存檔於2021-06-07). 
  18. ^ Google正式調整移動搜索算法:優先展示移動端優化的網頁 閱讀整篇文章. [2022-05-08]. (原始內容存檔於2022-05-08). 
  19. ^ 谷歌:超过一半搜索结果已转向移动优先索引. 
  20. ^ 善用GOOGLE -- 從入門到精通. [2016-05-19]. (原始內容存檔於2016-05-25). 
  21. ^ Google的官方博客声明. [2009-01-31]. (原始內容存檔於2009-02-02). 
  22. ^ Google巴勒斯坦网站首页遭黑客篡改. 新華網. 2013-08-27 [2013-08-29]. (原始內容存檔於2013-08-29). 
  23. ^ Google巴勒斯坦网站被黑. cnBeta. 2013-08-27 [2013-08-29]. (原始內容存檔於2013-08-29). 
  24. ^ 谷歌威胁撤出澳大利亚,一场牵扯新闻业营收纠纷. BBC中文網. [2021-01-22]. (原始內容存檔於2022-05-02). 
  25. ^ 最近用Google搜索时出现了不寻常!谷歌和澳媒扛上了吗?(组图). 大魚新聞. [2021-08]. [失效連結]
  26. ^ 「起底」刑法化,Facebook、Twitter、Google 警告撤出香港,公署否認影響言論自由. engadget中文網. [2021-07-06]. (原始內容存檔於2021-07-23). 
  27. ^ 政府正式刊憲生效 私隱公署及警方將加強執法. 2021-10-08 [2022-08-27]. (原始內容存檔於2022-08-27). 
  28. ^ Kathrin Hille and Richard Waters. China blocks Google website. FT.com. June 24, 2009 [2009-06-25]. (原始內容存檔於2019-10-17) (英語). 
  29. ^ Levin, Dan. 谷歌服务在中国遭遇大规模干扰. 紐約時報中文網. 2014-06-03 [2016-10-03]. (原始內容存檔於2015-08-05) (中文). 自2010年以來,谷歌服務一直受到不同程度的干擾。 
  30. ^ 天安门事件前夕谷歌被封锁; 镜像网站提供不受审查的访问. GreatFire.org. 2014-06-02 [2016-10-03]. (原始內容存檔於2016-03-31) (中文). 
  31. ^ 让Google说您的语言. Google. [2010-06-23]. (原始內容存檔於2010-04-15). 

外部連結

參見