內容簡介

大數據為什麼不夠聰明？比機率更強大的思考工具又是什麼？電腦科學界諾貝爾獎「圖靈獎」得主暨貝氏網路研發先驅Judea Pearl總結畢生研究成果，聯手獲獎的統計學家Dana Mackenzie，提出改變人工智慧及科學界的重要工具！ ▎大數據看似厲害，其實有很大的侷限 近幾年大數據當紅，加上它在許多領域的成功運用，其地位與能力備受追捧。與大數據密切相關的統計學，是法蘭西斯・高爾頓與卡爾・皮爾森解答對於遺傳的疑問未果，而開發出來的學科，這門學科創立後興盛數十載，其名言「相關不是因果」影響科學界經常止步於探究「關聯」而非「因果」，並且長期受資料本位的歷史所影響，認為資料無所不能，但是朱迪亞・珀爾希望藉此書告訴讀者，資料本身一點也不智慧。 ▎要發展出「強AI」，機率思考仍遠遠不夠 一九八○年代初，朱迪亞・珀爾認為不確定性是AI所欠缺的最重要的能力，於是運用機率開發出強大的推理工具——貝氏網路，因而獲得有電腦科學界諾貝爾獎之稱的「圖靈獎」。貝氏網路是首先讓電腦以灰階方式思考的工具，至今仍極受人工智慧界倚重，然而到了一九八○年代末，珀爾認為貝氏網路仍沒有填補人工智慧和人類智慧的差距，於是他轉而研究如何教AI學會「因果推論」，本書便是整理了歷代科學家推展因果革命的努力與成果。 ▎從「求得相關性」的舊階段，邁入「釐清因果關係」的新時代 本書最初幾章是有趣的科學史，探討科學家追求因果解釋的過程如何受挫，以致發展出統計學，並讓統計學方法長期引領學界研究。接著書中有大約一半篇幅，作者以實例示範因果語言（圖示模型）如何解決傳統統計學認為無解的難題，逐一揭示「因果階梯」三大分層的能力（越高的層級，認知挑戰越高，越難理出因果關係），並讓讀者了解因果革命路上諸人的努力與進展，以及這些進展的重要性。本書末尾回頭說明因果革命相對於人工智慧各重要發展面向（比如大數據、深度學習、資料探勘、機器學習等），有何勝出之處、能對它們起什麼正面影響，以及最重要的——「因果革命」將會如何改變人工智慧。 ▎「因果革命」不只影響人工智慧，還影響各研究領域 現今機器學習運作時仰賴的是「相關性」，而不是「因果」，如果能成功將因果思考導入電腦，將使電腦變成真正的科學家，使它們成為我們的得力伙伴，提供我們更合理的洞見。由於因果思考可以呈現罪責，電腦能因而具備道德感——「具備道德感的強AI」是因果革命在人工智慧領域的終極追求，作者形容這「是人工智慧給人類的第一個、也是最好的禮物」。因果性研究還釐清了我們多年來對許多知識本質的不解，改變我們對於眾多問題的認識，這些問題牽涉的層面無所不包，舉凡涉及解讀資料以及根據解釋而採取的作法（像是致病因素、醫療資源分配、公共政策擬定等），都能受益。集結眾多領域學人之力才有如今成果的因果革命，亦將回頭影響整個科學界，珀爾形容它「將使科學的體質更加健全，是人工智慧給人類的第二個禮物」。在美國，因果科學已經開始被大學列入課程…… ▎我們強烈建議這些人士閱讀這本書： （1）資料科學家與大數據研究者，以及對大數據深感興趣的人（2）統計學家、數學家，電腦科學相關從業人員與學習者（3）對經濟趨勢與科研發展有興趣的一般大眾（4）希望培養科學素養，了解最新科學方法的學子 各界盛讚 《快思慢想》作者暨諾貝爾獎得主康納曼、《大演算》作者多明哥斯、谷歌網路推廣長文特‧瑟夫、微軟研究實驗室主任艾瑞克‧霍爾維茲 重磅推薦！ ●谷歌網路推廣長文特‧瑟夫：珀爾近三十年來的學術成就，為人工智慧發展提供堅實的理論基礎……同時把「思考機器」提升到另一個境界。 ●《大演算》作者佩德羅‧多明哥斯：因果如果不是相關，那又是什麼？拜朱迪亞‧珀爾的劃時代研究之賜，現在我們已能精確回答這個問題。想理解世界如何運行，這本引人入勝且讀來愉快的書是理想的起點。 ●微軟研究實驗室科技研究員及主任艾瑞克‧霍爾維茲：朱迪亞‧珀爾是人工智慧領域、甚至整個電腦科學界革命的核心人物。 ●諾貝爾經濟學獎得主及《快思慢想》作者丹尼爾‧康納曼：各位是否曾疑惑「相關」和「因果」究竟是什麼關係？這本精彩著作深入淺出地說明了答案。 ●《紐約時報》喬納山‧尼伊：解說十分詳盡……本書不僅詳盡介紹概念的發展史，也提供概念工具，讓讀者理解大數據的優勢與不足之處。 ●《自然》雜誌：「相關不是因果」這句科學俗語已在社會上造成影響……朱迪亞‧珀爾提出嶄新的數學解決方案……現在已在生物、醫學、社會科學和人工智慧領域開花結果。 ●《猶太日報》：深入淺出……珀爾是有遠見的因果革命領袖，這本書則是他最大的成就。讀者好評 ●對電腦科學、統計學或人工智慧當今發展有興趣的人都應該讀讀。這本書如同康納曼的《快思慢想》，是作者畢生科學研究的總結，不僅對同領域科學家而言價值非凡，也是全人類的瑰寶。（讀者阿蘭‧約瑟夫‧坎恩） ●朱迪亞‧珀爾的貝氏網路和因果圖以十分優雅的方式結合統計學、流行病學、決策和電腦科學等領域。他的研究成果賦予並擴大了大數據的潛力。這本書是市面上第一本為一般大眾介紹這主題的書籍，其影響將無以估計。（讀者湯瑪斯 J. 阿拉岡，流行病學家） ●知名商學研究所都應該用這本書當成教材。我送了一本給我念大學時的院長。為了現在和未來的學生著想，我希望它能成為一門課。（讀者喬治‧莫札奇斯）

展開

收合

序跋

▎自序 這本書的目標有三個：一是以非數學語言讓讀者理解因果革命的詳細內涵，以及它將如何影響我們的生活和未來。二是為讀者介紹科學家遭遇及挑戰關鍵因果問題時，英勇解決的歷程。最後，則是把因果革命帶回人工智慧的最初本源，介紹如何讓機器人學習以我們的母語（即因果語言）溝通。 ▎前言：思想勝過資料 法蘭西斯・高爾頓與卡爾・皮爾森運用跨世代資料解答他們對於遺傳的疑問，可惜沒有成功，於是他們開發出「統計」這門爾後興盛數十載的學科。從事研究的人都聽過「相關不是因果」這句統計學名言，該觀念影響學界長期探究「關聯」而不問「因果」。在資料本位的歷史影響下，今日我們甚至認為大數據可解答所有問題，但是朱迪亞・珀爾希望藉此書告訴讀者，資料本身一點也不智慧。1980年代末，研究人工智慧的珀爾發現，「機器無法理解因果關係」可能是它們無法具備人類智慧的關鍵原因，於是他轉而投身因果科學陣營，多年後他藉由這本書，總結了各路科學家推動因果革命的成果。 ▎第一章　因果階梯 因果的三個層級／迷你圖靈測驗／機率與因果珀爾研究機器學習時了解到，因果學習者至少必須掌握三個層級的認知能力，分別是：（一）觀看與觀察，以探知環境中的規律；（二）實行，亦即預測刻意改變環境的效果，並選擇適當改變以獲得想要的結果；以及（三）想像——因果階梯的三個層級「觀察」、「介入」和「反事實」便是由此而來，數學能證明這三個層級有根本上的不同，每個層級都具備前一層級缺少的能力。本章將介紹以因果圖進行推理的基礎概念、主要的建模工具，讓讀者慢慢見識因果推論模型詮釋資料、解答疑問的強大能力。 ▎第二章　從海盜到天竺鼠：因果推論的創生 法蘭西斯‧高爾頓捨「因果」而擁抱「相關」／卡爾‧皮爾森把「因果」掃出統計學／萊特、天竺鼠和路徑圖／E PUR SI MUOVE（但地球依然在轉動）／貝氏連結將主觀機率帶進統計學界十九世紀末，法蘭西斯・高爾頓想將《物種原始》的理論架構數學化，他花了八年嘗試解答族群遺傳特質維持恆定的原因，但是始終無解，最後放棄研究，轉而注意統計「相關」。高爾頓的門徒卡爾・皮爾森後來提出「相關係數」，直到現在，所有統計學家想知道資料組中兩個變項的關聯程度時，總是最先計算這個數字。第二章講述統計學如何忽視因果性，並且對各種資料導向的科學造成深遠影響。此外還將介紹對本書而言十分重要的遺傳學家西瓦爾‧萊特的故事；萊特於1920年代首先繪製因果圖，多年來一直是少數認真看待因果性的科學家。 ▎第三章從證據到原因：當貝斯遇見福爾摩斯 電腦偵探波拿巴（Bonaparte）／貝斯牧師與逆機率問題／從貝氏法則到貝氏網路／貝氏網路：原因透露了哪些關於資料的線索？／我的行李在哪裡？從亞琛到尚吉巴島／真實世界中的貝氏網路／從貝氏網路到因果圖 1980年代初，珀爾認為不確定性是AI所欠缺的最重要的能力，於是運用機率，開發出處理不確定性推理的強大工具——貝氏網路，這是首先讓電腦以「灰階」方式思考的工具，至今仍被視為人工智慧頂尖典範。然而到了1980年代末，珀爾開始覺得自己錯了，他認為貝氏網路仍沒有填補人工智慧和人類智慧的差距。在這一章，他談了自己從貝氏網路忠實信徒變節，轉入因果性陣營的心路歷程。儘管如此，貝氏網路依然是今日人工智慧界極為倚重的工具，而且具備因果圖的許多數學基礎，因此這章以因果性簡略介紹貝氏法則和貝氏推理方法，並為讀者舉出幾個在實際生活中運用貝氏網路的範例。 ▎第四章　干擾與去干擾：或說剷除潛在變項 干擾導致強烈恐懼／大自然的巧妙質問：隨機對照試驗為何有效用？／干擾的新典範／do運算子和後門準則隨機對照試驗（RCT）是統計學對因果推論的重大貢獻，它的主要目標，是把要探討的變項與可能影響它們的其他變項分開。如何去除這些潛在變項造成的失真或「干擾」，是已經存在一世紀的難題，但科學家直到最近才體認到，解決這問題需要的不是統計學方法，而是因果方法。這章要從因果圖的觀點說明，RCT為何能協助估計兩變項之間的因果效應，而且不受干擾偏差影響，從中我們會了解RCT其實源自更基本的原理，其他方法未必都要奉它為圭臬。這一章還將說明因果圖如何讓我們把焦點從「干擾因子」轉移到「去干擾因子」，並且帶領讀者以出奇簡單的方式解決一般干擾問題。 ▎第五章　煙霧瀰漫的爭議：除去迷霧 菸草：人為流行病／衛生總署委員會和希爾準則／吸菸對新生兒的影響／激烈爭議：科學與文化十八世紀詹姆斯．林德發現柑橘類水果能預防壞血病，十九世紀約翰．史諾發現遭排泄物汙染的水會導致霍亂，這些偵察工作很幸運的一點是：原因與結果之間是一對一關係。二十世紀時「吸菸是否會致癌」爭議挑戰了單一因果關係概念，而且由於無法隨機指定某些人冒著健康風險吸菸數十年以進行對照，統計學家不只對答案難有共識，連如何理解問題都有不同看法。後來美國衛生總署委員會採用一連串非正式指導方針「希爾準則」，終於得出「吸菸會導致癌症」這結論，但這花了近十五年時間。這爭議讓許多人看清因果性的重要——如果科學家有適合的語言或方法來解答因果問題，得出結論將不再曠日廢時。 ▎第六章破解悖論！ 令人費解的蒙提霍爾問題／更多衝突偏差：柏克森悖論／辛普森悖論／以圖畫說明辛普森悖論這章要讓讀者輕鬆一點，做一些有趣的動腦遊戲，談談蒙提霍爾悖論、辛普森悖論與柏克森悖論等知名的古典矛盾問題。其實這些悖論問題有嚴肅的一面——它們幾乎都與因果直覺抵觸，因此能讓我們深入分析這類直覺。悖論和視錯覺一樣，能夠揭露大腦的運作方式、大腦愛走的捷徑，以及大腦覺得矛盾的事物。因果悖論凸顯出與機率和統計邏輯衝突的直覺式因果推理型態，看看統計學家對它們有多麼頭痛，就能知道不用因果性眼鏡看世界往往容易出現誤判。這些問題提醒著科學家，人類直覺是以因果為基礎，而不是統計和邏輯。一起來看看這些經典悖論問題的新解吧！ ▎第七章　超越調整：征服介入山 最簡單的路線：後門調整公式／前門準則／Do計算法——精神高於物質／科學的織錦，或是do管弦樂團的隱形樂手／史諾博士的詭異案例／好膽固醇和壞膽固醇第七章到第九章將帶領讀者一步步登上因果階梯。本章要登上階梯的第二層——介入層，其重點是預測以往未曾嘗試的行動和策略可能產生什麼效果。除了說明可產出「是或否」答案的因果推論發動機的內在結構，還要教讀者尋找因果圖中的特定型態，像是後門調整、前門調整及工具變項等，它們在因果推論中扮演極吃重的角色。作者將示範這些工具如何解答以往困住科學家的難題，例如以「前門準則」釐清因果圖尚未誕生時的「吸菸致癌爭議」，用約翰．史諾的霍亂成因調查示範因果圖如何讓工具變項發揮作用。作者也將介紹他的學生在因果革命中扮演的角色。 ▎第八章　反事實：發掘可能成真的世界 從修昔底德和亞伯拉罕，到休謨和路易斯／潛在結果、結構方程式，以及反事實的演算法化／了解自己的假設是好習慣／反事實與定律／必要原因、充分原因和氣候變遷／反事實的世界人類是在五、六百萬年間由猿猴類演化而來，但在近五萬年間發生了一些獨特狀況，從此能更快速地改變自身能力與環境，例如發明許多神奇物品。為什麼？人類突然獲得其他動物沒有的什麼運算能力？對此有許多人提出理論，但其中只有一種與因果關係有關——歷史學家哈拉瑞在《人類大歷史》中推測，人類祖先能設想「不存在的事物」（反事實），讓人得以溝通得更順暢，是其中最重要的關鍵。本章要帶各位登上因果階梯的頂層，探討反事實，照例會有許多因果圖示範釐清常見爭議的實情（例如學經歷對薪水的影響，以及量化氣候變遷的效果等），體會將「反事實」納入因果查詢時，解答事情的面向如何更加豐富多變。 ▎第九章　中介：找尋機制 壞血病：錯誤的中介變項／自然與養育：芭芭拉‧布克斯的悲劇人生／尋找語言（柏克萊錄取率悖論）／黛西、小貓和間接效應／線性理想世界裡的中介／接納「應該會」／中介案例分析——吸菸基因：中介和交互作用；止血帶：隱形的謬誤「反事實」目前在科學界中最風行的應用是中介分析，中介（或中介變項）是把處理效應傳遞給結果的變項，中介分析的目的是釐清直接效應和間接效應。這類問題不僅在科學上相當重要，也有實際的影響，書中舉了駭人的一例：詹姆斯．林德船長的壞血病研究是史上極早的對照實驗，其結果在1747年發表。但一個世紀之後，英國遠征隊開始探察極地時，這種完全可以預防的疾病出乎意料地捲土重來，原因就在於當時尚未發現真正的中介變項（維生素C），使得「柑橘類水果可預防壞血病」這理論被棄之如敝屣。本章介紹科學家如何找出表達「中介」的方法，以補傳統統計學的不足，另外也有數例中介案例分析。 ▎第十章　大數據、人工智慧與大問題 因果模型與大數據／強AI和自由意志怎樣打造智慧與人類相當且能分辨善惡的機器？——珀爾相信，因果推理是讓機器能以人類語言與我們溝通，談論政治、實驗、解釋、理論、遺憾、責任、自由意志與義務等話題，乃至自己做出道德決策的關鍵，因此發展因果語言與工具之重要性不可言喻。在研發過程中他廣泛接觸各領域人士，一起點燃因果革命的火花，火花從一個學科擴散到另一學科，催生了新典範，他認為這個轉變將使科學的體質更加健全，這是「人工智慧給人類的第二個禮物」。而因果革命在AI界的終極產物——具道德感的強AI，不只會成為我們的好伙伴，還能成為我們師法的對象，教導我們更明晰、因果上更合理的正義感，這則是人工智慧給人類的第一個、也是最好的禮物。 ▎致謝

展開

收合

內文試閱

●前言：思想勝過資料 每種興盛的科學之所以興盛，關鍵都在於有一套成功的符號。——奧古斯塔斯‧德摩根（Augustus de Morgan），英國數學家及邏輯學家有一種科學改變了我們分辨事實與幻想的方式，但一般大眾對它依然認識極少——這本書講的，就是這門學問的故事。這種新科學已經影響生活的許多重要層面，未來可能影響得更廣泛，從開發新藥到控管經濟政策，從教育與機器人到槍枝管制和全球暖化等。值得注意的是，儘管這些問題五花八門而且顯然無從比較，但這種新科學都能把它們納入統一的框架來處理。在二十年前，根本還沒有這樣的框架。這種新科學沒有很炫的名稱，我跟許多科學家稱它為因果推論（causal inference）。這種科學也不特別高科技。因果推論努力模仿的理想科技，就在我們的思想中。幾萬年前，人類開始了解，某些事物源自另外一些事物，研究後者就可改變前者。其他物種不了解這一點，至少沒有到達人類那種程度。我們從這個發現形成有組織的社會，再發展成城鎮和城市，最後產生現在的科學和科技文明。一切都源自我們問了個再簡單不過的問題：為什麼？因果推論正是因為我們認真看待這個問題而產生。它斷定人類的大腦是有史以來最先進的因果處理工具。我們的大腦中儲存大量的因果知識，這些知識在資料輔助下，就能回答現今最迫切的各種問題。更重要的是，我們一旦真正了解因果思考的邏輯，就能在新型電腦中模擬其運作，創造出人工科學家。這個聰明的機器人能發現至今未知的現象、發掘未解的科學困境的解釋、設計新實驗，並且不斷由環境獲取更多因果知識。但在我們大膽猜測這些未來發展之前，必須先了解因果推論目前已有的成就。我們將探討它如何改變絕大多數資料相關領域科學家的思考方式，以及它將如何改變我們的生活。這種新科學可以處理這些看似簡潔明瞭的問題： ‧某種療法預防疾病的效果如何？ ‧是新稅法使得銷售增加？還是那是打廣告的結果？ ‧醫療成本中，有哪些可歸因於肥胖？ ‧聘僱紀錄是否能證明雇主確實採取性別歧視政策？ ‧我打算辭職，我應該這麼做嗎？這些問題都和因果關係有關，特徵是「預防」、「使得」、「歸因於」、「政策」，以及「應該」等這些詞。這些詞在日常交談中經常使用，社會也經常得回答這些問題。但直到非常近期，科學都沒有提供任何方法來清楚表達這些問題，更不用說解答它們了。因果推論目前對人類最大的貢獻，就是讓這個科學疏忽成為過去。這種新科學衍生出一種簡單的數學語言，來表達我們已知和想知道的因果關係。以數學方式傳達這項資訊的能力，帶來許多合乎規則的強大方法，把我們的知識和資料結合起來，解答如同上面這五個疑問那樣的因果問題。這二十五年來，我有幸身處這波科學發展中。我看著這門科學在學生和實驗室中逐漸成形，聽著它的重大突破在沉悶的科學研討會中迴響，完全不受一般大眾注意。現在我們進入強大人工智慧（強AI）時代，許多人大力吹捧大數據和深度學習擁有無盡的可能性。我在最好的時候發現這門科學，很高興能向讀者介紹它正在進行的各種大膽嘗試、它對資料科學的影響，以及二十一世紀它將如何影響我們生活的許多層面。讀者們看到我說這些進展是「新科學」時，或許會覺得有點疑惑，甚至可能會問：「我們為什麼不早這麼做呢？」古羅馬詩人維吉爾（Virgil）（早在西元前29年便）提到「能了解事物成因的人很幸運」，現代統計學奠基者法蘭西斯‧高爾頓和卡爾‧皮爾森則發現人口資料有助於解決科學問題，當時他們怎麼沒發展出這門科學呢？這本書的歷史回顧部分會提到，他們都有漫長的失敗經驗。但在我看來，最主要的阻礙是：我們用來描述因果問題的詞彙，與傳播科學理論時使用的傳統詞彙，基本上有所差異。要理解這樣的差異有多深遠，可以想像一下科學家試圖表達某些顯而易見的因果關係時，有多麼困難，例如氣壓計讀數為B時，代表大氣壓力為P。我們可以輕易寫出像B = kP這樣的方程式，其中k代表某個比例常數。接下來可以依據代數法則，把這個方程式隨意改寫成各種形式，例如P = B/k、k = B/P，或是B – kP = 0。這些方程式的意義全都相同，只要知道這三個量中的二個，就可求出第三個量。k、B和P這幾個字母在數學上的地位，都不比其他字母高。那麼我們又該怎麼表達我們相信是壓力造成氣壓計讀數改變，而不是氣壓計造成壓力改變？如果我們連這麼簡單的因果關係都無法表達，又怎能表達其他連數學公式都沒有的因果概念？（例如太陽升起不是因為公雞報曉的關係。）跟我同校的其他教授也辦不到，而他們從來不覺得困擾。我打賭各位讀者也從來沒做到。現在我們已經知道原因：他們從來沒有見過因果的數學語言，也不清楚它的效用。這點其實凸顯出科學界多年來都沒有發展出這樣的語言。每個人都知道撥動開關可以開燈或關燈、酷熱的夏日午後會使當地冰淇淋店生意滾滾來。那麼科學家為什麼沒有把這麼顯而易見的事實寫成公式，就像光學、力學或幾何學的基本定律一樣？他們為什麼讓這些事實依然是單純的直覺，不開發數學工具，讓它像其他科學領域一樣發展茁壯？部分原因是：開發科學工具是為了因應科學需求。更精確地說是我們已經很擅長處理開關、冰淇淋和氣壓計等問題，不大需要特殊數學工具來處理這類問題。但隨著科學好奇心逐漸增長，我們也開始在複雜的法律、商業、醫學和政策制訂場合提出因果問題，我們發現手上沒有成熟科學應該提供的工具和原理。類似的後知後覺在科學界不算少見。舉例來說，人類一向相信自己很能處理日常生活中的不確定性，例如過馬路和打架等。直到四百年前賭客發明複雜的機率賽局，狀況才開始改變。這類機率賽局往往精心設計，誘使我們做出不正確的選擇，布雷斯‧巴斯卡（Blaise Pascal）、皮耶爾‧迪‧費馬（Pierre de Fermat）和克里斯提安‧惠更斯（Christiaan Huygens）等數學家這才發現，有必要開發我們現在所知的機率理論。同樣地，保險公司需要精確的終身年金估計值時，艾德蒙‧哈雷（Edmond Halley）和亞伯拉罕‧棣美弗（Abraham de Moivre）才開始依據死亡率表計算預期壽命。此外，天文學家需要精確預測天體運動，雅各‧白努利（Jacob Bernoulli）、皮耶－賽門‧拉普拉斯（Pierre-Simon Laplace）和卡爾‧弗里德瑞希‧高斯（Carl Friedrich Gauss）才開發出誤差理論，協助我們提取雜訊中的訊號。這些方法都是今日統計學的始祖。諷刺的是，因果理論需求開始浮現之際，統計學也在此刻誕生。事實上，正是高爾頓和皮爾森對遺傳產生疑問，巧妙地運用跨世代資料來解答這些問題，才孕育出現代統計學。可惜的是，他們的努力沒有成功，而且他們沒有問為什麼，而是宣告這些問題無法回答，同時開發與因果性無關的興盛學科，稱為統計學。這是科學史上的關鍵時刻。因果問題差一點就能擁有自己的語言，但還是功敗垂成。後來幾年，這些問題被宣告為不科學，從此轉入地下。儘管遺傳學家西瓦爾‧萊特（Sewall Wright）勇敢地投注許多心力，因果詞彙依然被禁絕半世紀以上。禁止談論就是禁止思想和扼殺原理、方法和工具。各位讀者即使不是科學家，相信也都見過這次禁絕。在基礎統計學中，每個學生都聽過「相關不是因果」（Correlation is not causation.）。這麼說是有理由的！雞啼跟日出很有關聯，但不是日出的原因。可惜的是，統計學盲目崇拜這個觀察到的常識。統計學告訴我們相關不等於因果，卻沒有說因果到底是什麼。在統計學教科書的索引裡你找不到「原因」。學生不准講X是Y的原因，只能說X和Y「相關」或「有關聯」。由於這樣的禁忌，統計學認為不需要數學工具來處理因果問題，它在意的只有如何總結資料，而不是如何詮釋資料。唯一的例外是1920年代遺傳學家西瓦爾‧萊特發明的路徑分析（path analysis），這也是本書許多方法的鼻祖。然而路徑分析完全不受統計學和相關領域青睞，因此停滯在萌芽階段數十年之久。1980年代之前，邁向因果推論的第一步始終沒有跨出去。統計學的其他領域，包括想求助於因果推論的其他學科，也還處於禁忌時代，誤以為所有科學問題的答案都蘊含在資料中，可以透過巧妙的資料探勘技巧發掘出來。資料本位的歷史至今仍然揮之不去。我們這時代認為，大數據是所有問題的解答。各大學爭先恐後地開設「資料科學」課程，企業為了搶搭「資料經濟」列車也高薪徵求「資料科學」相關人員。但我希望這本書能告訴大家，資料本身一點也不智慧。資料可以告訴我們，服用某種藥物的人恢復得比沒有服用的人快，但無法告訴我們為什麼。前者之所以服用這種藥物，或許只是負擔得起，即使沒有服用也會痊癒得一樣快。在科學和商業領域，我們經常發現，單單只有資料是不夠的。大數據愛好者雖然明瞭這些限制，但仍然追求資料本位智慧，就像現在還沒有脫離禁絕時期一樣。前面曾經提到，近三十年來很多事物改變極大。在許多精心打造的因果模型輔助下，近年來科學家已能處理以往認為無法解決、甚至超越科學範疇的難題。舉例來說，僅僅一百年前，「抽菸是否危害健康」這問題仍被視為不科學。就算只提到「原因」或「結果」，可能就會在知名統計學期刊上引發激烈的反對聲浪。即使僅僅二十年前，問統計學家「是阿斯匹靈讓我頭不痛的嗎？」這類問題，簡直就像問他信不信巫毒教一樣。我們學校有個知名教授說，這問題「比較像聊天話題而不像科學問題」。但是到了現在，流行病學家、社會科學家、電腦科學家，以及至少某些開明的經濟學家和統計學家，已經經常提出這些問題，並精確解答它們。對我而言，這樣的改變不下於革命，我大膽稱它為因果革命（Causal Revolution）。這次科學界變革不再否定我們具備理解原因與結果的天賦，而是主動接受它。因果革命不是效果不明的孤立事件，它蘊含的數學奧祕可說是因果的微積分，能夠解答古往今來最困難的因果關係問題。我發現這種微積分時非常興奮，不只因為它的發展歷程一波三折、非常有趣，更重要的是我認為它擁有極大潛力，日後的發展可能超乎我的想像……甚至可能超乎各位的想像。（中略）剛才我提到「會思考的機器」是刻意的。我是以電腦科學家身分研究人工智慧時，想到這個主題的。這主題讓大多數因果推論研究者分別走向兩個研究方向。首先，在人工智慧領域中，除非我們能教會機器人某個主題，否則就不算真正了解它，所以我一再強調記號、語言、詞彙和文法。舉例來說，我很愛研究我們是否能以某種語言表達某個主張，以及某個主張是否和其他主張吻合。單單只是遵循科學語句的文法，就能讓我們學到許多。我特別強調語言，也源自我深深相信語言會形塑思想。我們無法解答自己無法提出的問題，也不可能提出我們無法描述的問題。身為哲學和電腦科學研究者，我對因果推論的興趣，大多來自看見無人理解的科學語言從誕生到成熟。促使我研究因果的另一因素，是我也投入機器學習領域。1980年代末，我發現「機器無法理解因果關係」可能是導致機器無法擁有人類智慧的關鍵。在本書的最後一章，我將會回歸根本，和讀者一起探討因果革命對人工智慧的影響。我相信我們能夠研發出強AI，而且正因為因果性是幫助我們研發出強AI的部分原因，我們不需要畏懼這樣的人工智慧。因果推理模組將使機器能夠反省錯誤、指出自身軟體中的缺點、具備道德本體，並與人類自然地談論自己的選擇和意圖。（大標）現實世界的藍圖在我們這個時代，大家一定聽過「知識」、「智慧」和「資料」，有些讀者或許搞不懂這些詞的差異或它們彼此間的作用。現在我想提出因果模型（causal model）這個詞。各位可能會覺得這會讓大眾更加混淆。不會的！事實上它能使「知識」這個模糊不清的科學概念變得明確，同時給予資料具體而有意義的背景，並且讓我們了解這三者如何一同運作，解答困難的科學問題。〈圖I.1〉是「因果推論發動機」（causal inference engine）的藍圖，它可協助未來的人工智慧處理因果推論工作。重要的是大家必須了解，它不只是未來的藍圖，還能告訴我們因果模型如何運用在目前的科學用途上，以及因果模型如何與資料交互作用。（中略）因果模型還擁有資料探勘和深度學習所缺乏的另一個優點，就是適應能力。注意，在〈圖I.1〉中，被估量僅依據因果模型計算，不需要檢視資料特性。這點使因果推論發動機的適應能力格外強大，因為它計算出來的被估量適用於可用於定性模型的任何資料，不受變項間的數值關係影響。想了解這種適應力為什麼很重要，可以比較這種發動機和學習者（在這個例子中是人類，但在其他例子中可能是深度學習演算法，或是使用深度學習演算法的人類）試圖單靠資料學習的結果。學習者觀察許多患者服用藥物D的結果L，可以預測具有特質Z的某患者存活L年的機率。現在學習者轉到另一所醫院，這家醫院位於另一個地區，人口特質（飲食、衛生、工作習慣）也不一樣。即使這些特質只改變了各項變項間的數值關係，學習者還是必須重新訓練自己，學習新的預測函數。深度學習程式能做的也只有這樣：讓函數與資料吻合。另一方面，如果學習者擁有說明藥物運作方式的模型，而且它的因果結構在新地點沒有改變，則學習者在訓練中取得的被估量將依然有效。這個被估量可套用在新資料上，針對另一群人口產出新的預測函數。

展開

收合

作者資料

朱迪亞・珀爾(Judea Pearl)

因為研發貝氏網路，而獲得有「電腦科學界諾貝爾獎」之稱的圖靈獎，著有三本極具影響力的科普書籍。珀爾是美國國家科學院院士，也是首先進入IEEE智慧系統名人堂的十名科學家之一，獲得的獎項與榮譽博士學位多不勝數，包括盧梅哈特獎（認知科學學會）、富蘭克林獎章（富蘭克林研究所）以及拉克托斯獎（倫敦經濟學院）。他目前擔任加州大學洛杉磯分校電腦科學教授，同時是丹尼爾‧珀爾基金會創辦人及執行長，目前住在洛杉磯。

達納‧麥肯錫(Dana Mackenzie)

數學博士，現為科普作家，經常為《科學》、《新科學家》、《科學美國人》、《史密森尼》、《鸚鵡螺》和《發現》等雜誌撰稿。他寫的書《大碰撞：月球是怎麼形成的？》（The Big Splat, or How Our Moon Came to Be）曾經獲選為Audible.com網站2010年最佳有聲書。麥肯錫曾獲2012年傳播獎（美國數學聯合政策委員會）與2015年查文尼特數學解說獎（美國數學學會），他現在住在加州聖克魯茲。

展開

收合

基本資料

作者：朱迪亞・珀爾(Judea Pearl)、達納‧麥肯錫(Dana Mackenzie) 譯者：甘錫安出版社：行路書系：FOCUS 出版日期：2019-06-26 ISBN：9789869753456 城邦書號：A3740015 規格：精裝 / 單色印刷 / 368頁 / 17.3cm×23.1cm

展開

收合

同書系書籍 | 同分類書籍 | 同出版社書籍