億元級IT行業生態鏈
一站式解決方案提供商

24小時免費咨詢電話
010-52725243

新聞資訊

AJIA NEWS

Hadoop之父Doug Cutting:Hadoop 天然契合AI發展需求

來源:cn.technode.com 發布日期:2017-07-27

阿甲科技Hadoop之父Doug Cutting

據了解,大數據開源框架 Hadoop 之父 Doug Cutting 十年前創建 Hadoop 架構的時候,僅僅只是為了使得網絡搜索更快更完整。但由于其創造性地實現了多運算設備的分布式計算,不僅運算性能得以大幅度提升,更使得系統的成本得以大幅度降低,并適應當今大數據乃至人工智能時代下的海量數據技術需求,該技術也逐漸被各行各業所采用。比如,它幫助 Facebook 分析其每月超過 16 億的用戶流量,幫助 Visa 發現了數十億美元的金融欺詐等。

由于 Hadoop 深受客戶歡迎,許多公司都推出了各自版本的 Hadoop,也有一些公司則圍繞 Hadoop 開發產品。在 Hadoop 生態系統中,規模最大、知名度最高的公司則是 Cloudera,甚至連 Hadoop 之父 Doug Cutting 本人也加入了這家公司擔任首席架構師職務。近日,我們對他進行了采訪。

Hadoop+ 人工智能,大有可為

“因為 AI 本身就是一種大數據的應用。特別是在對于 AI 的系統進行訓練的時候,使用的數據越多,AI 系統就越先進。”因此,Doug Cutting 認為 Hadoop 和 AI 之間是非常適合、非常匹配的一項技術。

雖然深度學習隨著大數據的紅利消耗殆盡,其天花板日益迫近(深度學習的局限性尤其體現在依賴大規模標注數據和難以有效利用先驗知識等方面),以至于很多人開始認為知識圖譜將成為人工智能發展的關鍵。比如 Google 為了讓人們網絡搜索更加完整,早在 2012 年便已經推出了知識圖譜項目,并且越來越受行業認可。

對此,Doug Cutting 堅持認為,在推動人工智能的過程中,知識圖譜的方法沒有統計學方法(即深度學習)那么成功。“人工智能在當今取得的成功,主要依靠的是統計學的方法,也就是基于巨量數據的各種模型的訓練,而不是通過知識工程的方式。知識工程在八十年代就已經非常流行了,在我還當學生的時候知識工程就很流行。”

雖然 Doug Cutting 并不認為知識圖譜的方式永遠不會成功,但他也強調“目前的現狀當中(知識圖譜)的確不如統計學的方法更加有效”。

開源能使生態更加繁榮和兼容

據了解,得益于技術的開源性,Hadoop 并不是某一個單獨的技術,而是基于多種技術組成的系列家族,整個技術系列是在不斷發展和演進之中,按照 Doug Cutting 的說法那就是:“圍繞著 Hadoop 現在已經形成了非常強大的生態系統,Hadoop 整體生態系統的演進和發展并不受制于其中的任何一種組成的技術。”這就意味著生態更加兼容。

比如,Hadoop 雖然最初只是針對搜索引擎而開發的,在如今 AI 與 IoT 物聯網領域也已經出來了各種各樣的更具針對性的性能也更佳好的開源軟件,這些新的開源軟件是否會取代 Hadoop?Doug Cutting 的答案是不會!“因為在開源的世界當中,競爭的邏輯是不一樣的,沒有哪個公司是擁有開源的技術。每當開源的技術有了新的發明或進展,開源群體的每一分子都會受益于其中。比方說如果在有一些領域會出現新的技術,在某些方面會優于 Hadoop,那 Cloudera 也會毫無疑問去采納這樣的技術放到我們的解決方案當中去交付給客戶。”Doug Cutting 如此表示。

這里最明顯的一個例子便是加州大學伯克利分校 AMP 實驗室所開發的 Spark,Spark 是一種與 Hadoop 相似的開源集群計算環境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優越,尤其是 2014 年 10 月他們完成了 Peta sort 的實驗,這標志著 Spark 越來越接近替代 Hadoop MapReduce 了。盡管創建 Spark 是為了支持分布式數據集上的迭代作業,但是實際上它是對 Hadoop 的補充,可以在 Hadoop 文件系統中并行運行。實際上 Cloudera 也已經將 Spark 納入到了他們的服務之中了。

Doug Cutting 強調,“新的技術的涌現,能夠使得開源的整個生態系統進一步得到發展和改進,這對于整個開源的生態系統來說是一件好事。”

另外 Doug Cutting 還表示,他們也在構建更多基于 Spark 機器學習的工具,與之相關的有一個項目叫 Apache Spot,它是一個網絡安全的能力,幫助的客戶保護他們的網絡安全,免遭黑客的攻擊,“這是我們在 Hadoop 和 Spark 基礎上進一步的推進。”Doug Cutting 表示。

開源軟件另一巨大優勢就是低成本

Doug Cutting 認為對于企業而言,成本永遠都是他們不能不考慮的事情,而開源則在成本上有著天然的優勢。“首先我們的軟件是開源的,而且我們所有解決方案能夠使用普通的商用硬件,所以和上一代相比成本有大幅度降低。而且我們認為今天這種低成本的架構是可以去運行很多其他的應用,只不過有很多其他的應用暫時還沒有用上低成本的架構,還有進一步降低成本的潛力。”

Doug Cutting 發現目前除了在云環境下,亞馬遜、微軟和谷歌的云平臺之上會有一些用戶,他們的大數據應用使用的是專有的商用軟件服務。“但是我認為假以時日,這些客戶會再次認識到在云中使用開源的大數據解決方案,具備成本更低、質量更高的優勢,因為使用開源的解決方案使客戶可以在不同的云環境之間自由遷移。”Doug Cutting 如此表示:“迄今為止,這些在大數據領域的商業或者專有軟件給 Cloudera 帶來的威脅,我認為并不是一個嚴重的威脅。”

模式將越來越高,但不可能達到 90%

目前在 Hadoop 的部署方面,業內已經越來越傾向于云模式了,Doug Cutting 也認為云計算、云模式使得客戶在使用 Hadoop 的方式上具有了更大的靈活性,“如果他們把 Hadoop 用本地安裝運行的形式來使用的話,他們往往是建一個單個很大的集群來支持各種不同的應用,并且擁有一個統一的數據拷貝。如果在云環境當中來運行 Hadoop,他們的數據會在亞馬遜存儲之類的系統當中,云環境供應商已經幫助他們管理了數據的拷貝。與此同時,在云環境當中使用 Hadoop,在這樣的使用場景中,客戶可以針對不同的應用創建應用不同的集群,而這樣的集群開關或者是規模的伸縮,都可以按需進行,這樣對于客戶來說,他們對于應用有了更好控制的同時也增加了靈活性。”

另外,“由于有云計算使得一個公司當中非 IT 部門,例如運營、制造、市場營銷部門都能夠自行采購一些服務并且加以運行,他們的控制能力和靈活性都大大增加了。”Doug Cutting 認為云計算也是促進了 IT 和數據由過去那種集中化的模式向分散化、自助化轉變的進程。

而 Cloudera 大概在 3 年之前順應趨勢推出了相關的云服務,“就 Cloudera 而言,我們目前的業務以云模式做的占到了 15% 到 20%,這肯定會增長。我預計將來會達到 40% 到 60%,但是不會到 90%。”Doug Cutting 認為云端部署與閑暇實體部署在未來若干年當中會長期共存下去。

“比方說對于一些數據量非常之大,而且本身企業的處理資源很強的客戶來說,很多的工作負載特別是像需要全天候永續運行的工作負載是放在本地的物理機上運行,經濟實用性更強,擴展性也更強。另外對于其他一些類型的工作負載,包括對于一些剛剛起步的企業來說,可能放在云環境當中運行更加合適。還有一些工作負載或者是數據的處理,由于受制于法律上的要求,規定必須要放在本地的物理機當中來運行的。”Doug Cutting 建議。

阿甲科技

歡迎訪問阿甲科技集團官方網站!
红牛网特码资料