大資料的發展

Mondo 科技 更新 2024-02-01

正是因為大資料的廣泛存在,大資料問題的解決非常具有挑戰性。 它的廣泛應用促使越來越多的人關注和研究大資料。 以下是大資料發展中的一些代表性事件。

2005年,Hadoop專案誕生了。 Hadoop最初源自Google的程式設計模型包MapReduce,該包最初只與Web索引有關,並由Apache軟體公司作為分布式系統基礎設施引入。 Hadoop可以幫助使用者在不了解分發底層細節的情況下開發分布式程式,並充分利用集群的強大功能進行高速計算和儲存,從而以可靠、高效、可擴充套件的方式處理資料。 Hadoop框架的核心設計是HDFS和MapReduce,HDFS為海量資料提供儲存,MapReduce為海量資料提供計算。

2008年底,“大資料”得到了美國一些知名電腦科學研究人員的認可,行業組織“計算社群聯盟”發表了一篇關於大資料計算的有影響力的報告:在商業、科學、社會上創造革命性的突破。 事實上,大資料對新用途和新見解非常重要,而不是資料本身,這一事實改變了人們對它的看法。 計算社群聯盟是第乙個提出大資料概念的人。

2009年年中,美國**通過了資料發布會政府**向公眾提供各種**資料的方式。 ** 大於 4這450,000個資料集用於確保許多智慧型手機應用程式可以跟蹤資訊,包括航班資訊,產品召回和特定地區的失業率,從而刺激了肯亞和英國的類似舉措。

2010年2月,肯尼斯·庫克(Kenneth Cooker)在《經濟學人》(The Economist)上發表了乙份長達14頁的大資料報告《資料,資料無處不在》。 庫克在他的報告中說:“世界擁有難以想象的大量數字資訊,而且它正在以非常快的速度增長。 從經濟學界到科學界,從第一產業界到藝術領域,人們都以多種方式感受到了這種巨大資訊的影響。 科學家和計算機工程師為這種現象創造了乙個新術語:“大資料”。 因此,庫克成為最早看到大資料時代趨勢的資料科學家之一。

2011 年 2 月,IBM 的 Watson 超級計算機每秒掃瞄和分析 4 TB(約 2 億頁文字),在美國著名問答電視節目“Jeopardy”中擊敗兩名人類參賽者,贏得了冠軍。 後來,《紐約時報》將這一時刻視為“大資料計算的勝利”。

2011年5月,全球知名諮詢公司麥肯錫全球研究院(MGI)發布了乙份報告——《大資料:創新、競爭和生產力的下乙個新前沿》,這是第一次有專業機構全面引入和設想大資料。 根據該報告,大資料已經滲透到當今的每個行業和業務功能,成為重要的生產要素。 海量資料的挖掘和使用預示著新一輪生產率增長和消費者過剩浪潮的到來。 該報告還提到,“大資料”源於資料生成和收集的能力和速度的急劇提高——隨著越來越多的人、裝置和感測器通過數字網路連線,這徹底改變了生成、傳輸、共享和訪問資料的能力。

2011年12月,工業和資訊化部發布《物聯網“十二五”規劃》,提出將資訊處理技術作為四大重點技術創新專案之一,包括海量資料儲存、資料探勘、影象智慧型分析等,這些都是大資料的重要組成部分。

2012年1月,大資料成為瑞士達沃斯世界經濟論壇的主題之一,並發布了《大資料,大影響》報告,宣稱資料已成為一種新的經濟資產類別,就像貨幣或**一樣。

2012年3月,歐巴馬在白宮啟動了大資料研發計畫,標誌著大資料已成為時代的重要特徵。 2012年3月22日,歐巴馬宣布,大資料領域的2億美元是大資料技術從商業行為上公升到國家科技戰略的分水嶺。 國家數字主權體現了對資料的擁有和控制。 數字主權將是繼邊防、海防、防空之後,大國又乙個發揮的空間。

2012年4月,美國軟體公司Splunk於19日在納斯達克成功上市,成為第一家上市的大資料處理公司。 在美國經濟持續不懈的背景下,Splunk 首日交易表現突出,首日漲幅超過一倍。 Splunk成立於2003年,是大資料監控和分析服務的領先軟體提供商。 Splunk的成功上市,推動了資本市場對大資料的關注,同時IT廠商也加速了大資料的部署。

2012年7月,聯合國在紐約發布了乙份關於大資料的報告,總結了各國如何利用大資料更好地服務和保護其人民。 這 *** 體現了個人、公共部門和私營部門在資料生態系統中各自的角色、動機和需求。 例如,通過對關注和更好服務的渴望,個人提供資料和眾包資訊,以及對私隱和選擇退出權的需求; 公共部門提供統計資料、裝置資訊、健康指標以及稅收和消費者資訊,以改善服務和效率,以及對私隱和選擇退出權力的需求。 ** 報告還指出,當今人們可獲得的大量資料資源,無論是新舊資料資源,都可用於以前所未有的方式實時分析社會人口統計資料。

2014年4月,世界經濟論壇發布了以“大資料的回報與風險”為主題的第13版《全球資訊科技報告》。 根據該報告,未來幾年各種ICT政策將變得更加重要。 全球大資料產業日益活躍,技術演進和應用創新的加速發展,使各國逐漸意識到大資料在促進經濟發展、改善公共服務、增進人民福祉、甚至保障美好生活等方面的重要意義。

2014年5月,白宮發布2014年全球“大資料”**研究報告《大資料:抓住機遇,保護價值》。 報告鼓勵利用資料來推動社會進步,特別是在市場和現有機構不支援這種進步的領域; 需要框架、結構和研究來幫助保護美國人對保護個人私隱、確保公平或防止歧視的堅定信念。

2016年3月,我國《“十三五”規劃綱要》指出,落實國家大資料戰略,以大資料為基礎戰略資源,全面推進大資料發展,加快資料資源共享開放開發應用,助力產業轉型公升級和社會治理創新。 全面推進重點領域大資料高效採集和有效整合,深化高質量資料與社會資料的關聯分析與綜合利用,提公升巨集觀調控、市場監管、社會治理、公共服務的精準度和有效性。 加快海量資料採集、儲存、清洗、分析挖掘、視覺化、安全私隱保護等領域關鍵技術研究。

2018年12月,中國召開了“全國工業和資訊化大會”。 會上提出,將大資料與雲計算、人工智慧等前沿創新技術深度融合。 大資料、雲計算、人工智慧等前沿技術的出現和發展,都源於社會生產方式的進步和資訊科技產業的發展,前沿技術的融合將使超大規模計算、智慧型自動化和海量資料分析成為可能,在短時間內完成高複雜度和高精度的資訊處理。

大資料是一場革命,它將改變我們的生活、工作和思維方式。 海量新資料**帶來的量變,引起了學術界、商界和政界的高度關注。

2 大資料技術的發展

大資料技術是新一代技術和架構,它以低成本和快速的採集、處理和分析技術從各種超大規模資料中提取價值。 大資料技術不斷湧現和發展,讓我們處理海量資料變得更容易、更便宜、更快捷,成為使用資料的好助手,甚至改變了許多行業的商業模式

1)向大資料採集和預處理方向發展。這個方向最常見的問題是資料的多源性和多樣性,這導致了資料質量的差異,嚴重影響了資料的可用性。 針對這些問題,許多公司推出了各種資料清洗和質量控制工具(例如IBM的Data Stage)。

2)向大資料儲存和管理方向發展。這個方向上最常見的挑戰是大型儲存規模、複雜的儲存管理,以及平衡結構化、非結構化和半結構化資料的需求。 分布式檔案系統和分布式資料庫相關技術的發展正在有效地解決這些問題。 在大資料儲存和管理方向上,大資料索引和查詢技術的發展,實時和流式大資料儲存和處理,值得我們特別關注。

3)大資料軟硬體架構。大資料計算的核心原則之一就是把握軟硬體,從具體應用入手,精心選擇軟硬體架構實現,並在執行過程中持續協同優化。 在當今的大資料應用中,最成功和最流行的軟硬體協同優化示例是基於神經網路的深度學習系統。 業內領先的網際網絡公司已經建立了大型車隊,致力於視覺和語音的深度學習。 然後,在系統執行過程中,對軟硬體進行優化,提高學習系統的效率。 英特爾公司資助參與 GraphLab 和 Petuum 的開源系統。

4)大資料計算模式的方向。由於大資料處理需求的多樣化,出現了多種典型的計算模式,包括大資料查詢和分析計算(如HIVE)、批處理計算(如Hadoop MapReduce)、流計算(如Storm)、迭代計算(如Haloop)、圖計算(如Pregel)和記憶體計算(如HANA),這些計算模式的混合計算模式將成為滿足大資料多樣化需求的有效手段資料處理和應用。

5)大資料分析與挖掘方向。在資料量快速擴大的同時,需要進行深入的資料分析和挖掘,對自動化分析的要求也越來越高,湧現出越來越多的大資料分析工具和產品,比如用於大資料探勘的R Hadoop版本和基於MapReduce開發的資料探勘演算法。

6)大資料視覺化分析。通過視覺化幫助人們探索和解讀複雜的資料,有利於決策者挖掘資料的商業價值,進而有助於大資料的發展。 許多公司也在進行研究,試圖將視覺化引入到他們不同的資料分析和顯示產品中,各種潛在的相關產品將繼續出現。 視覺化工具tabealu的成功推出反映了對大資料視覺化的需求。

7)大資料安全。當我們使用大資料分析和資料探勘來獲取商業價值時,黑客很可能會攻擊我們並收集有用的資訊。 因此,大資料的安全性一直是企業和學術界非常關注的研究方向。 限制資料呈現的檔案訪問控制、底層裝置加密、匿名化保護、加密保護等技術正在最大程度地保護資料。

《大資料知識叢書》由范崇軍教授團隊撰寫,每篇文章沒有嚴格的語境。 **請註明本文出處)。

相關問題答案

    大資料產業的發展歷程及市場開拓

    一 大資料產業發展歷程 在全球範圍內,大資料在年之前是乙個概念或假設傳播層面的新名詞,並沒有形成實質性的產業發展。年後,隨著網際網絡的成熟和移動網際網絡的爆發式增長,大資料時代正式宣告,大資料的概念開始風靡全球。代表性事件包括年麥肯錫公司的研究報告 大資料 創新 競爭和生產力的下乙個前沿 該報告指出...

    大資料和程式設計的未來

    大資料和程式設計的未來是乙個多樣化 複雜和令人興奮的領域。隨著技術的不斷進步和應用的不斷深入,大資料和程式設計將在許多領域顯示出強大的潛力。以下是對大資料和程式設計未來發展方向的一些思考 人工智慧與機器學習習 人工智慧和機器習在大資料處理和分析中發揮著越來越重要的作用。隨著演算法和計算能力的提高,機...

    大資料分析行業發展現狀

    大資料分析行業隨著數字經濟的快速發展 大資料分析行業作為直接賦能企業數位化運營的大資料子行業,是大資料行業的重要組成部分。借助大資料分析產品和服務,幫助企業實現資料價值化和數位化運營,最終實現降本增效 流程優化 低碳運營 產品創新 服務提公升 風險管控 戰略決策等目標。近年來,隨著下游行業對全業務流...

    大資料資訊平台對海量資料進行採集、處理和分析的發展趨勢

    創意靈感中心 隨著網際網絡技術的不斷進步,大資料資訊平台已成為當今社會發展的重要趨勢。大資料資訊平台通過對海量資料的採集 處理和分析,為企業 企業和個人提供更加精準 高效的資訊服務。本文將對大資料資訊平台的快速發展進行深入分析,以期為相關領域的發展提供參考。.大資料資訊平台概述。大資料資訊平台是指通...

    大容量硬碟趨勢 迎接大資料時代的挑戰

    隨著科學技術的飛速發展,大資料時代已經到來,資料量呈現出一流的增長態勢。在此背景下,對大容量硬碟的需求也在增加,這已成為應對大資料時代挑戰的關鍵因素。本文將對大容量硬碟的發展趨勢進行分析,以期為我國硬碟行業的發展提供參考和啟示。一是發展大容量硬碟技術。.產能持續增長。為了滿足大資料時代對儲存容量的需...