專屬客服號
微信訂閱號
全面提升數據價值
賦能業務提質增效
大數據時代已經來臨,大數據技術在學業,工業中的不斷出現也證明了它的重要性,它的技術包含很多層面,我們需要在各個環節認真的研究這項技術。
大數據關鍵技術
1,大數據生命周期
底層是基礎設施,涵蓋計算資源、內存與存儲和網絡互聯,具體表現為計算節點、集群、機柜和數據中心。在此之上是數據存儲和管理,包括文件系統、數據庫和類似YARN的資源管理系統。然后是計算處理層,如hadoop、MapReduce和Spark,以及在此之上的各種不同計算范式,如批處理、流處理和圖計算等,包括衍生出編程模型的計算模型,如BSP、GAS 等。數據分析和可視化基于計算處理層。分析包括簡單的查詢分析、流分析以及更復雜的分析(如機器學習、圖計算等)。查詢分析多基于表結構和關系函數,流分析基于數據、事件流以及簡單的統計分析,而復雜分析則基于更復雜的數據結構與方法,如圖、矩陣、迭代計算和線性代數。一般意義的可視化是對分析結果的展示。但是通過交互式可視化,還可以探索性地提問,使分析獲得新的線索,形成迭代的分析和可視化。基于大規模數據的實時交互可視化分析以及在這個過程中引入自動化的因素是目前研究的熱點。
2.大數據技術生態
大數據的基本處理流程與傳統數據處理流程并無太大差異,主要區別在于:由于大數據要處理大量、非結構化的數據,所以在各處理環節中都可以采用并行處理。目前,Hadoop、MapReduce和Spark等分布式處理方式已經成為大數據處理各環節的通用處理方法。
低成本、高可靠、高擴展、高有效、高容錯等特性讓Hadoop成為最流行的大數據分析系統,然而其賴以生存的HDFS 和MapReduce 組件卻讓其一度陷入困境——批處理的工作方式讓其只適用于離線數據處理,在要求實時性的場景下毫無用武之地。因此,各種基于Hadoop的工具應運而生。為了減少管理成本,提升資源的利用率,有當下眾多的資源統一管理調度系統,例如Twitter 的Apache Mesos、Apache 的YARN、Google 的Borg、騰訊搜搜的Torca、Facebook Corona(開源)等。
3.大數據采集與預處理
在大數據的生命周期中,數據采集處于第一個環節。根據MapReduce產生數據的應用系統分類,大數據的采集主要有4種來源:管理信息系統、Web信息系統、物理信息系統、科學實驗系統。對于不同的數據集,可能存在不同的結構和模式,如文件、XML 樹、關系表等,表現為數據的異構性。對多個異構的數據集,需要做進一步集成處理或整合處理,將來自不同數據集的數據收集、整理、清洗、轉換后,生成到一個新的數據集,為后續查詢和分析處理提供統一的數據視圖。針對管理信息系統中異構數據庫集成技術、Web 信息系統中的實體識別技術和DeepWeb集成技術、傳感器網絡數據融合技術已經有很多研究工作,取得了較大的進展,已經推出了多種數據清洗和質量控制工具,例如,美國SAS公司的Data Flux、美國IBM 公司的Data Stage、美國Informatica 公司的Informatica Power Center。
4.大數據存儲與管理
傳統的數據存儲和管理以結構化數據為主,因此關系數據庫系統(RDBMS)可以一統天下滿足各類應用需求。大數據往往是半結構化和非結構化數據為主,結構化數據為輔,而且各種大數據應用通常是對不同類型的數據內容檢索、交叉比對、深度挖掘與綜合分析。面對這類應用需求,傳統數據庫無論在技術上還是功能上都難以為繼。因此,近幾年出現了oldSQL、NoSQL 與NewSQL 并存的局面。總體上,按數據類型的不同,大數據的存儲和管理采用不同的技術路線,大致可以分為3類。第1類主要面對的是大規模的結構化數據。針對這類大數據,通常采用新型數據庫集群。它們通過列存儲或行列混合存儲以及粗粒度索引等技術,結合MPP(Massive Parallel Processing)架構高效的分布式計算模式,實現對PB 量級數據的存儲和管理。這類集群具有高性能和高擴展性特點,在企業分析類應用領域已獲得廣泛應用;第2類主要面對的是半結構化和非結構化數據。應對這類應用場景,基于Hadoop開源體系的系統平臺更為擅長。它們通過對Hadoop生態體系的技術擴展和封裝,實現對半結構化和非結構化數據的存儲和管理;第3類面對的是結構化和非結構化混合的大數據,因此采用MPP 并行數據庫集群與Hadoop 集群的混合來實現對百PB 量級、EB量級數據的存儲和管理。一方面,用MPP 來管理計算高質量的結構化數據,提供強大的SQL和OLTP型服務;另一方面,用Hadoop實現對半結構化和非結構化數據的處理,以支持諸如內容檢索、深度挖掘與綜合分析等新型應用。這類混合模式將是大數據存儲和管理未來發展的趨勢。
5.大數據計算模式與系統
所謂大數據計算模式,即根據大數據的不同數據特征和計算特征,從多樣性的大數據計算問題和需求中提煉并建立的各種高層抽象(abstraction)或模型(model)。例如,MapReduce 是一個并行計算抽象,加州大學伯克利分校著名的Spark系統中的“分布內存抽象RDD”,CMU 著名的圖計算系統GraphLab 中的“圖并行抽象”(Graph Parallel Abstraction)等。傳統的并行計算方法,主要從體系結構和編程語言的層面定義了一些較為底層的并行計算抽象和模型,但由于大數據處理問題具有很多高層的數據特征和計算特征,因此大數據處理需要更多地結合這些高層特征考慮更為高層的計算模式。
6.大數據分析與可視化
基于機器學習的大數據分析具有自己獨特的特點。
(1)迭代性:由于用于優化問題通常沒有閉式解,因而對模型參數確定并非一次能夠完成,需要循環迭代多次逐步逼近最優值點。
(2)容錯性:機器學習的算法設計和模型評價容忍非最優值點的存在,同時多次迭代的特性也允許在循環的過程中產生一些錯誤,模型的最終收斂不受影響。
(3)參數收斂的非均勻性:模型中一些參數經過少數幾輪迭代后便不再改變,而有些參數則需要很長時間才能達到收斂。
大數據技術面臨的問題
1,如何利用信息技術等手段處理非結構化和半結構化數據
大數據中,結構化數據只占 15%左右,其余的 85%都是非結構化的數據,它們大量存在于社交網絡、互聯網和電子商務等領域。另一方面,也許有 90%的數據來自開源數據,其余的被存儲在數據庫中。大數據的不確定性表現在高維、多變和強隨機性等方面。股票交易數據流是不確定性大數據的一個典型例子。大數據刺激了大量研究問題。非結構化和半結構化數據的個體表現、一般性特征和基本原理尚不清晰,這些都需要通過包括數學、經濟學、社會學、計算機科學和管理科學在內的多學科交叉來研究和討論。給定一種半結構化或非結構化數據,比如圖像,如何把它轉化成多維數據表、面向對象的數據模型或者直接基于圖像的數據模型?值得注意的是,大數據每一種表示形式都僅呈現數據本身的側面表現,并非全貌。
如果把通過數據挖掘提取 “粗糙知識” 的過程稱為 “一次挖掘” 過程,那么將粗糙知識與被量化后主觀知識,包括具體的經驗、常識、本能、情境知識和用戶偏好,相結合而產生“智能知識”過程就叫做“二次挖掘”。從“一次挖掘”到“二次挖掘”類似事物“量”到“質” 的飛躍。
2,如何探索大數據復雜性、不確定性特征描述的刻畫方法及大數據的系統建模
這一問題的突破是實現大數據知識發現的前提和關鍵。從長遠角度來看,依照大數據的個體復雜性和隨機性所帶來的挑戰將促使大數據數學結構的形成,從而導致大數據統一理論的完備。從短期而言,學術界鼓勵發展一種一般性的結構化數據和半結構化、非結構化數據之間的轉化原則,以支持大數據的交叉工業應用。管理科學,尤其是基于最優化的理論將在發展大數據知識發現的一般性方法和規律性中發揮重要的作用。
大數據的復雜形式導致許多對 “粗糙知識” 的度量和評估相關的研究問題。已知的最優化、數據包絡分析、期望理論、管理科學中的效用理論可以被應用到研究如何將主觀知識融合到數據挖掘產生的粗糙知識的 “二次挖掘” 過程中。這里人機交互將起到至關重要的作用。
3,數據異構性與決策異構性的關系對大數據知識發現與管理決策的影響
在大數據環境下,管理決策面臨著兩個 “異構性” 問題:“數據異構性” 和 “決策異構性”。傳統的管理決定模式取決于對業務知識的學習和日益積累的實踐經驗,而管理決策又是以數據分析為基礎的。
大數據已經改變了傳統的管理決策結構的模式。研究大數據對管理決策結構的影響會成為一個公開的科研問題。除此之外,決策結構的變化要求人們去探討如何為支持更高層次的決策而去做 “二次挖掘”。無論大數據帶來了哪種數據異構性,大數據中的 “粗糙知識” 仍可被看作 “一次挖掘” 的范疇。通過尋找 “二次挖掘” 產生的 “智能知識” 來作為數據異構性和決策異構性之間的橋梁是十分必要的。探索大數據環境下決策結構是如何被改變的,相當于研究如何將決策者的主觀知識參與到決策的過程中。
大數據的數據分析其實也是對我們的生活環境和習慣的分析,憑借大數據分析這種手段,為人們提供更合適的產品服務或發展方向,也是大數據的實用意義。
本文由五度數科整理,轉載請標明出處,違者必究!
請完善以下信息,我們的顧問會在1個工作日內與您聯系,為您安排產品定制服務
評論