簡介

大數據分析實驗室

大數據作爲時下最火熱的IT行業的詞彙,隨之而來的數據倉庫、數據安全、數據分析、數據挖掘等等圍繞大數據的商業價值的利用逐漸成爲行業人士爭相追捧的利潤焦點。隨著大數據時代的來臨,大數據分析也應運而生。

界面工具

用于展現分析的前端開源工具有JasperSoft,Pentaho, Spagobi, Openi, Birt等等。

用于展現分析商用分析工具有Style IntelligenceRapidMiner Radoop、Cognos, BO, Microsoft Power BI, Oracle,Microstrategy,QlikView、Tableau 。

國內的有BDP,國雲數據(大數據魔鏡),思邁特,FineBI等等。

數據倉庫

Teradata AsterData, EMC GreenPlum, HP Vertica 等等。

數據集市

QlikView、 Tableau 、Style Intelligence等等。

大數據分析

大數據分析的六个基本方面

1. Analytic Visualizations(可视化分析)
  不管是對數據分析專家還是普通用戶,數據可視化是數據分析工具最基本的要求。可視化可以直觀的展示數據,讓數據自己說話,讓觀衆聽到結果。

2. Data Mining Algorithms(数据挖掘算法)
  可視化是給人看的,數據挖掘就是給機器看的。集群、分割、孤立點分析還有其他的算法讓我們深入數據內部,挖掘價值。這些算法不僅要處理大數據的量,也要處理大數據的速度。

3. Predictive Analytic Capabilities(预测性分析能力)
  數據挖掘可以讓分析員更好的理解數據,而預測性分析可以讓分析員根據可視化分析和數據挖掘的結果做出一些預測性的判斷。

4. Semantic Engines(语义引擎)
  我們知道由于非結構化數據的多樣性帶來了數據分析的新的挑戰,我們需要一系列的工具去解析,提取,分析數據。語義引擎需要被設計成能夠從“文檔”中智能提取信息。

5. Data Quality and Master Data Management(数据质量和数据管理)

數據質量和數據管理是一些管理方面的最佳實踐。通過標准化的流程和工具對數據進行處理可以保證一個預先定義好的高質量的分析結果。

假如大數據真的是下一個重要的技術革新的話,我們最好把精力關注在大數據能給我們帶來的好處,而不僅僅是挑戰。

6.数据存储,數據倉庫

數據倉庫是为了便于多维分析和多角度展示数据按特定模式进行存储所建立起来的关系型数据库。在商业智能系统的设计中,數據倉庫的构建是关键,是商业智能系统的基础,承担对业务系统数据整合的任务,为商业智能系统提供数据抽取、转换和加载(ETL),並按主題對數據進行查詢和訪問,爲聯機數據分析和數據挖掘提供數據平台。

發展狀況

開源大數據

1. Hadoop HDFS、Hadoop MapReduce, HBase、Hive 渐次诞生,早期Hadoop生态圈逐步形成。

2. Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用户。

一体机數據倉庫

IBM PureData(Netezza), OracleExadata, SAP Hana等等。

分析成效

1.积极主动&预测需求: 企业机构面临着越来越大的竞争压力,它们不仅需要获取客户,还要了解客户的需求,以便提升客户体验,并发展长久的关系。客户通过分享数据,降低数据使用的隐私级别,期望企业能够了解他们,形成相应的互动,并在所有的接触点提供无缝体验。

爲此,企業需要識別客戶的多個標識符(例如手機、電子郵件和地址),並將其整合爲一個單獨的客戶ID。由于客戶越來越多地使用多個渠道與企業互動,爲此需要整合傳統數據源和數字數據源來理解客戶的行爲。此外,企業也需要提供情境相關的實時體驗,這也是客戶的期望。

2.緩沖風險&減少欺詐:安全和欺詐分析旨在保護所有物理、財務和知識資産免受內部和外部威脅的濫用。高效的數據和分析能力將確保最佳的欺詐預防水平,提升整個企業機構的安全:威懾需要建立有效的機制,以便企業快速檢測並預測欺詐活動,同時識別和跟蹤肇事者。

將統計、網絡、路徑和大數據方法論用于帶來警報的預測性欺詐傾向模型,將確保在被實時威脅檢測流程觸發後能夠及時做出響應,並自動發出警報和做出相應的處理。數據管理以及高效和透明的欺詐事件報告機制將有助于改進欺詐風險管理流程。

此外,對整個企業的數據進行集成和關聯可以提供統一的跨不同業務線、産品和交易的欺詐視圖。多類型分析和數據基礎可以提供更准確的欺詐趨勢分析和預測,並預測未來的潛在操作方式,確定欺詐審計和調查中的漏洞。

3.提供相关产品: 产品是任何企业机构生存的基石,也通常是企业投入最大的领域。产品管理团队的作用是辨识推动创新、新功能和服务战略路线图的发展趋势。

通過對個人公布的想法和觀點的第三方數據源進行有效整理,再進行相應分析,可以幫助企業在需求發生變化或開發新技術的時候保持競爭力,並能夠加快對市場需求的預測,在需求産生之前提供相應産品。

4.个性化&服务: 公司在處理结构化数据方面仍然有些吃力,并需要快速应对通过数字技术进行客户交互所带来的不稳定性。要做出实时回应,并让客户感觉受到重视,只能通过先进的分析技术实现。大数据带来了基于客户个性进行互动的机会。这是通过理解客户的态度,并考虑实时位置等因素,从而在多渠道的服务环境中带来个性化关注实现的。

5.优化&改善客户体验 运营管理不善可能会导致无数重大的问题,这包括面临损害客户体验,最终降低品牌忠诚度的重大风险。通过在流程设计和控制,以及在商品或服务生产中的业务运营优化中应用分析技术,可以提升满足客户期望的有效性和效率,并实现卓越的运营。

通過部署先進的分析技術,可以提高現場運營活動的生産力和效率,並能夠根據業務和客戶需求優化組織人力安排。數據和分析的最佳化使用可以帶來端對端的視圖,並能夠對關鍵運營指標進行衡量,從而確保持續不斷的改進。

例如,對于許多企業來說,庫存是當前資産類別中最大的一個項目——庫存過多或不足都會直接影響公司的直接成本和盈利能力。通過數據和分析,能夠以最低的成本確保不間斷的生産、銷售和/或客戶服務水平,從而改善庫存管理水平。數據和分析能夠提供目前和計劃中的庫存情況的信息,以及有關庫存高度、組成和位置的信息,並能夠幫助確定存庫戰略,並做出相應決策。客戶期待獲得相關的無縫體驗,並讓企業得知他們的活動。

異步分析

异步處理的大數據分析中遵守了捕获、存储加分析的流程,过程中数据由传感器、网页服务器、销售终端、移动设备等获取,之后再存储到相应设备上,之后再进行分析。由于这些类型的分析都是通过传统的关系型数据库管理系统(RDBMS)進行的,數據形式都需要轉換或者轉型成爲RDBMS能夠使用的結構類型,例如行或者列的形式,並且需要和其它的數據相連續。

處理的過程被稱之爲提取、轉移、加載或者稱爲ETL。首先將數據從源系統中提取處理,再将数据标准化處理且将数据发往相应的数据仓储等待进一步分析。在传统数据库环境中,这种ETL步骤相对直接,因为分析的对象往往是为人们熟知的金融报告、销售或者市场报表、企业资源规划等等。然而在大数据环境下,ETL可能会变得相对复杂,因此转型过程对于不同类型的数据源之间處理方式是不同的。

當分析開始的時候,數據首先從數據倉儲中會被抽出來,被放進RDBMS里以产生需要的报告或者支撑相应的商业智能应用。在大數據分析的环节中,裸数据以及经转换了的数据大都会被保存下来,因为可能在后面还需要再次转换。

區別

如何进行大數據分析 

利用大數據進行分析,大致是需要六個過程,提出問題——问题分析——数据准备——数据分析——产生报告——提出方案,大數據分析,主要是围绕这六个进行开展。

进行大數據分析,虽说各个行业都不一定相同,但是基本思路都是一样的,分析的对象有:市场,用户,渠道,效果,这几大类,如果有条件还可以进行分支拓展。