很遺憾,因您的浏覽器版本過低導緻無法獲得最佳浏覽體驗,推薦下載安裝谷歌浏覽器!

讓雲唯+來告訴你,你想知道大數據問題都在這裡

2017-05-16  來自: 搜狐 浏覽次數:612

什麼是大數據

大數據(big data),指無法在一定時間範圍内用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資産。

大數據的單位有哪些?

最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。

大數據有哪些特征?

大數據的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)

大數據主要技術是哪些?

大數據需要特殊的技術,以有效地處理大量的容忍經過時間内的數據。适用于大數據的技術,包括大規模并行處理(MPP)數據庫、數據挖掘、分布式文件系統、分布式數據庫、雲計算平台、互聯網和可擴展的存儲系統。

大數據的國家政策是什麼?

2015年9月,國務院印發《促進大數據發展行動綱要》,明确到2020年,形成一批具有國際競争力的大數據處理、分析、可視化軟件和硬件支撐平台等産品,培育10家國際領先的大數據核心龍頭企業,500家大數據應用、服務和産品制造企業。

大數據的市場規模有多大?

研究機構IDC預測,全球大數據(Big Data)與分析市場規模将由2015年的1220億美元,在5年間成長超過50%,并在2019年底達到1870億美元的規模。中國信息通信研究院日前發布的《中國大數據發展調查報告(2017)》稱,2016年中國大數據市場規模達168億元,預計2017年~2020年仍将保持30%以上的增長。調查顯示,目前近六成企業已成立數據分析相關部門,超過1/3的企業已經應用大數據。大數據應用為企業帶來最明顯的效果是實現了智能決策和提升了運營效率。




你必須知道的十個大數據案例是哪些?

1. 梅西百貨的實時定價機制。根據需求和庫存的情況,該公司基于SAS的系統對多達7300萬種貨品進行實時調價。

2. Tipp24 AG針對歐洲博彩業構建的下注和預測平台。該公司用KXEN軟件來分析數十億計的交易以及客戶的特性,然後通過預測模型對特定用戶進行動态的營銷活動。這項舉措減少了90%的預測模型構建時間。SAP公司正在試圖收購KXEN。“SAP想通過這次收購來扭轉其長久以來在預測分析方面的劣勢。”Laney分析到。

3. 沃爾瑪的搜索。這家零售業寡頭為其網站Walmart.com自行設計了最新的搜索引擎Polaris,利用語義數據進行文本分析、機器學習和同義詞挖掘等。根據沃爾瑪的說法,語義搜索技術的運用使得在線購物的完成率提升了10%到15%。“對沃爾瑪來說,這就意味着數十億美元的金額。”Laney說。

4.快餐業的視頻分析(Laney沒有說出這家公司的名字)。該公司通過視頻分析等候隊列的長度,然後自動變化電子菜單顯示的内容。如果隊列較長,則顯示可以快速供給的食物;如果隊列較短,則顯示那些利潤較高但準備時間相對長的食品。

5. Morton牛排店的品牌認知。當一位顧客開玩笑地通過推特向這家位于芝加哥的牛排連鎖店訂餐送到紐約Newark機場(他将在一天工作之後抵達該處)時,Morton就開始了自己的社交秀。首先,分析推特數據,發現該顧客是本店的常客,也是推特的常用者。根據客戶以往的訂單,推測出其所乘的航班,然後派出一位身着燕尾服的侍者為客戶提供晚餐。也許,這聽起來過于離奇,但是你必須審視自己:“我是否有能力做到這個程度?”Laney說。

6. PredPol Inc.。PredPol公司通過與洛杉矶和聖克魯斯的警方以及一群研究人員合作,基于地震預測算法的變體和犯罪數據來預測犯罪發生的幾率,可以精确到500平方英尺的範圍内。在洛杉矶運用該算法的地區,盜竊罪和暴力犯罪分布下降了33%和21%。

7. Tesco PLC(特易購)和運營效率。這家超市連鎖在其數據倉庫中收集了700萬部冰箱的數據。通過對這些數據的分析,進行更全面的監控并進行主動的維修以降低整體能耗。

8. American Express(美國運通,AmEx)和商業智能。以往,AmEx隻能實現事後諸葛式的報告和滞後的預測。“傳統的BI已經無法滿足業務發展的需要。”Laney認為。于是,AmEx開始構建真正能夠預測忠誠度的模型,基于曆史交易數據,用115個變量來進行分析預測。該公司表示,對于澳大利亞将于之後四個月中流失的客戶,已經能夠識别出其中的24%。

9. Express s Holding Co.的産品制造。該公司發現那些需要服藥的人常常也是最可能忘記服藥的人。因此,他們開發了一個新産品:會響鈴的藥品蓋和自動的電話呼叫,以此提醒患者按時服藥。

10. Infinity Property & Casualty Corp.的黑暗數據(dark data)。Laney對于黑暗數據的定義是,那些針對單一目标而收集的數據,通常用過之後就被歸檔閑置,其真正價值未能被充分挖掘。在特定情況下,這些數據可以用作其他用途。該公司用累積的理賠師報告來分析欺詐案例,通過算法挽回了1200萬美元的代位追償金額。




十大數據挖掘領域的經典算法

1. C4.5

C4.5算法是機器學習算法中的一種分類決策樹算法,其核心算法是ID3算法. C4.5算法繼承了ID3算法的優點,并在以下幾方面對ID3算法進行了改進:

1)用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;

2)在樹構造過程中進行剪枝;

3)能夠完成對連續屬性的離散化處理;

4)能夠對不完整數據進行處理。

C4.5算法有如下優點:産生的分類規則易于理解,準确率較高。其缺點是:在構造樹的過程中,需要對數據集進行多次的順序掃描和排序,因而導緻算法的低效。

2. The k-means algorithm即K-Means算法

k-means algorithm算法是一個聚類算法,把n的對象根據他們的屬性分為k個分割,k < n。它與處理混合正态分布的最大期望算法很相似,因為他們都試圖找到數據中自然聚類的中心。它假設對象屬性來自于空間向量,并且目标是使各個群組内部的均方誤差總和最小。

3. Support vector machines

支持向量機,英文為Support Vector Machine,簡稱SV機(論文中一般簡稱SVM)。它是一種監督式學習的方法,它廣泛的應用于統計分類以及回歸分析中。支持向量機将向量映射到一個更高維的空間裡,在這個空間裡建立有一個最大間隔超平面。在分開數據的超平面的兩邊建有兩個互相平行的超平面。分隔超平面使兩個平行超平面的距離最大化。假定平行超平面間的距離或差距越大,分類器的總誤差越小。一個極好的指南是C.J.C Burges的《模式識别支持向量機指南》。van der Walt和 Barnard将支持向量機和其他分類器進行了比較。

4. The Apriori algorithm

Apriori算法是一種最有影響的挖掘布爾關聯規則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推算法。該關聯規則在分類上屬于單維、單層、布爾關聯規則。在這裡,所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。

5.最大期望(EM)算法

在統計計算中,最大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中尋找參數最大似然估計的算法,其中概率模型依賴于無法觀測的隐藏變量(Latent Variabl)。最大期望經常用在機器學習和計算機視覺的數據集聚(Data Clustering)領域。

6. PageRank

PageRank是Google算法的重要内容。2001年9月被授予美國專利,專利人是Google創始人之一拉裡·佩奇(Larry Page)。因此,PageRank裡的page不是指網頁,而是指佩奇,即這個等級方法是以佩奇來命名的。

PageRank根據網站的外部鍊接和内部鍊接的數量和質量倆衡量網站的價值。PageRank背後的概念是,每個到頁面的鍊接都是對該頁面的一次投票,被鍊接的越多,就意味着被其他網站投票越多。這個就是所謂的“鍊接流行度”——衡量多少人願意将他們的網站和你的網站挂鈎。PageRank這個概念引自學術中一篇論文的被引述的頻度——即被别人引述的次數越多,一般判斷這篇論文的權威性就越高。

7. AdaBoost

Adaboost是一種疊代算法,其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器),然後把這些弱分類器集合起來,構成一個更強的最終分類器 (強分類器)。其算法本身是通過改變數據分布來實現的,它根據每次訓練集之中每個樣本的分類是否正确,以及上次的總體分類的準确率,來确定每個樣本的權值。将修改過權值的新數據集送給下層分類器進行訓練,最後将每次訓練得到的分類器最後融合起來,作為最後的決策分類器。

8. kNN: k-nearest neighbor classification

K最近鄰(k-Nearest Neighbor,KNN)分類算法,是一個理論上比較成熟的方法,也是最簡單的機器學習算法之一。該方法的思路是:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數屬于某一個類别,則該樣本也屬于這個類别。

9. Naive Bayes

在衆多的分類模型中,應用最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型(Naive Bayesian Model,NBC)。樸素貝葉斯模型發源于古典數學理論,有着堅實的數學基礎,以及穩定的分類效率。同時,NBC模型所需估計的參數很少,對缺失數據不太敏感,算法也比較簡單。理論上,NBC模型與其他分類方法相比具有最小的誤差率。但是實際上并非總是如此,這是因為NBC模型假設屬性之間相互獨立,這個假設在實際應用中往往是不成立的,這給NBC模型的正确分類帶來了一定影響。在屬性個數比較多或者屬性之間相關性較大時,NBC模型的分類效率比不上決策樹模型。而在屬性相關性較小時,NBC模型的性能最為良好。

10. CART:分類與回歸樹

CART, Classification and Regression Trees。在分類樹下面有兩個關鍵的思想。第一個是關于遞歸地劃分自變量空間的想法;第二個想法是用驗證數據進行剪枝。

大數據泡沫有哪些?

(1)這幾年社會上關于大數據的宣傳,媒體人的引進和炒作,有部分内容是在誤導大家,主要原因還是很多人在盲人摸象,少有系統的研究和理解。

(2)隻知其然不知其所以然,導緻對大數據應用的期望太高,大數據技術不是萬金油,在新的技術泛型和技術生态下,現階段技術的穩定性、成熟性和有效性還待進一步發展。

(3)關注重點有問題,導緻目前的很多大數據應用并未涉及到核心業務和計算模型,多是數據的采集和存儲管理,這也是造成行業整體門檻還不夠高,同質化競争激烈,沒有發揮出應有價值的原因。大數據泡沫顯然是客觀存在的,但其長期的應用價值卻不容小觑,泡沫不代表沒有價值,就像2000年的互聯網泡沫,泡沫破滅之後的涅磐,讓人類真正跨入了互聯網時代。大數據泡沫的價值就是讓全民認識到大數據時代數據分析和數據決策的重要性,這波泡沫過去,也許我們能正式跨入人工智能時代。




大數據需要哪些人才?

大數據主要職位:首席數據官,數據規劃師,數據工程師,數據架構師,數據分析師,數據應用師,數據科學家

素質要求:專業技能,業務理解能力,學習能力,數據信仰,創新精神

企業要活用大數據,需要3種人才:第一是數據的IT專家;其二是分析數據的資料分析人員;其叁是活用數據的經理人。

什麼數據科學家?

數據科學家是運用統計分析、機器學習、分布式處理等技術,從大量數據中提取出對業務有意義的信息,以易懂的形式傳達給決策者,并創造出新的數據運用服務的人才。

數據科學家有哪幾種類别?

理論數據科學家緻力于數據科學的理論研究,為其他的數據科學家創造框架和工具。本質上是将統計數據、數據存儲和計算機科學在理論層面應用于大數據的學者。

應用數據科學家對于如何運用大數據有更好的理解。科學需要嚴謹,我認為數據應用植根于學術嚴謹,但是在應用層面工作。應用數據科學家的工作是先進行架設,再用大數據進行驗證。每個人都會受惠于他們的研究發現和工具。

行業數據科學家用應用數據科學地解決某個具體的市場問題、行業、生意,實現利益最大化的單一目的。行業數據科學家得擅長溝通,能夠讓他們的發現應用于商業。将工商、經濟和會計方面的經驗應用在商業領域是他的價值所在。與商業分析師和商業顧問的角色有點相似。

要成為一名數據科學家,需要掌握哪些核心技能?

作為一名數據科學家,一般需要編程和數據庫、數學&統計、交流和可視化、領導力和軟技能:四個方面的技能。

1、編程和數據庫

一般來說,數據科學家大多要求具備編程、計算機科學相關的專業背景,掌握對處理大數據所必需的Hadoop、Mahout等大規模并行處理技術與機器學習相關的技能。一般能利用python熟練的獲取數據,整理數據,并會使用matplotlib展現數據。

2、數學、統計和數據挖掘

除了數學、統計方面的素養之外,還需要具備使用SPSS、SAS等主流統計分析軟件的技能。其中,面向統計分析的開源編程語言及其運行環境「R」最近備受矚目。R的強項不僅在于其包含了豐富的統計分析庫,而且具備将結果進行可視化的高品質圖表生成功能,并可以通過簡單的命令來運行。此外,它還具備稱為CRAN(The Comprehensive R Archive Network)的包擴展機制,通過導入擴展包就可以使用标準狀态下所不支持的函數和數據集。

3、數據可視化

信息的質量很大程度上依賴于其表達方式。對數字羅列所組成的數據中所包含的意義進行分析,開發Web原型,使用外部API将圖表、地圖、Dashboard等其他服務統一起來,從而使分析結果可視化,這是對于數據科學家來說十分重要的技能之一。

4、領導力和軟技能

數據科學家不僅要具有黑客的頭腦,對數據有好奇心,還要對商業有熱情,是有影響力、有創造力,能解決問題的人。

2017年大數據版圖



雲唯IT實訓 一家對結果負責的IT定崗實訓機構  專注雲計算培訓、大數據培訓的高新IT人才培訓基地

【0基礎 0費用 IT培訓 名企名師 高薪就業】隻專注在IT雲計算培訓,大數據培訓領域。


版權所有Copyright 2014 - 2019

技術支持:北京IT雲計算培訓 網站地圖 XML

本站關鍵字: IT培訓 雲計算培訓 大數據培訓 Web前端培訓 大數據營銷培訓


掃一掃訪問移動端