第一章:大数据概述


文档摘要

第一章 大数据概述 鸣也Liu.Y,王洲烽   本课程主要介绍大数据( Big Data) 的基本概念、影响和应用领域,还介绍了大数据处理架构Hadoop。朋友们上船啦,我们开始大数据的冒险之旅喽,大家握好船桨准备出发!!!!!   大数据时代悄然来临,带来了信息技术发展的巨大变革,并深刻影响着社会生产和人民生活的方方面面。全球范围内,世界各国政府均高度重视大数据技术的研究和产业的发展,纷纷把大数据上升为国家战略加以重点推进。企业和学术机构纷纷加大技术、资金和人员投入力度,加强对大数据关键技术的研发与应用,以期在“第三次信息化浪潮”中占得先机、引领市场。

第一章 大数据概述

鸣也Liu.Y,王洲烽

  本课程主要介绍大数据( Big Data) 的基本概念、影响和应用领域,还介绍了大数据处理架构Hadoop。朋友们上船啦,我们开始大数据的冒险之旅喽,大家握好船桨准备出发!!!!!

  大数据时代悄然来临,带来了信息技术发展的巨大变革,并深刻影响着社会生产和人民生活的方方面面。全球范围内,世界各国政府均高度重视大数据技术的研究和产业的发展,纷纷把大数据上升为国家战略加以重点推进。企业和学术机构纷纷加大技术、资金和人员投入力度,加强对大数据关键技术的研发与应用,以期在“第三次信息化浪潮”中占得先机、引领市场。大数据已经不是“镜中花、水中月”,它的影响力和作用力正迅速触及社会的每个角落,所到之处,或是颠覆,或是提升,都让人们深切感受到了大数据实实在在的威力。

1. 1 大数据时代

1.1.1 第三次信息化浪潮

信息化浪潮 时间 标志 解决的问题
第一次浪潮 1980 个人计算机 信息处理
第二次浪潮 1995 互联网 信息传输
第三次浪潮 2010 物联网、云计算和大数据 信息爆炸

  1980年前后,个人计算机开始普及,使得计算机走入企业和千家万户,大大提高了社会生产力,也使人类迎来了第一次信息化浪潮,Intel、 IBM、苹果、微软、联想等企业是这个时期的标志。随后,在1995年前后,人类开始全面进人互联网时代,互联网的普及把世界变成“地球村”,每个人都可以自由徜徉于信息的海洋,由此,人类迎来了第二次信息化浪潮,这个时期也缔造了雅虎、谷歌、阿里巴巴、百度等互联网巨头。时隔15年,在2010年前后,云计算、大数据、物联网的快速发展,拉开了第三次信息化浪潮的大幕,大数据时代已经到来,也必将涌现出一批新的市场标杆企业。

1.1.2 大数据时代来临

  互联网大数据时代的到来,已成为人们不可阻挡的趋势。我们进入以“互联网+”为代表的信息时代,信息化已经成为全球性、全局性、战略性的变革力量,正在深刻影响着经济、政治、军事、文化和社会等各个方面,深刻改变着人们的生产生活方式,也在推动着区域发展和行业竞争格局发生重大变化。信息时代所带来的一切重要变革,不仅来自于技术创新,更源自理念创新。从某种程度来说,没有共享,就没有互联网,海量数据只有在共享的前提下,才能够称之为大数据。

  大数据的价值不仅在于数据本身,而在于数据所反映问题的真实性和科学性,采集和存储大量数据,只是大数据应用的第一个阶段,对所占有的数据进行深入分析,实现开发利用,从中发现新知识、创造新价值、提升新能力,取得实实在在的工作成效,才能够真正体现数据的价值。在掌握海量数据,实现互联互通的同时,我们应针对事业发展的具体需求,认真思考探索,如何才能最大程度地实现大数据的有效利用,使之能够为决策提供依据,为风险提供预警,为公众提供服务,真正成为破解改革难题,促进事业发展,助力转型升级,提高决策水平的尖兵利器。

1.1.3 大数据发展历程

  从大数据的发展历程来看,总体上可以划分为3个重要阶段:萌芽期、成熟期和大规模应用期。

  • 1980年,著名未来学家阿尔文·托夫勒在**《第三次浪潮》**一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。
  • 1997年10月,迈克尔·考克斯和大卫·埃尔斯沃思在第八届美国电气和电子工程师协会(IEEE)关于可视化的会议论文集中,发表了**《为外存模型可视化而应用控制程序请求页面调度》**的文章,这是在美国计算机学会的数字图书馆中第一篇使用 “大数据”这一术语的文章。
  • 1999年10月,在美国电气和电子工程师协会(IEEE)关于可视化的年会上,设置了名为“自动化或者交互:什么更适合大数据?”的专题讨论小组,探讨大数据问题。
  • 2001年2月,梅塔集团分析师道格·莱尼发表题为**《3D数据管理:控制数据容量、处理;速度及数据种类》**的研究报告。10 年后,“3V“(Volume、Variety 和Velocity)作为定义大数据的三个维度而被广泛接受。
  • 2005年9月,蒂姆.奥莱利发表了**《什么是Web2.0》**一文,并在文中指出“数据将是下一项技术核心”。
  • 2008年,《自然》杂志推出大数据专刊,计算社区联盟(Computing Community Consortium)发表了报告**《大数据计算:在商业、科学和社会领域的革命性突破》**,阐述了大数据技术及其面临的一些挑战。
  • 2010年2月,肯尼斯.库克尔在**《经济学人》上发表了一份关于管理信息的特别报告《数据,无所不在的数据》**。
  • 2011年2月,《科学》杂志推出专刊《处理数据》,讨论了科学研究中的大数据问题。
  • 2011年,维克托.迈尔·舍恩伯格出版著作**《大数据时代:生活、工作与思维的大变革》**,引起轰动。
  • 2011年5月,麦肯锡全球研究院发布**《大数据:下一个具有创新力、 竞争力与生产力的前沿领域》**,提出“大数据”时代到来。
  • 2012年3月,美国奥巴马政府发布了**《大数据研究和发展倡议》**,正式启动“大数据发展计划”,大数据上升为美国国家发展战略,被视为美国政府继信息高速公路计划之后在信息科学领域的又一重大举措。
  • 2013年12月,中国计算机学会发布**《中国大数据技术与产业发展白皮书》**,系统总结了大数据的核心科学与技术问题,推动了中国大数据学科的建设与发展,并为政府部门提供了战略性的意见与建议。
  • 2014年5月,美国政府发布2014年全球“大数据”白皮书**《大数据:抓住机遇、守护价值》**,该报告鼓励使用数据来推动社会进步。

1.2 大数据的概念

  随着大数据时代的到来,“大数据”已经成为互联网信息技术行业的流行词汇。关于“什么是大数据”这个问题,大家比较认可关于大数据的“4V" 说法。大数据的4个“V",或者说是大数据的四个特点,包含四个层面:数据量大(Volume)、数据类型繁多(Variety)、处理速度快( Velocity)和价值密度低(Value)

1.2.1 数据量大

  人类进入信息社会以后,数据以自然方式增长,其产生不以人的意志为转移。从1986年开始到2010年的二十多年时间里,全球数据的数量增长了100倍,今后的数据量增长速度将更快,我们正生活在一个**“数据爆炸”**的时代。今天,世界上只有25%的设备是联网的,大约80%的上网设备是计算机和手机,而在不远的将来,将有更多的用户成为网民,汽车、电视、家用电器、生产机器等各种设备也将接入互联网。随着Web 2.0和移动互联网的快速发展,人们已经可以随时随地、随心所欲发布包括博客、微博、微信等在内的各种信息。以后,随着物联网的推广和普及,各种传感器和摄像头将遍布我们工作和生活的各个角落,这些设备每时每刻都在自动产生大量数据

1.2.2 数据种类多

  大数据的数据来源众多,科学研究、企业应用和Web应用等都在源源不断地生成新的数据。生物大数据、交通大数据、医疗大数据、电信大数据、电力大数据、金融大数据等,都呈现出“井喷式”增长,所涉及的数量十分巨大,已经从TB级别跃升到PB级别。大数据的数据类型丰富,包括结构化数据和非结构化数据,其中,前者占10%左右,主要是指存储在关系数据库中的数据,后者占90%左右,种类繁多,主要包括邮件、音频、视频、微信、微博、位置信息、链接信息、手机呼叫信息、网络日志等。

1.2.3 处理迅速

  大数据时代的数据产生速度非常迅速。在Web 2.0应用领域,1分钟内,新浪可以产生2万条微博,Twitter可以产生10万条推文,苹果可以下载4.7万次应用,淘宝可以卖出6万件商品,人人网可以发生30万次访问,百度可以产生90万次搜索查询,Facebook可以产生600万次浏览量。大名鼎鼎的大型强子对撞机(LHC),大约每秒产生6亿次的碰撞,每秒生成约700MB的数据,有成千上万台计算机分析这些数据。

  为了实现快速分析海量数据的目的,新兴的大数据分析技术通常采用集群处理和独特的内部设计。以谷歌公司的Dremel为例,它是一种可扩展、交互式的实时查询系统,用于只读嵌套数据的分析,通过结合多级树状执行过程和列式数据结构,它能做到几秒内完成对万亿张表的聚合查询,系统可以扩展到成千上万的CPU上,满足谷歌上万用户操作PB级数据的需求,并且可以在2~3秒内完成PB级别数据的查询。

1.2.4 价值密度低

  大数据虽然看起来很美,但是,价值密度却远远低于传统关系数据库中已经有的数据。在大数据时代,很多有价值的信息都是分散在海量数据内的。以小区监控视频为例,如果没有意外事件发生,连续不断产生的数据都是没有任何价值的,当发生偷盗等意外情况时,只有记录了事件过程的那一小段视频是有价值的。但是,为了获得发生偷盗等意外情况时的那一段宝贵的视频,我们不得不投入大量资金购买监控设备、网络设备、存储设备,耗费大量的电能和存储空间,来保存摄像头连续不断传来的监控数据。

1.3 大数据的应用

  大数据无处不在,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都已经融入了大数据的印迹。

领域 大数据的应用
金融行业 大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重要作用
互联网行业 借助于大数据技术,可以分析客户行为,进行商品推荐和有针对性的广告投放
餐饮行业 利用大数据实现餐饮O2O模式,彻底改变传统餐饮的经营方式
生物医学 大数据可以帮助我们实现流行病预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA,了解更多的生命奥秘
... ...

1.4 大数据关键技术

  当人们谈到大数据时,往往并非仅指数据本身,而是数据和大数据技术这二者的综合。所谓大数据技术,是指伴随着大数据的采集、传输、处理和应用的相关技术,是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的一系列数据处理和分析技术。
  从数据分析全流程的角度,大数据技术主要包括数据采集、数据存储和管理、数据处理与分析、数据安全和隐私保护等几个层面的内容。
  需要指出的是,大数据技术是许多技术的一个集合体,这些技术也并非全部都是新生事务,诸如关系数据库、数据仓库、数据仓库技术(ETL)、 联机分析处理(OLAP)、数据挖掘、数据隐私和安全、数据可视化等已经发展多年的技术。在大数据时代,这些技术通过不断地补充、完善和提高,又有了新的升华,也可以视为大数据技术的一个组成部分。近些年,新发展起来的大数据核心技术包括分布式并行编程、分布式文件系统、分布式数据库、NoSQL数据库、云数据库、流计算和图计算等。

看完了第一章大数据概述,是不是感觉意犹未尽,放心吧,后边的内容很精彩!!!!!希望大家带着轻松愉快的态度去学习,积极面对困难,持久化学习!!!


发布者: 作者: 转发
评论区 (0)
U