登录 | 立即注册 切换到宽版
德诚收藏投资资讯网»德诚论坛 资讯发布区 区块链与数字货币论坛 太数据知识普及(二)
返回列表 发新帖
查看: 549|回复: 1

太数据知识普及(二)

[复制链接]
发表于 2020-2-23 22:39:50 来自手机 | 显示全部楼层 |阅读模式

   (一)分布式批处理架构鼻祖Hadoop
      分布式计算过程就像蚂蚁搬家一样,一个大型任务被分解成很多小任务,每一台电脑相当于一只小蚂蚁,搬走一小部分计算任务;批处理系统主要操作大量静态的数据,各项小任务分别在不同的计算机上进行计算,等全部小项数据处理完毕后,再根据中间计算结果重新组合数据,并得到最终的计算结果。
      Hadoop作为分布式系统的基础架构,其数据处理工作在硬盘层面,分布式文件系统HDFS将架构下所有的电脑硬盘资源聚集起来,并在整体上视为“一块硬盘”使用,这就如同将一台电脑中的硬盘分区成了C盘、D盘、E盘和F盘一样。在对不同任务进行具体计算时,集群管理和调度软件YARN负责不同硬盘间的资源调度。如果与一台小型电脑做类比,Hadoop计算架构相当于s操作系统,在操作系统之上,计算架构Map/Reduce相当于编程应用程序。Hadoop作为最基础的分布式计算架构,大幅降低了计算平台整体的硬件投入成本。
   (二)流数据处理双雄Spark和Storm
      硬盘访问延迟约为内存访问延迟的100倍以上,Hadoop计算过程发生在硬盘,处理对象都是硬盘存储的静态数据,处理机制属于“批处理”模式。Hadoop架构受到硬件条件限制,数据吞吐和处理速度明显不如内存快,于是Spark和Storm开始登上历史舞台,两者都是“流数据”处理机制,数据通过网络直接导入内存,不需要经过硬盘的数据调度,因此处理速度更快。
      流处理与批处理的差别在于,流处理系统不操作已经存在的数据,而只是处理从外部系统接入的数据。流数据就是处于流动过程中的数据,比如网上看视频,一边下载数据,一边观看视频。Spark和Storm都属于流式计算系统,两者最大的区别在于实时性:Spark是准实时,或者叫作“微批处理”,先收集一段时间的数据再进行统一处理,这就好比是网络统计票数,每隔几秒刷新一次,而Storm则是完全实时,后者叫作逐项处理,来一条数据就处理一条。不同的机制架构决定了两者适用的场景不同,比如炒股,股价的变化不是按秒计算的(Spark实时计算延迟度是秒级),在高频交易中,高频获利与否往往就在1ms(0.001秒)之间,而这恰好就是Storm的实时计算延迟度。当然Storm实时处理方式所带来的缺点也是很明显的,比如离线批处理、高延迟批处理以及交互式查询等,都不如Spark架构优势。
   (三)大数据混合处理架构
      除了批处理架构和流处理架构,大数据领域还诞生了混合处理架构,比如Spark和Flink。混合处理架构既可以进行批处理,也可以进行流处理,即同时可以进行历史数据和实时数据的处理,在某些特定场景下,混合架构为数据处理提供了通用的解决方案。大数据混合计算架构就如同风头最劲的混合云计算一样,成为大多数公司的首选。
      Hadoop计算架构,是在任务调度基础上的批量处理模式;而Spark和Storm计算架构,是在流数据基础上的实时处理模式。如果与饮用水做类比,Hadoop批处理,如同纯净水,需要一桶一桶地搬;而Spark和Storm流处理,如同自来水管,只要打开水龙头,水就能源源不断地流出来。
      大数据批处理架构和流处理架构各有优缺点,比如Hadoop架构下的MapReduce降低了并行批处理的复杂性,数据经过处理后,即使断电也可以长期保存在硬盘中。Spark和Storm降低了数据实时处理的复杂性,但Spark和Storm计算过程发生在内存,数据无法长期存储。
      虽然不同架构的差异性非常明显,但Hadoop具有非常好的兼容性,Spark和Storm可以运行在资源调度管理系统Yarn上,这使得Spark和Storm可以读取Hadoop的任何数据源,从而可以满足公司的不同需求。
      纵观历史,每一项新技术的问世,都有着之前技术的影子,大数据需求增长,促进各种架构不断进化和完善。就目前来看,Hadoop,Spark和Storm相辅相成,相互促进,目前还谈不上谁取代谁的问题。
六、大数据来源与数据采集
      在互联网出现之前,数据主要是人机会话产生的,以结构化数据为主。那时候的数据增长缓慢、系统都比较孤立,用传统数据库基本可以满足各类应用需求及开发。今天随着互联网和物联网的快速发展,数据的主要来源已经不是人机会话了,而是通过设备、服务器和应用程序自动产生的,机器产生的数据正在呈几何级增长,比如基因数据、用户行为数据、定位数据、图片、视频、气象、地震、医疗等,这些数据以非结构数据和半结构化数据为主。
      大数据完整产业链条包括大数据采集、大数据存储及分析、大数据应用等,大数据采集是产业链条的重要一环。数据采集就是将数据写入数据仓库中,把零散的数据整合在一起,然后对这些数据进行综合分析。数据采集包括文件日志的采集、数据库日志的采集、关系型数据库的接入和应用程序的接入等。在数据量比较小的时候,可以写个定时的脚本将日志写入存储系统,但随着数据量的增长,这些方法无法提供数据安全保障,并且运维困难,需要更强壮的解决方案。
   (一)人为数据及社交数据
      人为数据包括电子邮件、文档、图片、音频、视频,以及通过微信、博客、推特Twitter、脸书Facebook、维基、Linkedin等社交媒体产生的数据流。社交数据中包括了人的喜好、生活轨迹、消费能力、价值取向等各种重要的用户画像信息。这些数据大多数为非结构性数据,需要用文本分析功能进行分析。
   (二)移动通信数据
      智能手机等移动设备已经非常普及,移动设备上的软件能够追踪和沟通无数事件,同时产生大量的数据,比如产品搜索记录、个人信息资料、人员或设备所在的地理位置信息等。
   (三)机器和传感器数据
      机器和传感器数据包括呼叫记录、智能仪表数据、设备传感器数据、设备日志、设备交易数据、定位系统(北斗/GPS)数据等,再比如智能温度控制器、智能电表、物联网(IoT)数据等。
   (四)交易数据
      交易数据包括客户关系数据(CRM)、企业资源规划(ERP)数据、生产数据、库存数据、订单数据、供应链数据、POS机数据、信用卡数据、电子商务数据、互联网点击数据等
   (五)其它开放性数据
      其它开放性数据包括ZF机构、非营利组织和企业免费提供的数据等。

七、大数据分布式存储架构
      传统关系型数据库一般只考虑单机的数据存储方式,即不管数据量大小,通常只使用一台计算机存储和管理所有数据。然而单台计算机可以承载的存储设备是有限的,存储容量通常不会超过几个TB,而且数据容量和文件尺寸增长到一定程度后,数据检索速度就会急剧下降。
      大数据的容量通常达到PB级别以上,单台计算机无法存储全部数据,为了快速稳定地存储并读取这些数据,至少得依赖于磁盘阵列(或集群),通过分布式存储方式,将大数据分散存储在不同的磁盘阵列中,由于数据分拆到不同的计算机上进行存储,从而降低了单个节点的存取压力。
      为了应对查询效率低的问题,很多主流的数据库结合分布式存储技术,通过对请求的拦截,将一张很大的数据表中的记录分拆到不同的节点上进行查询。对于每个节点来说,数据量不会很大,从而提升了查询效率。
八、大数据存储类型
      大数据块存储和文件存储是人们比较熟悉的两种主流存储类型,而对象存储则是一种新型的网络存储架构。
   (一)块存储模式
      通常来讲,所有磁盘阵列(或集群)都是基于“块”的模式,块存储类似于硬盘直接插接到主机服务器上。根据存储设备与主机服务器的连接方式,块存储又分为两种形式:
      1、设备直连块存储方式DAS(Direct Attach STorage):存储设备直接插接或挂载到主机服务器上,一台主机服务器就是一个独立的存储单元,不同服务器之间无法互通和共享。如果各主机的操作系统相同,跨主机存取数据资料,需要经过复杂的设置,比如设置共享文件夹等;如果各主机的操作系统不同,跨主机存取数据资料会更加复杂,甚至不能存取数据资料。DAS块存储是比较初级的存储模式,对网络环境和系统性能要求不高,通常适用于数据交换量较小的情形下。
      2、网络连接块存储方式SAN(Storage Area Network):存储设备通过光纤等高速网络连接到专业的主机服务器上。SAN块存储方式,对网络速度要求高、对数据可靠性和安全性要求高、对数据共享性能要求高,其优势在于高带宽、低延迟、数据吞吐量大,在高性能计算中占有一席之地,因此非常适合金融和电信等关键领域的大数据应用等;其局限性在于使用光纤和高端设备,成本代价高,可扩展性差,无法适用于具有成千上万个CPU规模的系统。
   (二)文件存储模式
      文件存储NAS(Network Attached Storage),就是直接通过网络或云端提供数据存储服务,不同云主机或云服务器之间可以进行数据共享,比如日志集中管理、办公文件共享等。
      文件存储与块存储不同,用户不接触底层的存储设备,而是直接上升到应用层,一套 NAS 存储设备就如同一个提供数据文件服务的系统,由于文件级存储模式的性价比较高,比较适合于教育、ZF以及企业的大数据存储应用等。
   (三)对象存储模式
      对象存储的核心是数据通路(读或写)与控制通路(元数据)分离,并在对象存储设备OSD(Object-based Storage Device)基础上构建存储系统。
      对象存储具备块存储的高速性和文件存储的共享性等优点,因此是比块存储和文件存储更高级的存储模式。每个对象存储设备具有一定的智能,能够自动管理数据分布。云服务商一般提供Rest API接口,方便用户集成此类服务,有利于用户跟自己开发的应用程序直接打交道。

九、数据挖掘是大数据处理的核心环节
      大数据处理分为多个步骤,其中包括数据收集、数据传输、数据存储、数据处理分析和数据挖掘,其中数据挖掘处于核心重要地位。通俗地讲,数据挖掘就是利用大数据探测有价值的规则或有意义的模式的过程。数据挖掘的目的是从大数据中发现隐含的规律性的内容,用于解决数据应用质量或应用效率等问题。
      数据收集不同于数据存储。数据收集的第一种方法是抓取(或爬取),比如百度搜索引擎应用的就是爬取技术。第二种方法是推送,许多移动设备或穿戴设备比如智能手环,可以将使用者每天的跑步数据,心跳数据,睡眠数据等都上传到数据中心。
      数据处理包含了数据清洗。收集数据并存储后获得的是原始数据,原始数据杂乱无章,并混杂着残缺数据、错误数据和重复数据,数据清洗就是通过电脑程序或人工方式将“垃圾数据”过滤掉,最后得到的才是可用于分析的高质量数据。Hadoop等大数据处理工具解决了大数据的存储和计算等问题,但是系统本身并不能对数据形成分析和理解。如何从海量的数据中发现有价值的信息或知识,则是数据挖掘要解决的问题。
      数据挖掘就是利用人工智能、机器学习、统计学、模式识别等技术,从大数据中提取出事先不为人知的有价值的信息。大数据时代的数据挖掘技术并不是一门新的学科,其基本原理与传统数据挖掘并无本质区别,比如“日心说”,即地球围绕太阳公转的理论,就是大数据挖掘的伟大成果。哥白尼提出了“日心说”,他利用各种逻辑推理断定这就是事实,但当时无法用大数据作为支持,由于得不到大众认可并触犯了宗教利益,哥白尼被活活烧死,不幸成为了科学的殉葬品。100多年以后,一位丹麦天文学家,花了20多年时间收集了大量的天文学数据,其中包括了行星运转的数据。但是,他对于这些数据没有洞见,也无法说服世人“地球围绕太阳旋转”,这位天文学家的助手开普勒,在这些大数据中加入了自己的洞见,套用今天的说法就是“数据挖掘”。行星每天运转的数据,看起来没有任何规律,但如果把很多年同一天的数据进行对比分析,规律就立刻显现出来了,这就是开普勒的洞见。开普勒利用大数据挖掘,发现行星围绕太阳公转的轨道是椭圆形的,开普勒天才般的洞见和数据挖掘思想,促进社会公众广泛接受了“日心说”理论。与传统数据挖掘相比,机器学习和人工智能等技术为现代数据挖掘赋予了新的内涵和动能。
      模型建立是数据挖掘的关键一步,需要在数据理解的基础上设置挖掘算法,并对算法进行反复调试和实验。模型建立和数据理解相互影响,需要经过反复的尝试与磨合,多次迭代后才能设计出真正有效的模型。
      模型评估是在数据挖掘工作基本结束时,对最终模型效果进行评测的过程。挖掘算法须事先制定好最终模型的测评指标及方法,挖掘过程中对评测指标进行量化,并判断最终模型的有效性,即是否可以达到预期目标。模型评估人员和模型构建人员通常不是同一批人,以此保证模型评估的客观性和公正性。数据挖掘得到的模型通过测评后才能正式进入实际应用流程。
十、大数据和云计算的关联及区别
   (一)大数据与云计算的优势互补性
      大数据和云计算密不可分,两者就像一枚硬币的正反两个面。
      大数据是云计算非常重要的应用场景,而云计算为数据分析和挖掘提供了最佳的技术解决方案。大数据无法用单台计算机进行处理,必须采用分布式架构对海量数据进行分布式数据挖掘。云计算为大数据提供分布式处理、分布式数据库和云存储、虚拟化技术等。
      在提取、分析和利用数据的过程中,如果处理成本超过了数据价值本身,那么大数据就失去了应有的利用价值,而云计算功能越强大,越能降低数据处理的成本,从而越有利于大数据的发展。
      在大数据收集系统中,大部分数据是没有利用价值的,而云计算可以提供按需拓展的存储资源,并过滤掉无用的数据(数据清洗),是处理大数据的最佳选择。
   (二)大数据与云计算的融合形式
      数据中心是云计算的基础设施,不管云计算怎样变化,必须依托数据中心才能落地。数据中心是云计算的根,云计算是数据中心的“叶子”,云计算通过“光合作用”促进数据中心的发展,数据中心和云计算相互依存,互相促进。
      大数据是云计算的重要应用场景之一,大数据的部署和应用,可以利用传统的数据中心模式,也可以利用云计算平台模式。大数据与云计算的紧密融合是许多公司的首选项,尤其是初创的软件和数据服务供应商。但也有少数主流的大公司出于数据安全和隐私保护,并不十分看重云端数据管理。这些大型公司已经建立了本地数据中心,本地存储数据量之大,让数据迁移充满挑战。少数公司采用大数据云端处理模式,着重考虑私有云模式,即在企业内部云平台PaaS层进行大数据的部署和应用。
十一、大数据应用场景
      大数据无处不在,并被应用于各个行业,包括金融、证券、保险、航空、政务、零售、交通、医疗、教育、酒店、餐饮、电信、能源、健康、娱乐、服务业以及社会治理等各个领域。
   (一)人工智能(AI)应用场景
      大数据能够促进人工智能(AI)产业的进化与发展,从而产生一些意想不到的结果。AI影响幅度很大,比如媒体业,现在计算机跟机器人可以写出很好的文章,而且1小时产出好几百篇,成本也很低。比如经济领域,AI对经济发展会产生巨大影响,很多知识产业跟白领工作也可能被机器人取代。再比如无人驾驶等高科技领域, AI会让驾车更安全,让生活更美好。
   (二)智慧城市应用场景
      智慧城市管理,可以利用大数据实现智能交通、环保监测、城市规划和智能安防。比如交通领域,实时分析城市交通数据,指导驾车者选择最佳路径,有效改善城市拥堵状况;再比如,大数据和物联网支持的无人驾驶汽车,在不远的未来也会走入我们的生活。
   (三)商务领域应用场景
      借助大数据技术,可以分析客户行为,进行有针对性的商品推荐和广告投放;电信行业,利用大数据技术实现客户离网分析,及时掌握客户离网倾向,出台客户挽留措施。
   (四)制造业应用场景
      工业大数据可以提升制造业水平,包括产品故障诊断与预测、分析工艺流程、改进生产工艺,优化生产过程能耗、工业供应链分析与优化、生产计划与进程。
   (五)金融行业应用场景
      大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重大作用。
   (六)能源行业应用场景
     智能电网可以让电力公司掌握海量用户的用电信息,利用大数据技术,分析用户用电模式,改进电网运行,合理设计电力需求响应系统,确保电网安全运行。
   (七)物流行业应用场景
      利用大数据优化物流网络,提高物流效率,降低物流成本。
   (八)生物医学应用场景
      大数据促进城市精准医疗发展,比如降低医院误诊误判率。仅凭医生判断,难免产生误诊误判,如果把一个城市每一年的所有医疗病例数据汇集起来,然后去掉敏感的个人隐私数据,就可以做出一个超大样本的误诊误判的数据库,从中分析原因,提高病人的治愈率。
      大数据可以实现流行病预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA,了解更多的生命奥秘。
   (九)安全领域应用场景
      ZF可以利用大数据技术构建强大的国家安全保障体系,企业可以利用大数据抵御网络攻击,警察可以借助大数据预防犯罪。
   (十)个人生活应用场景
      大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”,分析个人生活行为习惯,为其提供更加周到的个性化服务。
   (十一)社会治理应用场景
      ZF掌握着社会生产和民众生活相关的海量数据。大数据可以应用于ZF治理中的各个环节,并推动ZF治理模式的改变。大数据在ZF治理方面已经有很多成熟的应用案例,比如城市应急管理、河道治理等。
   (十二)大数据防止企业逃漏税
      很多地区的税务局,利用大数据“治税”。比如,把发改委、经信委、税务局和法院的数据拧合在一起,就可能会发现某家企业的税务是有异常的。通过对多方面数据的综合分析,甚至可以发现某些公司人为造成亏损的假象,进而实现偷逃漏税的目的。当发现公司的税务异常迹象时,就可以做出一些数据分析,确认企业逃税漏税的可能性,促进相关部门公正合理执法。
      大数据的价值,远远不止于此,大数据对各行各业的渗透,大大推动了社会生产和生活,未来必将产生重大而深远的影响。


发表于 2020-3-9 17:23:41 | 显示全部楼层

回复

使用道具 举报

返回列表 发新帖

Archiver|手机版|小黑屋|德诚收藏投资资讯网 ( 鄂ICP备17004809号-1 )

GMT+8, 2020-5-30 07:12 , Processed in 0.172259 second(s), 28 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表