土豆炒洋芋G
大数据时代数据管理方式研究1数据管理技术的回顾 数据管理技术主要经历了人工管理阶段、文件系统阶段和数据库系统阶段。随着数据应用领域的不断扩展,数据管理所处的环境也越来越复杂,目前广泛流行的数据库技术开始暴露出许多弱点,面临着许多新的挑战。 1.1 人工管理阶段 20 世纪 50 年代中期,计算机主要用于科学计算。当时没有磁盘等直接存取设备,只有纸带、卡片、磁带等外存,也没有操作系统和管理数据的专门软件。该阶段管理的数据不保存、由应用程序管理数据、数据不共享和数据不具有独立性等特点。 1.2 文件系统阶段 20 世纪 50 年代后期到 60 年代中期,随着计算机硬件和软件的发展,磁盘、磁鼓等直接存取设备开始普及,这一时期的数据处理系统是把计算机中的数据组织成相互独立的被命名的数据文件,并可按文件的名字来进行访问,对文件中的记录进行存取的数据管理技术。数据可以长期保存在计算机外存上,可以对数据进行反复处理,并支持文件的查询、修改、插入和删除等操作。其数据面向特定的应用程序,因此,数据共享性、独立性差,且冗余度大,管理和维护的代价也很大。 1.3数据库阶段 20 世纪 60 年代后期以来,计算机性能得到进一步提高,更重要的是出现了大容量磁盘,存储容量大大增加且价格下降。在此基础上,才有可能克服文件系统管理数据时的不足,而满足和解决实际应用中多个用户、多个应用程序共享数据的要求,从而使数据能为尽可能多的应用程序服务,这就出现了数据库这样的数据管理技术。数据库的特点是数据不再只针对某一个特定的应用,而是面向全组织,具有整体的结构性,共享性高,冗余度减小,具有一定的程序与数据之间的独立性,并且对数据进行统一的控制。 2大数据时代的数据管理技术 大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据有 3 个 V,一是大量化(Volume),数据量是持续快速增加的,从 TB级别,跃升到 PB 级别;二是多样化(Variety),数据类型多样化,结构化数据已被视为小菜一碟,图片、音频、视频等非结构化数据正以传统结构化数据增长的两倍速快速创建;三是快速化 (Velocity),数据生成速度快,也就需要快速的处理能力,因此,产生了“1 秒定律”,就是说一般要在秒级时间范围内给出分析结果,时间太长就失去价值了,这个速度要求是大数据处理技术和传统的数据挖掘技术最大的区别。 2.1 关系型数据库(RDBMS) 20 世纪 70 年代初,IBM 工程师 Codd 发表了著名的论文“A Relational Model of Data for Large Shared DataBanks”,标志着关系数据库时代来临。关系数据库的理论基础是关系模型,是借助于集合代数等数学概念和方法来处理数据库中的数据,现实世界中的实体以及实体之间的联系非常容易用关系模型来表示。容易理解的模型、容易掌握的查询语言、高效的优化器、成熟的技术和产品,使得关系数据库占据了数据库市场的绝对的统治地位。随着互联网 web2.0 网站的兴起,半结构化和非结构化数据的大量涌现,传统的关系数据库在应付 web2.0 网站特别是超大规模和高并发的 SNS(全称 Social Networking Services,即社会性网络服务) 类型的 web2.0 纯动态网站已经显得力不从心,暴露了很多难以克服的问题。 2.2 noSQL数据库 顺应时代发展的需要产生了 noSQL数据库技术,其主要特点是采用与关系模型不同的数据模型,当前热门的 noSQL数据库系统可以说是蓬勃发展、异军突起,很多公司都热情追捧之,如:由 Google 公司提出的 Big Table 和 MapReduce 以及 IBM 公司提出的 Lotus Notes 等。不管是那个公司的 noSQL数据库都围绕着大数据的 3 个 V,目的就是解决大数据的 3个 V 问题。因此,在设计 noSQL 时往往考虑以下几个原则,首先,采用横向扩展的方式,通过并行处理技术对数据进行划分并进行并行处理,以获得高速的读写速度;其次,解决数据类型从以结构化数据为主转向结构化、半结构化、非结构化三者的融合的问题;再次,放松对数据的 ACID 一致性约束,允许数据暂时出现不一致的情况,接受最终一致性;最后,对各个分区数据进行备份(一般是 3 份),应对节点失败的状况等。 对数据的应用可以分为分析型应用和操作型应用,分析型应用主要是指对大量数据进行分类、聚集、汇总,最后获得数据量相对小的分析结果;操作型应用主要是指对数据进行增加、删除、修改和查询以及简单的汇总操作,涉及的数据量一般比较少,事务执行时间一般比较短。目前数据库可分为关系数据库和 noSQL数据库,根据数据应用的要求,再结合目前数据库的种类,所以目前数据库管理方式主要有以下 4 类。 (1)面向操作型的关系数据库技术。 首先,传统数据库厂商提供的基于行存储的关系数据库系统,如 DB2、Oracle、SQL Server 等,以其高度的一致性、精确性、系统可恢复性,在事务处理方面仍然是核心引擎。其次,面向实时计算的内存数据库系统,如 Hana、Timesten、Altibase 等通过把对数据并发控制、查询和恢复等操作控制在内存内部进行,所以获得了非常高的性能,在很多特定领域如电信、证券、网管等得到普遍应用。另外,以 VoltDB、Clustrix 和NuoDB 为代表的 new SQL 宣称能够在保持 ACDI 特性的同时提高了事务处理性能 50 倍 ~60 倍。 (2)面向分析型的关系数据库技术。 首先,TeraData 是数据仓库领域的领头羊,Teradata 在整体上是按 Shared Nothing 架构体系进行组织的,定位就是大型数据仓库系统,支持较高的扩展性。其次,面向分析型应用,列存储数据库的研究形成了另一个重要的潮流。列存储数据库以其高效的压缩、更高的 I/O 效率等特点,在分析型应用领域获得了比行存储数据库高得多的性能。如:MonetDB 和 Vertica是一个典型的基于列存储技术的数据库系统。 (3)面向操作型的 noSQL 技术。 有些操作型应用不受 ACID 高度一致性约束,但对大数据处理需要处理的数据量非常大,对速度性能要求也非常高,这样就必须依靠大规模集群的并行处理能力来实现数据处理,弱一致性或最终一致性就可以了。这时,操作型 noSQL数据库的优点就可以发挥的淋漓尽致了。如,Hbase 一天就可以有超过 200 亿个到达硬盘的读写操作,实现对大数据的处理。另外,noSQL数据库是一个数据模型灵活、支持多样数据类型,如对图数据建模、存储和分析,其性能、扩展性是关系数据库无法比拟的。 (4)面向分析型的 noSQL 技术。 面向分析型应用的 noSQL 技术主要依赖于Hadoop 分布式计算平台,Hadoop 是一个分布式计算平台,以 HDFS 和 Map Reduce 为用户提供系统底层细节透明的分布式基础架构。《Hadoop 经典实践染技巧》传统的数据库厂商 Microsoft,Oracle,SAS,IBM 等纷纷转向 Hadoop 的研究,如微软公司关闭 Dryad 系统,全力投入 Map Reduce 的研发,Oracle 在 2011 年下半年发布 Big Plan 战略计划,全面进军大数据处理领域,IBM 则早已捷足先登“,沃森(Watson)”计算机就是基于 Hadoop 技术开发的产物,同时 IBM 发布了 BigInsights 计划,基于 Hadoop,Netezza 和 SPSS(统计分析、数据挖掘软件)等技术和产品构建大数据分析处理的技术框架。同时也涌现出一批新公司来研究Hadoop 技术,如 Cloudera、MapRKarmashpere 等。 3数据管理方式的展望 通过以上分析,可以看出关系数据库的 ACID 强调数据一致性通常指关联数据之间的逻辑关系是否正确和完整,而对于很多互联网应用来说,对这一致性和隔离性的要求可以降低,而可用性的要求则更为明显,此时就可以采用 noSQL 的两种弱一致性的理论 BASE 和 CAP.关系数据库和 noSQL数据库并不是想到对立的矛盾体,而是可以相互补充的,根据不同需求使用不同的技术,甚至二者可以共同存在,互不影响。最近几年,以 Spanner 为代表新型数据库的出现,给数据库领域注入新鲜血液,这就是融合了一致性和可用性的 newSQL,这种新型思维方式或许会是未来大数据处理方式的发展方向。 4 结束语 随着云计算、物联网等的发展,数据呈现爆炸式的增长,人们正被数据洪流所包围,大数据的时代已经到来。正确利用大数据给人们的生活带来了极大的便利,但与此同时也给传统的数据管理方式带来了极大的挑战。
chensilong812
浅析大数据时代下市场研究方法
大数据时代新的市场研究方法使“无干扰”真实还原消费过程成为可能,智能化的信息处理技术使低成本、大样本的定量调研成为现实,这将推动消费行为及消费心理研究达到一个新的高度,帮助快速消费品企业更为精准地捕捉商机。 大数据时代的市场研究方法 1、基于互联网进行市场调研提高了效率,降低了成本 网络调研具有传统调研方法无可比拟的便捷性和经济性。快速消费品企业在其门户网站建立市场调研板块,再将新产品邮寄给消费者,消费者试用后只要在网站上点击即可轻松完成问卷填写,其便利性大大降低了市场调研的人力和物力投入,也使得消费者更乐于参与市场调研。同时,网络调研的互动性使得企业在新产品尚处于概念阶段即可利用3D拟真技术进行产品测试,通过与消费者互动,让消费者直接参与产品研发,从而更好地满足市场需求。 2、挖掘网络社交平台信息成为研究消费态度及心理的新手段 脸谱、QQ、微博、微信等社交平台已日渐成为新生代消费群体不可或缺的社交工具,快速消费品的消费者往往有着极高的从众性,因此针对社交平台的信息挖掘成为研究消费潮流趋势的新手段。例如,通过微博评论可以统计分析消费者对某种功能型产品的兴趣及偏好,这对研究消费态度及心理有非常大的帮助。更重要的是,这类信息属于消费者主动披露,与访谈形式的被动挖掘相比信息的真实性更高。 3、移动终端提供了实时、动态的消费者信息 随着3G网络及智能手机普及,市场研究已渗透到移动终端领域。大量的手机APP应用(例如二维码扫描等)为实时采集消费信息提供了可能性,移动终端的信息分析在购买时点、产品渗透率及回购率、奖励促销效果评估等方面将发挥不可估量的作用。 4、零售终端信息采集系统帮助企业了解市场 目前,PC-POS系统在零售终端得到了广泛的应用,只要扫描商品条形码,消费者购买的商品名称、规格、购进价、零售价、购买地点等信息就可以轻松采集。通过构建完整的零售终端信息采集系统,快速消费品企业可以掌握商业渠道的动态信息,适时调整营销策略。 智能化信息采集、储存及分析 1、超大容量的数据仓库 数据仓库具有容量大、主题明确、高度集成、相对稳定、反映历史变化等特点,可以有效地支撑快速消费品企业进行大数据分析与应用。数据仓库可以更有效地挖掘数据资源,并可以按照日、周、月、季、年等周期提供分析报表,有助于营销人员更有效地制定营销战略。 2、专业、高效的搜索引擎 旅游搜索、博客搜索、购物搜索、在线黄页搜索等专业搜索引擎已经得到了广泛应用,快速消费品企业可以根据自己的特点构建专业化的搜索引擎,对相关的企业信息、产品信息、消费者评价信息、商业服务信息等数据进行智能化检索、分类及搜集,形成高度专业化、综合性的商业搜索引擎。 3、基于云计算的数学分析模型 市场研究的关键是洞察消费者需求,基于云计算的数学分析模型可以将碎片化信息还原为完整的消费过程信息链条,更好地帮助营销人员研究消费行为及消费心理。这些碎片化的信息包括消费者在不同时间、不同地点、不同网络应用上发布的消费价值观信息、购买信息、商品评论信息等。基于云计算的智能化分析,一方面可以帮助市场研究人员对消费行为及消费心理进行综合分析,另一方云计算成本低、效率高的特点非常适合快速消费品企业数据量庞大的特性。 大数据运用中的问题 传统的市场研究包括定性研究及定量研究,以座谈会为主的定性研究受制于主持人的访谈技巧,以街头拦截访问为主的定量研究虽然以严谨的抽样理论为基础,但同样不能完全代表总体的客观情况。而大数据时代革命性的调研方法为市场研究人员提供了以“隐形人”身份观察消费者的可能性,超大样本量的统计分析使得研究成果更接近市场的真实状态。 与此同时,大数据时代的新方法、新手段也带来新的问题,一是如何智能化检索及分析文本、图形、视频等非量化数据,二是如何防止过度采集信息,充分保护消费者隐私。虽然目前仍然有一定的技术障碍,但不可否认的是大数据市场研究有着无限广阔的应用前景。
以上是小编为大家分享的关于浅析大数据时代下市场研究方法的相关内容,更多信息可以关注环球青藤分享更多干货
论文常用数据分析方法 论文常用数据分析方法,对好的论文分析研究方法应该从哪些方面展开,如何表达才能显得自己对该论文真的有所理解,应该看哪些书呢?下面我整理了论文
通过数据进行分析的论文用数据是数学方法。 数据分析方法:将数据按一定规律用列表方式表达出来,是记录和处理最常用的方法。表格的设计要求对应关系清楚,简单明了,有利
管理会计在大数据时代的发展论文 摘要 :互联网为海量的大数据提供媒介,大数据使人们生活和工作方式悄然改变。在经济体制转型期,市场机遇与挑战并存,企业价值管理已是
1、分类分析数据分析法 在数据分析中,如果将数据进行分类就能够更好的分析。分类分析是将一些未知类别的部分放进我们已经分好类别中的其中某一类;或者将对一些数据进行
大数据论文【1】大数据管理会计信息化解析 摘要: 在大数据时代下,信息化不断发展,信息化手段已经在我国众多领域已经得到较为广泛的应用和发展,在此发展过程,我国的