NoSQL数据库
关系型数据库遵循ACID规则事务在英文中是transaction,和现实世界中的交易很类似,它有如下四个特性:1、A (Atomicity) 原子性原子性很容易理解,也就是说事务里的所有操作要么全部做完,要么都不做,事务成功的条件是事务里的所有操作都成功,只要有一个操作失败,整个事务就失败,需要回滚。比如银行转账,从A账户转100元至B账户,分为两个步骤:1)从A账户取100元;2)存入100元至B账户。这两步要么一起完成,要么一起不完成,如果只完成第一步,第二步失败,钱会莫名其妙少了100元。2、C (Consistency) 一致性一致性也比较容易理解,也就是说数据库要一直处于一致的状态,事务的运行不会改变数据库原本的一致性约束。例如现有完整性约束a+b=10,如果一个事务改变了a,那么必须得改变b,使得事务结束后依然满足a+b=10,否则事务失败。3、I (Isolation) 独立性所谓的独立性是指并发的事务之间不会互相影响,如果一个事务要访问的数据正在被另外一个事务修改,只要另外一个事务未提交,它所访问的数据就不受未提交事务的影响。比如现有有个交易是从A账户转100元至B账户,在这个交易还未完成的情况下,如果此时B查询自己的账户,是看不到新增加的100元的。4、D (Durability) 持久性持久性是指一旦事务提交后,它所做的修改将会永久的保存在数据库上,即使出现宕机也不会丢失。
分布式系统可靠性(容错) : 分布式计算系统中的一个重要的优点是可靠性。一台服务器的系统崩溃并不影响到其余的服务器。可扩展性: 在分布式计算系统可以根据需要增加更多的机器。资源共享: 共享数据是必不可少的应用,如银行,预订系统。灵活性: 由于该系统是非常灵活的,它很容易安装,实施和调试新的服务。更快的速度: 分布式计算系统可以有多台计算机的计算能力,使得它比其他系统有更快的处理速度。开放系统: 由于它是开放的系统,本地或者远程都可以访问到该服务。更高的性能: 相较于集中式计算机网络集群可以提供更高的性能(及更好的性价比)。
分布式计算的缺点故障排除和诊断问题。软件: 更少的软件支持是分布式计算系统的主要缺点。网络:网络基础设施的问题,包括:传输问题,高负载,信息丢失等。安全性: 开发系统的特性让分布式计算系统存在着数据的安全性和共享的风险等问题。
什么是NoSQL?NoSQL,指的是非关系型的数据库。NoSQL有时也称作Not Only SQL的缩写,是对不同于传统的关系型数据库的数据库管理系统的统称。NoSQL用于超大规模数据的存储。(例如谷歌或Facebook每天为他们的用户收集万亿比特的数据)。这些类型的数据存储不需要固定的模式,无需多余操作就可以横向扩展。
为什么使用NoSQL ?今天我们可以通过第三方平台(如:Google,Facebook等)可以很容易的访问和抓取数据。用户的个人信息,社交网络,地理位置,用户生成的数据和用户操作日志已经成倍的增加。我们如果要对这些用户数据进行挖掘,那SQL数据库已经不适合这些应用了, NoSQL数据库的发展也却能很好的处理这些大的数据。
RDBMS vs NoSQLRDBMS - 高度组织化结构化数据 - 结构化查询语言(SQL) (SQL) - 数据和关系都存储在单独的表中。 - 数据操纵语言,数据定义语言 - 严格的一致性- 基础事务NoSQL - 代表着不仅仅是SQL- 没有声明性查询语言- 没有预定义的模式-键 - 值对存储,列存储,文档存储,图形数据库- 最终一致性,而非ACID属性- 非结构化和不可预知的数据- CAP定理 - 高性能,高可用性和可伸缩性
NoSQL 简史NoSQL一词最早出现于1998年,是Carlo Strozzi开发的一个轻量、开源、不提供SQL功能的关系数据库。2009年,Last.fm的Johan Oskarsson发起了一次关于分布式开源数据库的讨论[2],来自Rackspace的Eric Evans再次提出了NoSQL的概念,这时的NoSQL主要指非关系型、分布式、不提供ACID的数据库设计模式。2009年在亚特兰大举行的'no:sql(east)'讨论会是一个里程碑,其口号是'select fun, profit from real_world where relational=false;'。因此,对NoSQL最普遍的解释是'非关联型的',强调Key-Value Stores和文档数据库的优点,而不是单纯的反对RDBMS。
CAP定理(CAP theorem)在计算机科学中, CAP定理(CAP theorem), 又被称作 布鲁尔定理(Brewer's theorem), 它指出对于一个分布式计算系统来说,不可能同时满足以下三点:一致性(Consistency) (所有节点在同一时间具有相同的数据)可用性(Availability) (保证每个请求不管成功或者失败都有响应)分隔容忍(Partition tolerance) (系统中任意信息的丢失或失败不会影响系统的继续运作)CAP理论的核心是:一个分布式系统不可能同时很好的满足一致性,可用性和分区容错性这三个需求,最多只能同时较好的满足两个。因此,根据 CAP 原理将 NoSQL 数据库分成了满足 CA 原则、满足 CP 原则和满足 AP 原则三 大类:CA - 单点集群,满足一致性,可用性的系统,通常在可扩展性上不太强大。CP - 满足一致性,分区容忍必的系统,通常性能不是特别高。AP - 满足可用性,分区容忍性的系统,通常可能对一致性要求低一些。
NoSQL的优点/缺点优点:- 高可扩展性- 分布式计算- 低成本- 架构的灵活性,半结构化数据- 没有复杂的关系缺点:- 没有标准化- 有限的查询功能(到目前为止)- 最终一致是不直观的程序
BASEBASE:Basically Available, Soft-state, Eventually Consistent。 由 Eric Brewer 定义。CAP理论的核心是:一个分布式系统不可能同时很好的满足一致性,可用性和分区容错性这三个需求,最多只能同时较好的满足两个。BASE是NoSQL数据库通常对可用性及一致性的弱要求原则:Basically Availble --基本可用Soft-state --软状态/柔性事务。 'Soft state' 可以理解为'无连接'的, 而 'Hard state' 是'面向连接'的Eventual Consistency --最终一致性 最终一致性, 也是是 ACID 的最终目的
NoSQL数据库的四大分类编辑键值(Key-Value)存储数据库列存储数据库。文档型数据库图形(Graph)数据库因此,我们总结NoSQL数据库在以下的这几种情况下比较适用:1、数据模型比较简单;2、需要灵活性更强的IT系统;3、对数据库性能要求较高;4、不需要高度的数据一致性;5、对于给定key,比较容易映射复杂值的环境。
谁在使用现使用了 NoSQL:GoogleFacebook
了解 Nosql数据库寻求更好的选择