Apache CarbonData:大数据生态一种新的高性能数据格式

  • 时间:
  • 浏览:2
  • 来源:uu快3官网app_uu快3豹子赚钱

全局字典编码:除了常见的Delta、RLE、BitPacking等编码外,CarbonData应用了全局字典编码来实现免解码的计算,计算框架需要直接使用经过编码的数据来做聚合,排序等计算,这对需要做跨节点数据交换的业务来说性能提升非常明显(3倍以上)。

自适应类型转换:CarbonData针对分析型应用中小量使用的数值类型(Double/Decimal/Numeric/BigInt)实现存储内数据类型转换,配合列式数据压缩,使得压缩非常高效,数据压缩率基于应用场景不同一般压缩比在2到8之间。

华为针对上述典型诉求,从2013年刚刚刚刚结束调研分析业界大数据方案,发现每段技术都能不需要 了解决三种场景的诉求,能不需要 了一起满足上述的所有诉求,如:并行数据库技术能不需要 了有效与Hadoop生态集成,数据能不需要 了统一共享存储;搜索类技术提升了性能,已经 数据膨胀很大,不支持标准SQL、能不需要 了兼容老的业务,这助于了华为着手开发CarbonData项目。整个大数据时代的开启,需要说是源自于Google的MapReduce论文,他引发了Hadoop开源项目以及后续一系列的生态发展。他的“伟大”之地处于计算和存储解耦的架构,使企业的每段业务(主就是批解决)从传统的垂直方案中解放出来,计算和存储需要按需扩展极大提升了业务发展的敏捷性,让众多企业普及了某些 计算模式,从中受益。CarbonData借鉴了某些 理念,存储和计算逻辑上分离,通过索引技术让存储和计算物理上更接近,提升CPU和IO下行效率 ,实现超高性能的大数据分析:

列式存储:高效的列式数据组织,区别于行存,需要实现列裁剪和过滤下压,使OLAP查询性能更高。一起,CarbonData针对明细数据查询实现了深度1优化,在需要返回所有列的场景下性能优于某些列存方案。

Apache CarbonData是三种新的高性能数据存储格式,针对当前大数据领域分析场景需求各异而原应着的存储冗余问题,CarbonData提供了三种新的融合数据存储方案,以一份数据一起支持“任意维度组合的过滤查询、快速扫描、详单查询等”多种应用场景,并通太满级索引、字典编码、列存等结构提升了IO扫描和计算性能,实现百亿数据级秒级响应。CarbonData是由华为开源贡献到Apache基金会的大数据项目,致力于推动大数据开源生态技术的发展。

标准SQL和API:在SparkSQL基础上,支持标准SQL99/30003;支持数据批量更新、删除,适用于OLAP场景下数据的周期性刷新,例如拉链表更新、维表数据同步。提供JDBC/ODBC连接,支持与BI工具无缝对接;兼容Spark DataFrame/DataSet,支持简化分析应用。

本文作者:佚名

随着数据与日俱增,业务驱动下的数据分析灵活性要求能不需要 了 高,不同场景的数据分业务系统而构建,原应着冗余严重,过高 高效、统一的融合数仓,阻碍企业快速转型。

充裕的索引支持:支持全局多维索引、文件索引、Min/Max、倒排索引等多种索引技术,从表级,文件级,列级等多个层级逐级快速定位数据,解决SQL-on-Hadoop引擎常见的“暴力扫描“,从而大幅提升性能,实现十年数据秒级响应, 三百维字段任意组合查询。

来源:51CTO

企业典型的诉求总结如下:

数据生态集成:支持与Hadoop、Spark等大数据生态系统集成,支持和商业BI工具无缝对接。既满足传统数仓、数据集市、BI应用要求,也提供大数据生态充裕多样的API支持,覆盖从GB级到EB级应用。

开源开放: CarbonData于2016年6月3日全票通过进入大数据领域全球最大的开源社区Apache,两天时间里,Apache社区代码贡献者超过300人。目前结构贡献来自于华为、Intel、Talend、Ebay、Inmobi、Knoldus、阿里、美团、乐视、滴滴等公司资深架构师和开发人员。