Professional Documents
Culture Documents
Sybase IQintro
Sybase IQintro
MODULE MAP
Sybase IQ 简介
IQ 技术特性介绍
IQ 应用场景介绍
Sybase IQ 是什么
Sybase IQ是高度可扩展的关系型数据库,专为结构
化与非结构化数据的查询分析提供卓越性能与高效
存储而设计
#1 列式数据分析服务器
– 超过10年的决策应用服务
– 超过传统数据库表现10到1000倍
– 1,500多家企业超过3,000个独立安装,还在快速增长
Sybase IQ 运行平台
HP Itanium
HP-UX PA-RISC
IBM AIX
Linux x86
Linux x86-64
Linux on Power
Sun Solaris SPARC
Sun Solaris x64
Windows x64/x86
Sybase IQ 技术参数
连接数无限制
最大节点数:12,000个, 多机集群模式
最大CPU数: 1,200,000颗
数据库大小:192PB;
设备大小:依赖于具体操作系统限制(文件系统4TB)
设备个数:最多65,524
高速缓冲:每个节点500GB
IQ页大小: 32k-512k
表数量: 单库 4,293,918,719
字段数: 每表45,000个
记录数: 281万亿条
索引数: 每表 2^32 (~4,000,000) 个
Sybase IQ 工作台
管理和监控(Sybase Central)
- 管理
- 监控
- 调试与诊断
Sybase Central
Sybase Central
Agenda
MODULE MAP
Sybase IQ 简介
IQ 技术特性介绍
IQ 应用场景介绍
IQ 专为海量数据查询分析设计
垂直存储 开放灵活
– 每一列单独存储 – 设计依赖于应用使用情况
• Bit-Mapped Index •Flat, Star, Relational, Snowflake
• Index on every column •Any Schema
800 Bytes/Row
快速装载, 创建和操作
– 在大多数情况下, 表数据是在全索引下装载
– 索引经过压缩有效降低存储成本
基本免维护
– 索引统计信息是DML操作过程自动更新的
IQ 的 Bitmap 索引
Bitmaps 通过特定的位掩码表示给定值
IQ的Bit-Wise索引
针对州的位图索引
Row ID AK AL AR CA CO DC FL GA HI ID IN
250 1
任意一行记录都可以
251 1
252 1
找到一个对应的州
253 1
254 1
255 1
256 1
257 1 1
258 1
259
260 1 1
261 确定所有CA的记录
1
262 1
263 1
264 1
265 1
266
267
268
1
1
IQ 只存储所有的 1
269 1 这就使索引非常小...
270 1
IQ 索引类型
九种索引
– Fast Projection (FP)
– Low Fast (LF)
– High Group (HG)
– High Non Group (HNG)
– Compare (CMP)
– Word (WD)
– Date (DATE)
– Time (TIME)
– Datetime (DTTM)
三种类型
– 默认索引, 索引即数据
– 带元数据的快速索引
– 不带元数据的索引
Fast Projection (FP)
传统的存储方法 IQ 的存储方法
缺省索引方式
替代原始数据的存储位置
基于压缩的单列的索引
快速索引 (LF and HG)
这两种索引存储列的级数和数据分布
– 被 IQ 查询优化器大量使用
– LF 索引用于低级数
– HG 索引用于高级数和关键字
这两种索引都包含 B-Tree 结构
只有这两种索引可以用于唯一索引
Low Fast (LF)
Row ID
1
2
3
4
5
6
7
8
使用低级数B-Tree和位图数据
High Group (HG)
B-Tree + Group Array
高级数字段
使用其它索引以提高查询响应
IQ索引
缺省索引,简单列存储,数据压缩存储
低基数,sum/avg/count极快,Bit map索引
高基数非分组,适应运算/范围搜索,Bit-
wise索引
高基数分组,提高group by和排序性能,
G-Array (包括一个改进的B-tree)
两个列比较,增加列比较的性能
字符型数据,增加字符定位查找的性能
日期和时间型数据,增加日期查询和
分类性能
IQ 索引特性
快速装载, 加速查询
紧凑
– 比传统的平衡B-Tree索引所需磁盘空间更少
– Cache更多的数据在内存中
列式存储结构
– 快速查询的关键
创建多种额外索引
– 构建强大的即席查询环境
– 任何列上支持多种额外索引, 根据查询中使用方式构建合适的索引
IQ数据加载和存储有效性
IQ在通常情况下的加载可以达到10-15G/CPU/H
数据大小/时间
传统数据库的数据量/
加载时间曲线
Terabyte
200 GB IQ的数据量/加载时间曲线
(通常数据量仅为传统DBMS
的1/3 - 1/7)
100 GB
50 GB
记录数
1 M Rows 10M 100M 1B
Sybase IQ特性
计算能力与存储容量独立扩展;
口令认证/数据不落地的加密传输 基于标准(JDBC/ODBC/.NET);
对静态数据进行数据库加密和列加密 支持主流BI工具(MSTR,Cognos,BO)
通过Common Criteria EAL-3级认证
用户可设置的密码 灵活性
支持FIPS(Unix平台)、Kerberos和IPv6
列式存储提升I/O效率
安全性 速度 为查询设计的体系结构
专利的索引技术
智能分析
易于部署与移植
信息
可管理性 可用性
一次调优,即可安枕无忧
快速数据加载
多节点,直接客户端加载
经济性 功能 加载不影响查询性能
专利数据压缩技术
出色的压缩能力,减少硬件/能源成本 一键式多路网格配置
运行于标准系统 对所有模型均保持高性能
支持成千上万的用户和PB级数据
在上万亿行数据上通过测试
Agenda
MODULE MAP
Sybase IQ 简介
IQ 技术特性介绍
IQ 应用场景介绍
应用场景
报表服务器
– 企业或者部门级报表应用
• 新的或者现有即席Reporting, Dashboards, CPM, KPIs的高性能平台
• 为低效能的EDWs减负的数据集市, 小型企业数据仓库(分析型应用)
高级分析
– 为企业赢取竞争优势, 支持战略/业务决策的高度复杂(内部)查询环境
• 预测模型和数据挖掘,用于客户和风险分析、盈亏分析、反欺诈知识自学习
数据汇集
– 信息服务机构聚集所有大量可利用的行业或社会级的数据, 为客户提供数据或者分析服务 ---通常为盈利
目的
• 提供了极强大的、低TCO的分析服务解决方案, 使他们能为客户提供更快高度精确的分析服务---保持投
资盈利
信息生命周期管理
– 机构需要将数据移出现行系统以降低成本, 对于那些长期的业务和监管报告同时又能方便访问那些数据
基于IQ的智能分析平台
Sybase IQ 优化的分析产品线
设计开发 (Eclipse IDE – Workspace/PD) 管理监控 (Sybase Central)
• 数据建模及设计 • 管理
• 分析模型开发 • 监控
分析工作台
• 报表/仪表盘设计 • 故障分析
信息生命
数据库内 数据库内 非结构化 安全模块
周期管理
分析应用基础 分析 – 分析 – 数据分析 (网络认证/
模块
预测分析 时间序列 (LOB) 加密列)
高性能
分析引擎 Sybase IQ 基于网格的列式存储 DBMS Sybase ETL 基于网格 ETL
Sybase IQ存储压缩实例
2005年WinterCorporation世界十大数据仓库 TopTen Award Winners
http://www.wintercorp.com
数据仓库大小
公司/组织 数据仓库大小 数据库 - 甲公司是数据膨胀的冠军,从17TB到100TB
(GB) - IQ是实际数据量的冠军18TB压缩到17TB (Nielsen)
- 甲公司把100TB Yahoo!的数据仓库宣传为“世界上最大的
Yahoo! 100,386 Oracle Unix数据仓库”
1 PB 股票交易数据 (6万亿条
股票报价)
加载速度:2850亿行/天 (300
万行/秒),持续3个星期
85%数据压缩率
平均数据延迟时间为2秒
非结构化数据加载: 26 TB/天
每小时加载200万条电邮和
600万文件的同时,只使用了
7%的CPU资源
最大的数据仓库!
加载文件数: 12,081
股票报价记录数:6.1 万亿
裸数据大小(带分隔符): 1,130 TB
裸数据大小(不带分隔符):1,029 TB
平均文档大小:670 KB
非结构化文档数目:200,000
非结构化文档空间 128 TB
所有数据空间:1,157 TB
在IQ里面的数据库空间:162,639 GB
(合159 TB)
压缩率:84.57%