Download as pdf or txt
Download as pdf or txt
You are on page 1of 31

Agenda

MODULE MAP

Sybase IQ 简介

IQ 技术特性介绍

IQ 应用场景介绍
Sybase IQ 是什么
Sybase IQ是高度可扩展的关系型数据库,专为结构
化与非结构化数据的查询分析提供卓越性能与高效
存储而设计

#1 列式数据分析服务器
– 超过10年的决策应用服务
– 超过传统数据库表现10到1000倍
– 1,500多家企业超过3,000个独立安装,还在快速增长
Sybase IQ 运行平台

 HP Itanium
 HP-UX PA-RISC
 IBM AIX
 Linux x86
 Linux x86-64
 Linux on Power
 Sun Solaris SPARC
 Sun Solaris x64
 Windows x64/x86
Sybase IQ 技术参数
 连接数无限制
 最大节点数:12,000个, 多机集群模式
 最大CPU数: 1,200,000颗
 数据库大小:192PB;
 设备大小:依赖于具体操作系统限制(文件系统4TB)
 设备个数:最多65,524
 高速缓冲:每个节点500GB
 IQ页大小: 32k-512k
 表数量: 单库 4,293,918,719
 字段数: 每表45,000个
 记录数: 281万亿条
 索引数: 每表 2^32 (~4,000,000) 个
Sybase IQ 工作台

 设计和开发(Eclipse IDE – Workspace/PD)


- 数据建模和设计
- 分析师开发
- 报表设计

 管理和监控(Sybase Central)
- 管理
- 监控
- 调试与诊断
Sybase Central
Sybase Central
Agenda
MODULE MAP

Sybase IQ 简介

IQ 技术特性介绍

IQ 应用场景介绍
IQ 专为海量数据查询分析设计
 垂直存储 开放灵活
– 每一列单独存储 – 设计依赖于应用使用情况
• Bit-Mapped Index •Flat, Star, Relational, Snowflake
• Index on every column •Any Schema

• FAST ACCESS and LOAD – 支持各种数据源


•Flat File, DBMS
 优化存储
– 支持各种前端工具
– 压缩数据
•BO, Cognos, MicroStrategy
• Usually = 40%-70%
– 接口开放
– 更少的数据存储
•ODBC, JDBC, Open Client/Server
• Even with all the indexes
 查询引擎只读取所需列 服务器内分析
– 显著降低I/O开销 •Aggregate functions
• Average 90% less than competition •Time series and forecasting functions

– 更便于数据维护 •date and time functions

• Easy to alter and manage •UDF


Example: I/O明显减少 “CA州多少男性公民没有参加保险?

RDBMS 800 Bytes x 10M


= 500,000 I/Os
Gender
M
State
NY
Insured
Y
16K Page
M CA Y
10M
F CT N  基本上只能使用表扫描
M MA Y
ROWS
M CA N  查询过程读取了太多的无效数据
- -

800 Bytes/Row

IQ 10M Bits x 3 col / 8 = 235 I/Os


Gender Insured State 16K Page
1 M Y CA
1 0 1
2 M N CA
10M 1 1 1
3 F Y NY Bits
0 + 0 + 0
4 M N CA 1 1
1
IQ 的秘密:
智能索引
 Sybase IQ 索引包含Lookup索引、Bitmap索引和Bit-Wise索引专利
– B-tree index with Bitmap index

 快速装载, 创建和操作
– 在大多数情况下, 表数据是在全索引下装载
– 索引经过压缩有效降低存储成本

 基本免维护
– 索引统计信息是DML操作过程自动更新的
IQ 的 Bitmap 索引

 Bitmaps 通过特定的位掩码表示给定值
IQ的Bit-Wise索引
针对州的位图索引
Row ID AK AL AR CA CO DC FL GA HI ID IN

250 1
任意一行记录都可以
251 1
252 1
找到一个对应的州
253 1
254 1
255 1
256 1
257 1 1
258 1
259
260 1 1
261 确定所有CA的记录
1
262 1
263 1
264 1
265 1
266
267
268
1
1
IQ 只存储所有的 1
269 1 这就使索引非常小...
270 1
IQ 索引类型
 九种索引
– Fast Projection (FP)
– Low Fast (LF)
– High Group (HG)
– High Non Group (HNG)
– Compare (CMP)
– Word (WD)
– Date (DATE)
– Time (TIME)
– Datetime (DTTM)

 三种类型
– 默认索引, 索引即数据
– 带元数据的快速索引
– 不带元数据的索引
Fast Projection (FP)

传统的存储方法 IQ 的存储方法

缺省索引方式
替代原始数据的存储位置
基于压缩的单列的索引
快速索引 (LF and HG)
 这两种索引存储列的级数和数据分布
– 被 IQ 查询优化器大量使用
– LF 索引用于低级数
– HG 索引用于高级数和关键字

 这两种索引都包含 B-Tree 结构

 只有这两种索引可以用于唯一索引
Low Fast (LF)
Row ID

1
2
3
4
5
6
7
8

 使用低级数B-Tree和位图数据
High Group (HG)
 B-Tree + Group Array
 高级数字段

 增强 B-tree 索引处理 Joins, Equality 和 Group By 操作


其它索引
 其余索引不提供元数据供查询引擎(优化器)
– 只有 LF, HG 和 优化的 FP 索引提供列的级数和值分布的元数据
– 查询过程中用来快速定位存储在磁盘上的数据

 使用其它索引以提高查询响应
IQ索引
缺省索引,简单列存储,数据压缩存储

低基数,sum/avg/count极快,Bit map索引

高基数非分组,适应运算/范围搜索,Bit-
wise索引
高基数分组,提高group by和排序性能,
G-Array (包括一个改进的B-tree)

两个列比较,增加列比较的性能

字符型数据,增加字符定位查找的性能

日期和时间型数据,增加日期查询和
分类性能
IQ 索引特性

 快速装载, 加速查询
 紧凑
– 比传统的平衡B-Tree索引所需磁盘空间更少
– Cache更多的数据在内存中

 列式存储结构
– 快速查询的关键

 IQ索引的选择是基于数据类型, 基数, 查询使用方式


 每一种索引的存储和操作都不同
IQ 索引特性(cont.)
 IQ 能使用查询中所有字段上所有可用的索引
– Count() and Count Distinct, Datepart functions
– Table Joins
– Where Clause search arguments
– Group By clauses

 创建多种额外索引
– 构建强大的即席查询环境
– 任何列上支持多种额外索引, 根据查询中使用方式构建合适的索引
IQ数据加载和存储有效性
IQ在通常情况下的加载可以达到10-15G/CPU/H
数据大小/时间
传统数据库的数据量/
加载时间曲线
Terabyte

200 GB IQ的数据量/加载时间曲线
(通常数据量仅为传统DBMS
的1/3 - 1/7)
100 GB

50 GB

记录数
1 M Rows 10M 100M 1B
Sybase IQ特性
计算能力与存储容量独立扩展;
口令认证/数据不落地的加密传输 基于标准(JDBC/ODBC/.NET);
对静态数据进行数据库加密和列加密 支持主流BI工具(MSTR,Cognos,BO)
通过Common Criteria EAL-3级认证
用户可设置的密码 灵活性
支持FIPS(Unix平台)、Kerberos和IPv6
列式存储提升I/O效率
安全性 速度 为查询设计的体系结构
专利的索引技术

智能分析
易于部署与移植
信息
可管理性 可用性
一次调优,即可安枕无忧
快速数据加载
多节点,直接客户端加载
经济性 功能 加载不影响查询性能

专利数据压缩技术
出色的压缩能力,减少硬件/能源成本 一键式多路网格配置
运行于标准系统 对所有模型均保持高性能
支持成千上万的用户和PB级数据
在上万亿行数据上通过测试
Agenda
MODULE MAP

Sybase IQ 简介

IQ 技术特性介绍

IQ 应用场景介绍
应用场景
报表服务器
– 企业或者部门级报表应用
• 新的或者现有即席Reporting, Dashboards, CPM, KPIs的高性能平台
• 为低效能的EDWs减负的数据集市, 小型企业数据仓库(分析型应用)

高级分析
– 为企业赢取竞争优势, 支持战略/业务决策的高度复杂(内部)查询环境
• 预测模型和数据挖掘,用于客户和风险分析、盈亏分析、反欺诈知识自学习

数据汇集
– 信息服务机构聚集所有大量可利用的行业或社会级的数据, 为客户提供数据或者分析服务 ---通常为盈利
目的
• 提供了极强大的、低TCO的分析服务解决方案, 使他们能为客户提供更快高度精确的分析服务---保持投
资盈利

信息生命周期管理
– 机构需要将数据移出现行系统以降低成本, 对于那些长期的业务和监管报告同时又能方便访问那些数据
基于IQ的智能分析平台

Sybase IQ 优化的分析产品线
设计开发 (Eclipse IDE – Workspace/PD) 管理监控 (Sybase Central)
• 数据建模及设计 • 管理
• 分析模型开发 • 监控
分析工作台
• 报表/仪表盘设计 • 故障分析

信息生命
数据库内 数据库内 非结构化 安全模块
周期管理
分析应用基础 分析 – 分析 – 数据分析 (网络认证/
模块
预测分析 时间序列 (LOB) 加密列)

高性能
分析引擎 Sybase IQ 基于网格的列式存储 DBMS Sybase ETL 基于网格 ETL
Sybase IQ存储压缩实例
2005年WinterCorporation世界十大数据仓库 TopTen Award Winners
http://www.wintercorp.com

数据仓库大小
公司/组织 数据仓库大小 数据库 - 甲公司是数据膨胀的冠军,从17TB到100TB
(GB) - IQ是实际数据量的冠军18TB压缩到17TB (Nielsen)
- 甲公司把100TB Yahoo!的数据仓库宣传为“世界上最大的
Yahoo! 100,386 Oracle Unix数据仓库”

Nielsen Media 17,685 Sybase IQ


Research
原始数据(GB)
Nielsen Media Research 17,969 Sybase IQ
数据行数(亿) Yahoo! 17,014 Oracle
Nielsen Media 5024 Sybase IQ
Research
Yahoo! 3853 Oracle
IQ 在处理大量数据上
Turkcell 1810 Oracle
是第一位的
Anonymous 1671 Sybase IQ
KT IT Group 1366 DB2
Anonymous 1348 Sybase IQ
中国广东电信 1339 Sybase IQ
最大的数据仓库!

 1 PB 股票交易数据 (6万亿条
股票报价)
 加载速度:2850亿行/天 (300
万行/秒),持续3个星期
 85%数据压缩率
 平均数据延迟时间为2秒
 非结构化数据加载: 26 TB/天
 每小时加载200万条电邮和
600万文件的同时,只使用了
7%的CPU资源
最大的数据仓库!
 加载文件数: 12,081
 股票报价记录数:6.1 万亿
 裸数据大小(带分隔符): 1,130 TB
 裸数据大小(不带分隔符):1,029 TB
 平均文档大小:670 KB
 非结构化文档数目:200,000
 非结构化文档空间 128 TB
 所有数据空间:1,157 TB

 在IQ里面的数据库空间:162,639 GB
(合159 TB)
 压缩率:84.57%

You might also like