大數(shù)據(jù)時代的高速發(fā)展推動互聯(lián)網(wǎng)、大數(shù)據(jù)、云計算、人工智能、區(qū)塊鏈等技術(shù)日益創(chuàng)新,金融、互聯(lián)網(wǎng)、運營商、政府等數(shù)據(jù)密集型行業(yè)的數(shù)據(jù)存儲量呈現(xiàn)爆發(fā)性增長的趨勢,如何從海量數(shù)據(jù)中幫助企業(yè)更好管理和挖掘業(yè)務(wù)數(shù)據(jù)價值,滿足企業(yè)業(yè)務(wù)快速發(fā)展的需求,成為大數(shù)據(jù)數(shù)倉應(yīng)用的重要方向。
大數(shù)據(jù)數(shù)倉通常采用分布式計算技術(shù),利用大數(shù)據(jù)天然的擴展性來完成海量數(shù)據(jù)的存放,同時把SQL轉(zhuǎn)換成針對大數(shù)據(jù)計算引擎的任務(wù),實現(xiàn)數(shù)據(jù)分析,如Hadoop、Spark等作為存儲和計算引擎,使用工具或編程語言設(shè)計處理邏輯,實現(xiàn)對不同數(shù)據(jù)源的匯聚、清洗、計算和分析。除此之外,大數(shù)據(jù)數(shù)倉還具有面向海量數(shù)據(jù)、可高效查詢和分析、具備數(shù)據(jù)安全性以及靈活性等特點。
在國內(nèi),本地部署模式的數(shù)據(jù)倉庫仍是目前政府、金融、能源以及大型企業(yè)的首選。固態(tài)硬盤憑借其高吞吐量、低時延等特征逐漸成為大數(shù)據(jù)時代下數(shù)據(jù)存儲的重要載體,是當(dāng)前本地部署的數(shù)據(jù)倉庫產(chǎn)品重要搭載硬件。
為更好應(yīng)對數(shù)據(jù)密集型行業(yè)對高性能、高可靠存儲的需求,憶聯(lián)特聯(lián)合國內(nèi)大數(shù)據(jù)倉儲的佼佼者——南大通用(下稱:GBase)共同探索大數(shù)據(jù)時代下數(shù)字化轉(zhuǎn)型存儲新方案。
南大通用大規(guī)模分布式并行數(shù)據(jù)庫集群系統(tǒng)(簡稱GBase 8a MPP Cluster),是在GBase 8a系列存儲數(shù)據(jù)庫基礎(chǔ)上開發(fā)的一款Shared Nothing 架構(gòu)的分布式并行數(shù)據(jù)庫集群,具備高性能、高可用、高擴展等特性,可為各種規(guī)模數(shù)據(jù)管理提供高性價比的通用計算平臺,廣泛用于支撐各類數(shù)據(jù)倉庫系統(tǒng)、BI系統(tǒng)和決策支持系統(tǒng)。
圖1:GBase 8a MPP Cluster技術(shù)架構(gòu)圖
GBase 8a MPP Cluster采用MPP+Shared Nothing的分布式聯(lián)邦架構(gòu),節(jié)點間通過 TCP/IP網(wǎng)絡(luò)進行通信,每個節(jié)點采用本地磁盤來存儲數(shù)據(jù)。GBase 8a MPP Cluster系統(tǒng)中的每一個節(jié)點都是相對獨立的、自給的,整個系統(tǒng)具有非常強的擴展性,可從幾個節(jié)點擴展到上百節(jié)點,滿足業(yè)務(wù)規(guī)模增長的要求。
1 驗證環(huán)境
1.1 本次驗證硬件配置
類型 |
型號 |
硬件配置 |
備注 |
服務(wù)器 |
2U2路(X86) |
CPU:Intel? Xeon? Gold 6330 CPU@2.00GHz*2 |
3臺 |
內(nèi)存:8*32GB |
|||
存儲控制器:支持RAID 5(數(shù)據(jù)盤) |
|||
網(wǎng)卡:1*2端口10GE以太網(wǎng)卡 |
|||
硬盤 |
憶聯(lián)SSD |
系統(tǒng)盤:2*480GB SATA SSD 數(shù)據(jù)盤:6*3.84TB SAS SSD(UM511a) |
|
交換機 |
10GE 交換機 |
48端口10GE交換機 |
/ |
1.2 本次驗證軟件配置
類型 |
型號 |
版本 |
備注 |
操作系統(tǒng) |
redhat(x86) |
7.9 |
/ |
GBase版本 |
GBase 8a |
GBase8a_MPP_Cluster-License-9.5.3.14 |
/ |
客戶端 |
gccli |
9.5.3.14 |
/ |
數(shù)據(jù)庫壓測 |
TPC-DS |
3.2.0rc1 |
開源 |
數(shù)據(jù)庫壓測 |
TPC-H |
3.0.0 |
開源 |
網(wǎng)絡(luò)監(jiān)控 |
SAR |
10.1.5 |
OS自帶 |
IOSTAT |
盤側(cè)IO統(tǒng)計 |
10.0.0 |
/ |
MPSTAT |
CPU利用 |
10.1.5 |
/ |
1.3 本次驗證組網(wǎng)規(guī)劃
圖2:本次GBase 8a MPP組網(wǎng)規(guī)劃架構(gòu)圖
2 驗證方法
步驟1:將6塊SAS UM511a配置Raid5。
步驟2:創(chuàng)建數(shù)據(jù)庫和表
? 使用TPC-H工具評估數(shù)據(jù)庫分析處理能力,需要提前創(chuàng)建數(shù)據(jù)庫和TPC-H內(nèi)置的8張表;
? 使用TPC-DS工具評估數(shù)據(jù)庫分析處理能力,提前創(chuàng)建數(shù)據(jù)庫和TPC-DS內(nèi)置的25張表。
步驟3:參數(shù)調(diào)優(yōu)
根據(jù)GBase建議進行相關(guān)參數(shù)調(diào)優(yōu)。
步驟4:數(shù)據(jù)生成
? TCH-H通過dbgen工具可以通過設(shè)置參數(shù)生成所需的測試數(shù)據(jù),命令參數(shù)為/dbgen -C 10 -S 1 -s 3000 –vf;
? TPC-DS通過dsdgen工具可以通過設(shè)置參數(shù)生成所需的測試數(shù)據(jù),命令參數(shù)為./dsdgen -scale 3000 -dir testdata -force -parallel 10 -child 1。
步驟5:數(shù)據(jù)加載
? 數(shù)據(jù)導(dǎo)入時,在GBASE集群本地節(jié)點搭建FTP服務(wù)器,通過FTP加載數(shù)據(jù)。當(dāng)一個表包含多個數(shù)據(jù)文件時,將單表的多個數(shù)據(jù)文件集成一個導(dǎo)入語句中,以單表為粒度分別加載測試數(shù)據(jù)至8張數(shù)據(jù)庫表中。
步驟6:SQL執(zhí)行
? 獨立的客戶端,通過業(yè)務(wù)平面網(wǎng)絡(luò)與GBase集群通信,使用gccli工具執(zhí)行TPC-H 22個SQL用例,參考命令為/home/GBase/gccli_install/gcluster/server/bin/gccli -h 10.28.100.38 -uroot -Dtpch -vvv < query_1.sql。
3 驗證結(jié)果
本次在GBase 8a MPP場景下驗證結(jié)果如下:
3.1憶聯(lián)SAS SSD在Raid邏輯卷帶寬性能測試下的表現(xiàn)
圖3:憶聯(lián)SAS盤在Raid邏輯卷帶寬性能測試下的表現(xiàn)
在本次測試中,將6個SAS SSD配置Raid5,12塊SATA配置Raid50,在Server主機使用FIO測試工具進行128KB順序讀寫帶寬性能壓測。從圖3結(jié)果表現(xiàn)可知,SAS SSD讀寫帶寬更優(yōu),讀帶寬比SATA有19.6% 左右提升,寫帶寬提升34% 左右,展現(xiàn)了SAS SSD在Raid邏輯卷帶寬下的絕對優(yōu)勢。
3.2憶聯(lián)SAS SSD在單盤故障降級&重構(gòu)讀性能下的表現(xiàn)
圖4:憶聯(lián)SAS SSD在單盤故障降級&重構(gòu)讀性能下的表現(xiàn)
單盤降級讀性能是指RAID組在單盤故障或拔出情況下的RAID組邏輯卷讀業(yè)務(wù)性能,重構(gòu)性能是指但盤故障后,RAID同時進行熱備盤數(shù)據(jù)重構(gòu)和業(yè)務(wù)下發(fā)時的業(yè)務(wù)側(cè)性能。本次通過將6塊憶聯(lián)SAS SSD配置Raid5后,在一塊SSD故障條件下進行測試。
如圖4所示,不管是在單盤降級讀性能還是在重構(gòu)讀帶寬條件下,SAS盤的表現(xiàn)都優(yōu)于SATA,單盤降級讀性能優(yōu)于SATA 22.7% 左右,重構(gòu)讀帶寬性能上比SATA最大有38.4% 左右的提升。
3.3憶聯(lián)SAS SSD在TPC-DS場景下的表現(xiàn)
圖5:TPC-DS場景下憶聯(lián)SAS SSD的表現(xiàn)
TPC-DS測試是通過FTP協(xié)議加載數(shù)據(jù)到GBase數(shù)據(jù)庫表。從圖5可見,在相同物理硬件環(huán)境下,SAS SSD不管是在數(shù)據(jù)導(dǎo)入還是在SQL用例執(zhí)行時間上所用時間都略低于SATA SSD,具備一定時間優(yōu)勢。
3.4 憶聯(lián)SAS SSD在TCP-H場景下的表現(xiàn)
圖6: TPC-H場景下憶聯(lián)SAS SSD的表現(xiàn)
TPC-H測試是通過FTP協(xié)議加載數(shù)據(jù)到GBase數(shù)據(jù)庫表。圖6展現(xiàn)了SAS SSD以及SATA SSD在TPC-H測試下的表現(xiàn),其中SAS SSD總用時略優(yōu)于SATA SSD ,數(shù)據(jù)導(dǎo)入時間優(yōu)于SATA約6% ,對SQL用例執(zhí)行時間上相比SATA SSD降低了3% 左右。
本次驗證可充分體現(xiàn)憶聯(lián)SAS SSD 在GBase 8a MPP場景下的性能優(yōu)勢,SAS SSD可有效支持業(yè)務(wù)高效開展,具備單盤帶寬更高,盤故障重構(gòu)、降級性能更優(yōu)等優(yōu)勢,不僅可以幫助企業(yè)節(jié)約硬件采購成本,也可解決海量數(shù)據(jù)下的大數(shù)據(jù)存儲和計算問題,高效處理海量結(jié)構(gòu)化數(shù)據(jù)。
憶聯(lián)深耕固態(tài)硬盤領(lǐng)域多年,已發(fā)布多款高性能、高可靠產(chǎn)品,具備應(yīng)對復(fù)雜的業(yè)務(wù)環(huán)境和數(shù)據(jù)庫挑戰(zhàn)的能力,可滿足行業(yè)用戶海量數(shù)據(jù)處理需求。憶聯(lián)將持續(xù)聯(lián)合GBase共同打造數(shù)字化轉(zhuǎn)型背景下的存儲新方案。
地址:深圳市南山區(qū)記憶科技后海中心B座19樓
電話:0755-2681 3300
郵箱:support@unionmem.com