過去十年間,,全世界的數(shù)據(jù)量每兩年大約增加10倍,,已經(jīng)遠(yuǎn)遠(yuǎn)超過計算領(lǐng)域的摩爾定律,因此人們需要有更高效的方式來處理數(shù)據(jù),。在如此強(qiáng)烈的需求推動下,,大數(shù)據(jù)技術(shù)發(fā)展日新月異,。
作為摩爾定律堅定的踐行者,星環(huán)科技一直致力于實現(xiàn)大數(shù)據(jù)技術(shù)領(lǐng)域的摩爾定律:近日,,星環(huán)科技正式發(fā)布TDH 4.6版本,,實現(xiàn)6個月內(nèi)單位性能提升60%,并發(fā)布了一系列新產(chǎn)品組件,,進(jìn)一步降低了大數(shù)據(jù)技術(shù)從概念到落地的復(fù)雜度,。
此次TDH 4.6發(fā)布兩大特色組件:
SQL on Elastic Search:在海量數(shù)據(jù)中快速檢索到精確信息的利器;
Graphene:在超級復(fù)雜的關(guān)聯(lián)網(wǎng)絡(luò)中快速找到社區(qū)結(jié)構(gòu)的圖計算產(chǎn)品,。
除此以外,TDH眾多功能組件也都迎來了重大升級,。
一,、Transwarp Inceptor
1. 性能提升
作為TDH家族的兄長,Inceptor努力踐行著摩爾定律:單位計算資源的性能在6個月內(nèi)提升了60%,。同時,,相同資源能夠支持的數(shù)據(jù)量也有同樣比例的增長,這意味著在半年內(nèi),,使用TDH的用戶可以在不做硬件擴(kuò)充的情況下,,只要升級至4.6版本,就能夠多處理50%的業(yè)務(wù)量,。下圖為TDH最近三個版本在TPC-DS基準(zhǔn)測試上的性能對比數(shù)據(jù),。
為了有更好的分析性能,Inceptor 4.6開發(fā)了全新的Inter-SQL-Optimizer,,可以分析一個文件中多個業(yè)務(wù)SQL,,并生成依賴圖,在此基礎(chǔ)上進(jìn)一步對業(yè)務(wù)SQL優(yōu)化,,包括刪除未使用的字段,、消除非有效的SQL等,并結(jié)合Cost Based Optimizer來提升性能,。
2.圖計算
Inceptor 4.6另外一個亮點是圖計算產(chǎn)品Graphene的正式推出,。Graphene提供基于SQL的擴(kuò)展語言進(jìn)行圖計算編程,通過Inceptor引擎完成分布式計算,,可以在海量數(shù)據(jù)中執(zhí)行多達(dá)14種圖算法,。
3.Holodesk再升級
為了提供更好的檢索和分析性能,Inceptor 4.6正式推出了Holodesk V2,,包含存儲層的一系列優(yōu)化,,更好的適配各種規(guī)格的SSD,并推出了全局索引,,以及基于全局索引的各種優(yōu)化,。在我們的基準(zhǔn)測試中,Holodesk V2相對于V1的性能顯著提升,,對于一些精確檢索類的業(yè)務(wù)SQL,,查詢延時降至毫秒級。
4.數(shù)據(jù)字典
為了更好的幫助用戶查看和管理元數(shù)據(jù),,Inceptor 4.6正式推出了數(shù)據(jù)字典,。在數(shù)據(jù)字典中,用戶可以通過基于SQL的方式來查詢各種元數(shù)據(jù)信息,從而更好的對數(shù)據(jù)進(jìn)行監(jiān)管,,同時也可以滿足各種第三方工具的對接需求,。
5.SQL支持
Inceptor 4.6在 SQL支持程度得到進(jìn)一步提升,包括正式支持SQL Sequence語法,,全面兼容VARCHAR和CHAR數(shù)據(jù)類型,,并通過方言控制與Oracle以及DB2保持一致行為。
Inceptor 4.6新發(fā)布的功能提升用戶體驗,,包括支持使用中文字符作表名或者字段名,,更好的滿足國內(nèi)客戶的需求;規(guī)范化的報錯,快速定位問題并構(gòu)建知識庫;PL/SQL支持在編譯期對SQL做語義檢查,,幫助用戶更早的發(fā)現(xiàn)問題;支持持久化的UDF,用戶只要一次加載就可以持續(xù)使用,。
二,、Transwarp Hyperbase
全新面貌交付,產(chǎn)品矩陣,、運(yùn)維支撐以及架構(gòu)方面均有重大的提升,。
首先,為了更好的適應(yīng)海量數(shù)據(jù)的檢索需求,,Hyperbase 4.6正式發(fā)布了SQL on Elastic Search功能,,包含SQL Engine,ES-Drive組件以及Elastic Search 2.0,。其中,,SQL Engine主要用于解析SQL以及全文檢索的語法,并通過ES-Drive最終生成對Elastic Search的API調(diào)用,。相比較于直接用ES API,,SQL編程在便利性、可管理性以及性能上都有更好的優(yōu)勢,。
以如下場景為例,,我們可以看到使用SQL做全文檢索的便利性?!安檎页鐾瑫r存在transwarp和outstand的文檔,,且兩單詞間距不超過10個單詞的文本,并且要求transwarp一定出現(xiàn)在outstand之前,?!盨QL: select * from test001 where contains(content, 'NEAR((transwarp, outstand), 20)')
其次,Hyperbase拋棄了傳統(tǒng)的InputFormat/OutputFormat的方式來操作HBase,,而是通過HyperDrive組件來使用HBase,。SQL操作會被直接翻譯為對HBase的RDD操作,最終直接體現(xiàn)為HBase的API調(diào)用。使用這種全新的架構(gòu),,大幅減少HBase原子操作的調(diào)用棧的復(fù)雜度,,對HBase中錯誤的處理更方便。 此外,,Hyperbase加強(qiáng)了對集群運(yùn)維的支撐,。我們基于HTrace實現(xiàn)了一套RPC的監(jiān)控工具,通過標(biāo)準(zhǔn)化的輸出日志,,快速定位;并對各個組件做關(guān)聯(lián)分析,,更方便的甄別系統(tǒng)問題。同時,,HBase提供Performance Metrics日志收集,、分析和展現(xiàn)框架,用戶可將自定義的Metrics收集起來,,通過第三方工具做報表展現(xiàn),,從而掌握集群的狀況。
三,、Transwarp Stream
StreamSQL在4.6版本中新增了多項重要功能,,更有效的應(yīng)對復(fù)雜的實時應(yīng)用場景。新版本中支持動態(tài)流控,,當(dāng)任務(wù)出現(xiàn)積壓時,,通過限制數(shù)據(jù)接收的速度來保證系統(tǒng)的穩(wěn)定性;針對一些實時應(yīng)用中可能出現(xiàn)過多的小文件問題,Stream通過Batch Flush模式進(jìn)行規(guī)避,。
Stream SQL支持Socket以及Kafka的數(shù)據(jù)源,,此外由于數(shù)據(jù)格式的多樣性,Stream SQL支持用戶自定義的Decoder,,并允許使用自定義的Decoder來解析通過Socket進(jìn)入的數(shù)據(jù),。
此外,Stream SQL在處理數(shù)據(jù)的亂序問題上也做了增強(qiáng),。當(dāng)Kafka中某一個時間段內(nèi)有亂序的數(shù)據(jù)時,,Stream正常接收數(shù)據(jù)并對相關(guān)的數(shù)據(jù)做重排序來恢復(fù)正常的數(shù)據(jù)流。
四,、Transwarp Manager
Manager 4.6新增了磁盤問題管理,。當(dāng)某一個硬盤出現(xiàn)問題后,用戶可以很方便的讓所有的組件不再使用該硬盤,,無需多次修改配置,。新版本支持一鍵刪除節(jié)點,并且支持Transwarp Manager HA的自動化配置,,Manager本身的穩(wěn)定性得到進(jìn)一步完善,。
為了讓用戶更好的了解集群狀況,Transwarp Manager新增了報表頁面。用戶可以通過選取感興趣的Metrics生成報表,,通過對報表數(shù)據(jù)的閱讀來掌握集群的運(yùn)行狀況,。
在集群運(yùn)維和檢查方面,Manager增加了頁面版本的環(huán)境檢查工具,,對當(dāng)前系統(tǒng)的軟件環(huán)境,、網(wǎng)絡(luò)狀況等進(jìn)行快速檢查,找出潛在的環(huán)境問題,。下圖為環(huán)境檢查工具在某個集群上的綜合檢查報告,。
五、Transwarp Guardian
Guardian 4.6新增了列級數(shù)據(jù)權(quán)限控制,,支持設(shè)置特定列對特定用戶脫敏顯示; 支持?jǐn)?shù)據(jù)庫級別的權(quán)限管理,,支持按數(shù)據(jù)庫批量賦予表的權(quán)限;可以通過SQL設(shè)置Inceptor表對應(yīng)HDFS文件的ACL以及用戶組;此外,在對Kafka的安全認(rèn)證中,,可以使用IP或者Host name作為Principal ,,使用更靈活。
六,、Transwarp Discover
從有效的數(shù)據(jù)中找出數(shù)據(jù)的價值是數(shù)據(jù)挖掘的主要使命,數(shù)據(jù)的質(zhì)量對挖掘的效果有著非常大的影響,,因此數(shù)據(jù)預(yù)處理一般是數(shù)據(jù)挖掘項目的首個重要任務(wù),。為了讓用戶對數(shù)據(jù)預(yù)處理更容易,Discover 4.6 提供了一套新的預(yù)處理的方法,,包括數(shù)據(jù)歸一化txNormalization和對異常數(shù)據(jù)的修改txReplacingData,。
除了在預(yù)處理部分的提升外,Discover 4.6增強(qiáng)了分布式算法和R算法的適配,,可以讓同一套代碼靈活的調(diào)用分布式算法或者本地R算法,。目前常用的一些算法如決策樹/ANN/SVD/PCA都可以在兩個模型之間切換。
此外,,Discover 4.6允許用戶將已實現(xiàn)的Spark算法加入Discover算法庫中,,并可以通過Discover Data Frame接口來調(diào)用,無需將代碼重新遷移,。
七,、結(jié)語
幫助更多的開發(fā)者將大數(shù)據(jù)技術(shù)落地并創(chuàng)造價值是星環(huán)科技的使命,也是驅(qū)動Transwarp Data Hub升級換代的直接動力,。從最早解決大數(shù)據(jù)分析的難題,,到現(xiàn)在推出的圖計算,海量數(shù)據(jù)檢索等功能,,我們希望將易用/可靠/穩(wěn)定/高性能的數(shù)據(jù)平臺交付給開發(fā)者,,讓數(shù)據(jù)更容易流轉(zhuǎn),讓大數(shù)據(jù)上的分析和挖掘更高效更敏捷,讓數(shù)據(jù)的價值驅(qū)動業(yè)務(wù)的發(fā)展,。