騰訊云數(shù)據(jù)庫TDSQL兩篇論文被全球頂會 SIGMOD 收錄,數(shù)據(jù)庫技術再獲創(chuàng)新突破

6月13日消息,騰訊云數(shù)據(jù)庫TDSQL和中國人民大學合作的2篇論文成功入選行業(yè)頂級會議SIGMOD,被SIGMOD 2024 Research Full Paper(研究類長文)收錄。

SIGMOD(Special Interest Group on Management Of Data)作為數(shù)據(jù)庫領域的“風向標”,擁有40余年發(fā)展歷史,每年為數(shù)據(jù)庫領域提供大量高質量的研究論文和研究成果,具有重要的學術價值和行業(yè)引導意義,與VLDB、ICDE并稱數(shù)據(jù)庫三大頂級會議。

本次收錄的研究成果中,同態(tài)壓縮理論和SALI學習索引框架均屬于業(yè)界首次提出,表明騰訊云數(shù)據(jù)庫在存儲、壓縮以及學習索引等方面的前沿創(chuàng)新獲得國際權威認可。

騰訊云數(shù)據(jù)庫TDSQL兩篇論文被全球頂會 SIGMOD 收錄,數(shù)據(jù)庫技術再獲創(chuàng)新突破

面對現(xiàn)代社會數(shù)據(jù)量的爆發(fā)式增長,行業(yè)普遍使用數(shù)據(jù)壓縮來減少存儲空間和提升傳輸效率。

但目前,多數(shù)壓縮方案專注于只讀文本處理任務,涉及文本修改操作必須將文本進行解壓后再執(zhí)行,這會對數(shù)據(jù)處理的性能和存儲空間帶來負面影響。

在騰訊云和人大合作入選SIGMOD會議的論文《Homomorphic Compression: Making Text Processing on Compression Unlimited》中,研究團隊創(chuàng)新性提出了同態(tài)壓縮理論,并在此基礎上開發(fā)了高效文本數(shù)據(jù)管理引擎HOCO。HOCO引擎結合了三種代表性壓縮方案,通過數(shù)據(jù)結構和算法設計實現(xiàn)對不同數(shù)據(jù)集語法規(guī)則的解析,實現(xiàn)了在壓縮文本上直接進行多種處理任務。

實驗表明,在不影響壓縮效果的情況下, HOCO可以實現(xiàn)9.18倍的吞吐量提升,文本分析任務的延遲縮短7.16倍。

另一篇入選論文《SALI: A Scalable Adaptive Learned Index based on Probability Models》提出了基于概率模型的可擴展自適應學習索引框架。

在數(shù)據(jù)庫中,索引是提高數(shù)據(jù)庫查詢性能的重要方式。為了提高索引的性能和效率,業(yè)內引進了學習索引,通過學習模型來預測數(shù)據(jù)存儲位置,進一步提高查找效率。但傳統(tǒng)學習索引存在技術局限,一旦數(shù)據(jù)集發(fā)生頻繁查詢更新等工作負載變化,學習索引也會頻繁調整,多線程高并發(fā)情況下會面臨阻塞。SALI 通過概率模型感知工作負載的變化,使學習索引可動態(tài)“進化”局部結構以適應新的負載。此方法在盡可能減少結構變化對性能的影響的同時,大幅降低線程間阻塞問題,從而實現(xiàn)高可擴展性、提高效率并增強學習索引的魯棒性。

實驗數(shù)據(jù)顯示,SALI在64個線程下提高了2.04倍的插入吞吐量。

作為國產數(shù)據(jù)庫行業(yè)的開拓者,騰訊云在數(shù)據(jù)庫領域已深耕十余年,服務超過50萬客戶。而中國人民大學作為數(shù)據(jù)庫研究的搖籃,為數(shù)據(jù)庫技術在中國的持續(xù)發(fā)展奠定了堅實基礎。2020年,騰訊與中國人民大學共同建立中國人民大學-騰訊協(xié)同創(chuàng)新實驗室,聚焦數(shù)據(jù)庫前沿技術探索和突破。據(jù)悉,合作至今,雙方在科研方面研發(fā)超過10項前沿技術原型系統(tǒng)、申請數(shù)十項專利、多篇論文入選SIGMOD、VLDB、ICDE、TKDE等國際頂會頂刊。未來,騰訊將持續(xù)發(fā)揮其多年的技術研發(fā)創(chuàng)新成果和產業(yè)應用經驗,聯(lián)合人大一起推動國產數(shù)據(jù)庫的學術進步和技術成果轉化。

本文轉載自:,不代表科技訊之立場。原文鏈接:http://v.mrkbao.com/news/111202406131503237464176006.html

陳晨陳晨管理團隊

相關推薦

發(fā)表回復

登錄后才能評論