亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

洛威爾會議——數據庫研究的自我評估(譯文)

系統 2073 0

原文:The Lowell Database Research Self Assessment 。轉載請注明原地址,謝謝!

? 概要

?????? 每隔幾年資深數據庫研究者們齊聚數據庫研究特設會議,評估數據庫研究的狀況,并指出需要特別注意的問題。這份報告總結了這群研究者二零零三年五月四日到六日在美國 Massachusetts?Lowell (以下稱洛威爾)召開的 第六屆特設會議的討論和結論。這份報告強調了信息管理依然是大多數復雜軟件系統的重要組成部分,并建議數據庫研究者將重點放在如下領域:文本、數據、代碼和流的整合,不同數據源的信息融合,不確定數據的推理,開放數據的關系挖掘,信息隱私以及自適應和修復。

1? 簡介

每隔幾年資深數據庫研究者們齊聚數據庫研究特設會議,評估數據庫研究的狀況,并指出需要特別注意的問題。跟隨著前人的腳步,這份報告與更早的幾份會議報告 [1] [2] [3] [4] [5] 目標相似。沿襲著會議傳統,在2003年五月上旬,25位代表著數據庫研究領域中在研究方向,聯系和地理位置上廣泛而交叉的資深數據庫研究者來到洛威爾,兩天內集中討論了數據庫領域的定義和數據庫今后的發展方向。會議產生了幾個重要的觀察報告。

受到新應用,技術潮流,新協同作用和數據庫領域本身的改革的驅動,我們把注意力放在了信息的存儲,組織,管理和存取上。信息的性質和來源每時每刻都在發生變化。每個人都意識到Internet,Web,科學和電子商務對信息和信息處理有著龐大的需求。同樣有此需求是即將到來的微傳感器技術,這種廉價的技術能使大多數事物實時地報告他們的狀態。而這種每時每刻都可能在發生改變的信息正是某些監測事物狀態和位置的應用開發的需要。傳感器信息處理會使很多數據庫熱點提升到一個新環境,與此同時帶來的是新約束和新機會。

如今Internet是應用開發的主要驅動引擎,特別是使跨企業的應用成為了可能。在歷史上,應用功能是屬于企業內部的,是可以在一個統一的管理下徹底地規定和優化的。不過,大多數企業熱衷于與它們的供應商和客戶交流以共享信息,這樣就可以向用戶提供更優質的服務。這從根本上說是跨企業的,并且需要對安全和信息進行更有力地整合的設施。這也為數據庫管理系統(DBMS)社區帶來了新課題。

數據庫在科學領域的應用的重要性正在不斷增加,特別是物理,生物,醫學和工程。這些科學領域需要更先進的數據庫產品提供對龐大而復雜的數據集的支持,同時也需要信息集成的方法。此外,數據分析,存儲和已排序數據(包括時間序列,圖像分析,網狀結構計算和地理信息)的查詢都會衍生一系列的數據,并且與全球數據網格進行整合。這些都是數據庫管理系統幫助科技人員做到的。

除了這些信息管理的新變化之外,在傳統數據庫管理系統領域,我們也面臨著重要的改變,比如數據模式,存取方法,查詢處理算法,并行控制,恢復,查詢語言和DBMS的用戶接口。這些課題在以前已經被很好地研究了,然而,技術一直在改變慣有的規則。例如,磁盤和RAM的性價比越來越高,存取時間和帶寬也在不斷提升,但是沒有容量和價格那么快。這種提升比率要求我們重新評估存儲管理和查詢處理算法。另外,由于處理器的緩存在大小和數量的規模上有了爆炸式的變化,這就要求數據庫管理系統的算法能夠自動隨著緩存的變化做出相應的調整。這就是新形勢下技術上的變化使得以往算法得到重新評估的兩個例子。

數據庫研究的另一個動力來自相關技術的成熟。例如,在過去的十年里,數據挖掘技術已經成為數據庫系統的一個重要組成部分。信息檢索需要與傳統數據庫搜索技術相整合,然而Web搜索引擎已經使得信息檢索走進了千家萬戶。人工智能的許多領域正在制造結合了數據庫技術的部件;例如,這些部件使我們能夠處理語音,自然語言,不確定性推理和機器學習。

與會者們指出,這幾天為計算機學科的不同領域提出“大挑戰”是一個流行的承諾。每個大挑戰都是不能被輕易解決的問題,因此打算作為某一給定領域的使命,比如信息效用 [5] 和用數十億零件建造系統 [6] 。我們認為我們可以定義更多的大挑戰。事實上,我們討論過著名的個人信息管理器。個人信息管理器是一種為人的一生提供存儲,組織和對數字編碼信息進行存取的一種數據庫。最后,我們肯定地認為由于信息管理技術是提出的大多數計算機科學大挑戰的關鍵部件,那么關注單個大挑戰是不合適的。此外,很多信息管理方面的挑戰都遠遠超出了目前工藝水平。由于原有的大挑戰已經在數據庫社區充分飽和,所以我們決定不再增加新的大挑戰。

在會議進行的這兩天里,我們注意到許多影響信息管理的新應用,新技術潮流和新協同作用。從總體上看,這些熱點需要一個與現有的設施不同的新信息管理基礎設施。從此開始,第二節研究了這一基礎設施的組件。第三節介紹了會議期間有爭論的話題的討論,和數據庫研究下一階段的工作。研究的下一階段將把新信息管理設施向現實推進。

2? 下一代基礎設施

這一節討論了各種基礎架構的部件,它們中有些需要新技術,或者在一定程度還是設想。

2.1? 文本,數據,代碼和數據流的整合

數據庫管理系統領域的研究一直集中在捕獲,組織,存儲,分析和檢索結構化的數據。直到最近,一些研究者開始關注將DBMS所能管理的數據也擴展到文本,暫時性數據,空間性數據,聲音,圖像或錄像。不過,網絡已經清楚地表明這些更復雜的數據類型的重要性。但是普遍的問題是,當系統添加擴展功能時,很難使擴展如慣有功能那樣干凈。 相反,有一種傾向 做必要 功能 的最低限度 以獲得希求的 新功能中最重要的 部分 。 結果是這些擴展傾向于創建“二等公民”——無法用于傳統DBMS的“一等公民”出現的所有上下文的對象。這里有一些例子表明,反思我們處理特定元素的方法能改善一個系統的有效性。

面向對象(OO)和面向關系(OR)的DBMS展現了文本和其它數據類型如何添加到一個DBMS中,以及如何擴展查詢語言以使其能操作擴展的數據類型。當前的數據庫系統已經向支持跨文本和結構化數據的查詢邁出了第一步,但是這樣還不足以使結構化數據檢索具有信息檢索的概然推理的特點。為了做到更好,我們需要數據模型的全新表示。能存取文本和數據的查詢語言也是如此。至少不確定性的管理所需的概然推理和其它技術必需成為DBMS的一等公民。

同樣的,如今的數據庫管理系統上增加的功能主要是能將用戶定義的過程添加到查詢語言中。這一功能允許用戶向DBMS添加新數據類型和它的行為(或方法)。不幸的是這一功能使過程成為了二等公民,我們更希望代碼也成為DBMS的一等公民。

觸發器和主動數據庫是DBMS內部可執行代碼的另一個來源。當滿足指定的數據庫環境狀態或一個確定的事件發生時,用戶希望能收到DBMS的提醒。如果數據庫有數百萬個環境狀態,周期性地查詢數據庫的某一狀態是否為真是低效率,甚至是不可行的。相反,用戶想指定監視的條件,然后當指定的條件為真時,由DBMS異步地提醒用戶。DBMS產商們已經將觸發器和警報器添加到它們的產品中,而且關于如何使這類工具變得可伸縮性已經有相當多的研究。無論以何方式,觸發器和警報器已經被嫁接到原有的DBMS架構中。盡管在通常情況下完全由代碼進行推理是不可行的,但讓DBMS做簡單的,或者可能只是合成的關于代碼對象的推理是有用的。例如,我們就可以指望發現所有依托數據庫對象的所有代碼。

我們預計若干正在出現的應用類型會迫使數據流也成為DBMS的重要組成部分。即將到來的低成本微傳感器將使能監視DBMS的新應用成為可能。用傳感器實時地報告每個重要對象的狀態將變成現實。例如,筆記本和放映機會附帶一個傳感器,而不是屬性標簽。為了找到丟失或被偷竊的放映機,用戶就可以在監視系統上查詢放映機的位置。這類監視應用需要被監視的事物的傳感器信息流的支持。這些數據流將向DBMS提出新的要求,其中包括的方面有高性能數據輸入,時間序列功能,日志維護和有效的隊列處理。據推測,商業DBMS試圖通過將數據流處理嫁接到傳統的結構化數據的架構上的方法來支持監視應用。

最近,科學的一種新形式正在形成。每一個學科都在產生龐大的數據量,例如粒子加速器 (物理學) ,望遠鏡 (天文學) ,遙測傳感器(地球科學) ,基因芯片(生物學)。計算機模擬也在產生龐大的數據集。組織,分析和總結這些巨大的科學數據集是一個對 DBMS 真實的挑戰。來自于分布在網格中的各種處理過程和分析程序的數據定位和傳輸也是如此,迎接這一挑戰需要了解處理結點的整體架構與其中每個模塊的需求和行為。滿足以上需要的 DBMS 需要數據與過程的整合,這將把復雜數據和先進的數據分析整合進 DBMS 。

在我們看來,是時候停止將新結構嫁接到過去傳統的架構上。相反,我們應該重新考慮 DBMS 基礎 架構并著眼于支持

l? 結構化數據;

l? 文本,空間,時間,圖像和多媒體數據;

l? 程序的數據,就是數據類型和封裝程序的方法

l? 觸發器

l? 數據流和隊列

作為DBMS架構中平等且重要的部件。它們的接口及其實現也應如此,而不是作為后來者嫁接到相關內核中。

與會者們建議研究社團從頭重新開始研究,這在大多數情況下會更有利。往SQL,XML模式和XQuery中添加功能可能會導致系統缺乏一個連貫的核心而變得笨重。由于XML模式和XQuery過于依賴先前的標準,我們堅信它們已經太復雜了,以致于不能成為DBMS新架構的基礎。對信息交流來說,自我描述的記錄格式是一個偉大的想法,但對于我們所設想的那種在其中過程,文本和結構化數據地位平等的DBMS來說,這種記錄格式并不是特別方便。最后一點,一種新信息結構是無法承受過去政治性的妥協的。我們相信DBMS產商將繼續奉行擴展SQL和擴展XML的策略,以逐步改善原有的產品。相比之下,研究界應該探討這一問題的重新概念化。

這一新結構的研究是我們研究界未來五年內的目標。我們期待在下屆特設會議之前會有里程碑式的實質性原型。

2.2? 信息融合

企業著手處理語義范疇上的信息集成已有十年多了。典型的做法是提取工作數據,將產生的數據轉換為同一模式,然后加載到數據倉庫中,這樣就可以進行查詢了。在這一過程中,信息集成會提前進行,并通常使用轉換—加載(ETL)工具建立數據倉庫和數據集市。這在由一個公司統一地控制幾十個業務系統的情況下是可行的。

然而,因特網完全打破了這種提取,轉換和加載的模式。如今我們需要跨企業的信息集成,而且信息集成的基礎通常是特設的。很少組織會允許外部對組織業務系統中所有數據的提取,所以數據肯定留在源頭,并且只能在查詢時被訪問。這部分工作現在能由一些商業工具完成,但其數據源只能是一個企業里的數據源中相對較小,靜態的部分。

如前所述,傳感器網絡和科學研究會產生龐大的數據集。這些傳感器和數據集可以分布在世界各地,并且動態的傳回和取出數據。這便打破了傳統信息集成模式,因為還沒有一種切實可行的方法能將ETL工具應用于以上兩種場合中的一種。

為此,信息集成必須飛越數以百萬計的信息資源。DBMS研究界已經有好幾年在調查聯合數據系統,并形成了多份調查報告。第一份 [1] 報告就這個問題進行了廣泛地討論。然而,令人棘手的語義異構問題仍然沒有解決。不同人設計的模式是不可能完全一樣的。模式可能會含有不同的單元(比如你的工資是以歐元為意為,而我的是美元),不同的語義解釋(我的工資是包括了午飯的凈工資,而你的是毛額)和同一事物的不同稱呼(你的數據庫叫 Samuel?Clemens ,而我的叫 Mark?Twain )。一個能部署在Web網絡上的語義異構的解決方案仍然是難以捉摸的。我們研究界必須關注這個熱點,并認真研究之,否則跨企業的信息集成依然是白日夢。同樣的問題也發生Web語義中。無論是否從事數據庫研究,所有研究于語義異構和其它相關問題的工作組的合作是極其重要的。

當然,要使有效的Web規模的信息集成成為現實,還有很多其它困難的工作等著我們。比如,現有的聯合查詢執行系統會將子查詢發送到所有可能與子查詢與關的數據站點,以此求得對查詢的完整回答。然而在Web上,這便是不可行的,而且執行的查詢是基于證據不斷累積的概然世界,因此查詢的結果也遠不是正確答案。又比如,常規的信息集成默認假定在每個數據庫中的信息可以被自由地共享。當信息系統擴充至其它自治企業時,查詢過程必須處理諸如,每個數據庫只返回查詢所需的與其安全策略相一致的最少信息。再比如將信息集成技術整合到跨越多個數據源的監視應用中。例如當我的駕車路線接近我出席的會議地點附近的住宿酒店通知我。

2.3? 傳感器的數據與網絡

傳感器網絡由數量龐大的低成本設備組成,每個設備都是一個數據源,因為每個設備都在檢測著一些屬性量,比如物體的位置或者環境溫度。如前所述,這類網絡提供了重要的數據源并且對數據管理提出了新的要求。例如,這些傳感器設備通常都是自供電的無線設備。這類設備在發送和接收信息消耗的電力比計算要大。故而,在查詢整個網絡的信息時,傾向于將盡可能多的計算工作分配一個獨立的結點。事實上,傳感器網絡已經成為了一種新的數據庫機器。越接近于數據運算的操作越能傳感器網絡的使用達到最優。

在傳感器網絡中的查詢需要能適應快速變化的網絡布局,比如有些傳感器會從網絡退出或無法連接到網絡。查詢計劃必須隨著傳感器網絡的變化而變化,然而如今的數據庫系統卻不具備這種能力。

同時,傳感器也暗示著要處理數據集成的新的復雜形式。一個普遍的例子就是傳感器并不是完全標準化的。解析從傳感器傳回的值需要指明是哪個傳感器。一個更復雜的工作是傳感器數據處理應能從非常低水平的信號推導出非常高水準的事實。例如,我們可能想通過結合熱傳感器,聲音傳感器和振動傳感器來定位附近的一個人。

2.4? 多媒體查詢

顯而易見,如今多媒體數據(圖像,視頻,音頻等)正在大幅增加。數據庫研究的一個挑戰就是為分析,匯總,搜索和查看某人的多媒體信息“電子鞋柜”尋找簡單方法。課題研究從 Vannevar?Bush 的麥克斯存儲器 [8] 視覺到為伯母Betsy準備關于兒童的多媒體演示之類普通的工作。這些目標的實現需要遠遠超過當前工藝水平的設備來支持多媒體信息的管理。

2.5? 不確定數據的推理

用于商業數據處理的傳統DBMS通常把重點放在數字和字符串的處理上。在那些應用領域,數據元素如地址,庫存數量,全額,職位和發送時間都是明確的量。正因為如此,現在的DBMS對付近似數據和不準確查詢毫無辦法。

除了商業數據處理,所有數據在本質上都是不確定或不精確的??茖W測量有標準誤差。運動物體在當前位置的位置數據包含著不確定性。序列,圖像和文本的相似度都是近似度量??茖W家為了分析不精密度,需要知道數據從何而來(儀器,儀器的設置)以及在數據被解析前進行了何種清洗,重新調整和重新建模等,所以必須追蹤數據的“血統”(或者說“起源”)。顯然DBMS需要內置對數據不精確性的支持。

如前所述,查詢處理必須從每個查詢對應一個確切答案的確定模式轉移到推測模式。在推測模式中,查詢處理器通過不斷積累查詢論據來為用戶查詢提供越來越好的查詢結果。 用戶還可以要求不精確的查詢 以及 處理引擎包括 更多這種 不確定性 來源。 當然,由于存在不精確查詢結果,系統有義務描述所提供的查詢結果的準確性,這樣用戶就可以明白近似結果是否滿足他們的需要。例如,信息檢索系統測量檢索結果的精度,并反饋給研究者,幫助他們了解結果是否令人滿意。

2.6? 個性化

某些與會者提出查詢結果應根據用戶的個人資料給出。一位某領域的專家得到的查詢結果與一位新手得到的應是不一樣。關聯和關聯反饋也應取決于用戶和環境。這對于來自多個資源的數據是可能的。這些數據按照某一意圖進行組織,并為其它應用而服務。例如,健康信息應針對某一單獨用戶的衛生保?。ɡ玑t院記錄,藥方,藥物療效,家庭醫史,免疫記錄,牙齒記錄和保險索賠)。下一代信息系統應實現大眾的個性化,而所需要是一個包含和開發個性化所需的元數據的框架。

與會者同時指出個性化和不確定性使得人們需要核對信息系統是否在產生“正確”的結果。例如,如果信息系統有漏洞并且產生錯誤的近似或個性化結果,那將是怎樣的災難?

2.7? 數據挖掘

從數據挖掘的歷史來看,其一直關注于發現已有數據集的模式的有效方法。這些模式必須反映數據某些有用的方面,并隱藏對預期的應用無用的細節。許多研究組都開發了執行諸如分類,聚合,關聯規則發現和歸納這些操作算法。這些技術現在都成為DBMS主要產商的主流產品的一部分。如今全球財富500強的公司和相似的小型應用程序都在大量地使用數據挖掘和商業智能。現有數據挖掘工具的成功為下一代工具帶來了市場需求,例如全球財富500強的公司的數據倉庫的使用者一直進行著一個單一的數據挖掘的查詢:“有什么令人感興趣的事情嗎?”他們很高興有當前這些數據挖掘工具,但是他們希望能有擅長于產生令人意想不到的“智慧珍珠”的工具。

找尋這類“珍珠”是在數據庫后臺運行,并且消耗了過多的數據庫資源。為此開發出篩選所需的算法和結構是數據挖掘的一個挑戰。另一個重要的課題是將數據挖掘與查詢,優化和觸發器這類數據庫工具進行整合。我們希望數據挖掘跳出基本操作的算法朝著這個方向前進。我們也感到計算機科學和IT課程應包含更多的數據挖掘工具的使用知識。

2.8? 自適應

數據庫的廣泛使用帶來的一個結果是數據庫管理員(DBA)能力的下降?,F代數據庫比之20年前更趨于復雜。如今,數據庫管理員必須了解硬盤分區,查詢并行執行,線程池和用戶定義數據類型。這些概念在昔日的數據庫中從未出現。簡而言之,現在的DBMS太難用了。為了彌補這一缺點,主流DBMS供應商開始簡化數據庫管理。

這類簡化至少有兩個方面。首先,如今的DBMS有一大堆“調諧旋鈕”。專家可以使用它們將數據庫系統調整至最優狀態。然而,專家通常是DBMS供應商的工程師,而且這類調優讓客戶花費巨大。事實上,大多數做調優的系統工程師并沒有深刻理解“按鈕”的含意。相反,他們已經見過很多系統配置和系統負荷量,所以配置新環境時,他們就拿著最接近新環境的其它系統的配置優化參數來優化新環境。

目前來看,將基于規則的系統和有屬性設置和配置數據的數據庫結合起來進行調優應該是可能的。在這方向已經有很多領域取得了巨大的進展,比如動態資源分配,物理結構選擇,在一定程度上也包括物化視圖(由DBMS維護的用于加速特定查詢的冗余數據)的選擇。這些進展大都是由DBMS供應商取得的。在我們看來,最終目的是“無旋鈕”。系統可能根據默認策略自動配置,比如反應時間和吞吐量的相對重要性,或者由用戶需求歸納得出的用戶概況。所以,更加復雜的用戶行為和工作負荷的模型是這領域取得進展的前提。我們相信現實的“無旋鈕”操作是可以實現的,而且我們建議研究界將這一目標作為研究重點。

許多使用DBMS的新應用程序將要求有自動操作。除了“無旋鈕”調優之外,DBMS還必須分辨內部故障和通信部件故障,確認數據是否損壞,偵測應用程序失敗原因并且為此做一些事情。這些功能需要DBMS的自我意識更強并且為DBMS提供當前所參與的信息系統的明確的模型

2.9? 隱私

網絡的廣泛應用使得關于個人的信息激增。而且,現在有大量的引擎在探尋數據庫之間的相互關系。這種融合使得可以發現數量空前的個人信息。比如每個人曾經住過的每個地址,這類平實的數據可以很容易地獲得。找到曾經住在某一地址的人也似乎很容易,這樣找到某人以前的一個鄰居也就簡單了。也有人宣稱搭乘同一航班的所有乘客的數據也能獲得。更進一步,由于不難獲得一位死者的重要個人記錄,利用這些信息和假名就可以申請信用卡,故而身份盜竊成為令人不安的國家性問題。

面向數據的安全性研究在19世紀80年代很熱門,但在這之后就偃旗息鼓。我們了解現在有重振這一子領域的需要,但卻是面向明顯不同的方面。今天,我們需要存入業務,策略和程序來支持多人對第三方數據的選擇和控制。這一系列的課題很可能與在Web網以前的單個組織的數據安全模型大不相同。盡管法律對處理信息隱私和相關安全問題仍有重要作用,我們依然可以改變可選項的設置,并且通過推進可實現的技術使得隱私安全權衡變得更好。

由于大多數信息關聯由DBMS執行,安全系統應包括處理未來如何使用數據的部件。我們社會也就能工作這樣的安全系統之上。存取命令不僅要依據請求數據的人做出,還要依據數據的使用目的。況且,由于我們已經有在其它領域處理面向數據的聲明規范的經驗了,所以指明數據請求的目的的聲明系統是我們社會所擅長的。

2.10? 可信賴系統

可依賴系統能安全地存儲數據,保護數據免受未被授權的接觸,防止數據丟失并總是能提供相應數據給授權用戶。隱私管理只是可依賴系統的更廣泛的課題的一方面?,F在數字版權管理越來越受到關注。數字版權管理包括保護知識產權和允許私人談話。此外,保證查詢結果的正確性和數據密集型計算的熱度也在上升,特別是包括衛生保健卡等其它醫療應用的嵌入式系統。邏輯推理技術可能會在諸如定理證明和模型檢查等應用的正確性驗證上起作用。信息管理社區應為滿足這類需求起研究中心的作用,并且在DBMS增強支持這些功能的機制。

2.11? 新用戶接口

多年來人們一直感嘆數據庫研究界在用戶接口方面做的工作太少了。如今桌面系統可以支持非常復雜的視覺系統。然而,對于DBMS中的某一信息類型來說,如何最好地呈現結果是不清楚。19世紀80年代時,提出過一些面向信息展示的平滑可視化系統,比如著名的QBE和VisiCalc。在最后的15年時,它們并沒有什么可圈可點的進展,所以在這一領域急切地需要更好的點子。

三十年來查詢語言的研究可以歸結為:“我們已經從SQL遷移到XQuery”。充其量,我們從一種聲明性語言轉移到第二種表達性與第一種大致相同的聲明性語言。終端用戶將不需要學習SQL是有據可查的;相反,SQL是專業程序員使用的符號。在其它研究領域,我們看到一些可能影響在接口上影響面向數據庫的研究的想法。信息檢索使用關鍵詞進行查詢已經有十年了。而在很多領域,監視已經變得越來越熱門了。

也許“語義Web”所帶來的研究契機是最令人感興趣的。盡管不知道這一概念真正帶來的是什么,現在大部分工作的重心集中在“實體論”上。概念和概念之間的關系通常存在于形式化語言中。一個實體通過識別它們來描述話語的域。在2.2節,我們提到這一工作如何支持信息集成。這一領域的基本問題是如何將對在深層次上其實是一樣的事情采用不同術語進行描述的數據庫融合起來。實體論的工作也許同樣可以讓數據庫或其它資源的用戶使用他們自己的術語來查詢。數據庫研究界應尋找機會開發未來數據庫管理系統的這些技術。

2.12? 一百年存儲

隨著世界信息的增長,數字化存儲也在增長,這就帶來了信息的無限電子容量的需要。然而,即使是歸檔的信息也在消失,這是由于信息存儲在正在變質的媒介(如膠片和磁帶),需要過時的設備進行解析的媒介(特殊存儲設備)或者由于解析信息的應用程序不再使用的原因。避免這種信息流失的需要信息遷移和模擬。信息遷移可以使信息從正在變質或過時的媒介中拷貝出來。模擬可獲取解析長時間存儲的信息的方法。

元數據也扮演著重要角色。例如,科學數據的采集要求數據的“血統”和存取數據的任何讀程序。描述背景的元數據可能也很重要。例如,盡管2003年的表是以歐元為單位,或者說1983年的表只有西德的狀況,德國多年來的社會服務開支表也不一定明確地表明1983年的表是以馬克為單位的。沒有這些不明確的背景,即使這些數據可以被使用,也是沒有意義的。當我們信息管理研究界建造無限量存取的數據倉庫時,社會通常會獲得巨大的利益。在一定的可能范圍內,這一倉庫會自動執行不同格式間的數據遷移,或者修復每個文檔都需要使用的硬件和軟件。它還將管理存儲的文件的元數據。

2.13? 查詢優化

很多與會者將查詢優化視為以上討論的一個重要元素,或者另一個重要元素。當處理海量數據時,我們更傾向于用常規的辦法來操縱數據。這一普遍原則使得諸如SQL和XQuery這類非常高層次的語言成功地使用在數據庫世界,然而其它地方就幾乎不行了。但是,高層次的語言需要優良的優化器。與會者們提出我們在信息集成的優化上的研究需要更進一步。優化的內容包括半結構化語言如XQuery,流處理器,傳感器網絡和其它可能的領域。

?????? 我們也發現SQL系統的許多應用都有相對簡單的查詢序列。這些查詢序列嵌入在宿主語言中與宿主語言一起執行程序。這讓我們了解到有必要考慮包含大量查詢的嵌入式查詢的優化,即使這種嵌入式查詢的設置是傳統的,純關系的。

3? 下一階段和討論

在報告主體中提出的許多研究方向都是長期目標。然而,對數據庫研究的下一階段,出席洛威爾會議的與會者有著若干提議。這些提議到下一次會議舉辦前應是可實現。一些提議已經在上文中提到,比如反思能處理新數據類型的DBMS架構,近似推理與過程和數據的平等。在這一節,我們討論其它的提議。

我們認為生成測試臺和集成作業集會使信息集成研究得到很好的支持,這樣做可以使任何想做數據集成的人方便地使用測試臺。測試臺使得研究人員以一種控制方式來比較解決方案,這包括如果某種解決方案在集成作業中的這一個或另一個表現最好的話,此種解決方案就有機會吹牛。因而也會使研究者對研究產生興趣。一些研究者指出在信息檢索研究界TREC [7] 正起著相同的作用。

關于如何建立這一測試臺有著相當多的討論。對照實驗的實現有很多設計問題,最緊迫的問題是獲取合適的數據集。一種可能會實現的提議是10到20個計算機科學系開放一些他們非專利的課堂調度或者其它數據。計算機科學系中任何一個可以獲取這一數據集的成員都被催促著去聯系 Mike?Stonebraker ,而他會協調測試臺的建設。也許我們可以提出一個擁有更龐大數據集的測試臺。

如今傳統的亟待解決的研究課題(如ACID屬性)已經有了相當多的支持。有人反對說相關技術的巨大改變可能要求我們重新審視這些傳統問題,而且發現更易于實現的更簡單的方法或者更能廣泛適用的更強大的方法總是會有潛力的。會議也就流處理系統是否需要新的DBMS引擎或者現在的流處理系統是否能成功地適應新要求展開了熱烈的討論。

會議也集中討論了信息集成應該發生在哪一層次上。雖然很多人認為DBMS是執行信息集成的最好場所,但其它人認為在應用程序(例如Web服務)上執行會更自然,更普遍。關于Web服務是否會在處理語義異質性的問題上取得進展也開展了相當多的討論。某些人認為這類服務的實際標準會產生,然而其它人反對說電子元件社區多年來一直在努力標準化一組服務(Rosette網),但只獲得了有限的成功。

作為結語,我們講述兩個普遍認同的意見。首先,數據庫研究界應該避免將自己的研究范圍過于狹窄。我們需要探尋數據庫與相關技術的結合之道。這些技術能改善信息利用,比如信息可視化技術,這項技術通常被擱置在其它研究社區的領域內。為了擴充數據庫研究者能使用的技術,研究者們需要擴展他們能力的廣度。這讓人想起許多年以前成立的泥水工聯盟。當時墻板正在走進人們的生活,然后這卻并不在泥水工們的能力范圍之內。當泥水工被墻板取代時,聯盟也解散了。如果DBMS的研究者們不接受將相關技術整合進信息管理的挑戰,那么上一事實就可能會發生在DBMS社區。

?????? 第二,我們注意到這幾次會議的與會者的平均年齡正在增加。在另一方面,年輕的數據庫研究者們也在加入到社區中,而且比以往任何時候都要多,這可以從數據庫的初級教師的龐大數量中看出。我們建議下一屆會議應更廣泛地邀請數據庫研究界不同的年齡群體。

4? 參考文獻

[1] Philip?A.?Bernstein,?Umeshwar?Dayal,?David?J.?DeWitt,?Dieter?Gawlick,?Jim?Gray,?Matthias?Jarke,?Bruce?G.?Lindsay, ? Pete?C.?Lockemann,? David?Maier,?Erich?J.?Neuhold,?Andreas?Reuter,?Lawrence?A.?Rowe,?Hans-J?rg?Schek,?Joachim?W. ? Schmidt,?Michael?Schrefl,? and?Michael?Stonebraker:?Future?Directions?in?DBMS?Research?-?The?Laguna?Beach ? Participants.?SIGMOD?Record?18(1):?17-26?(1989)

[2]? Abraham?Silberschatz,?Michael?Stonebraker,?and?Jeffrey?D.?Ullman:?Database?Systems:???Achievements?and ? Opportunities.? CACM?34(10):?110-120?(1991)

[3]? Abraham?Silberschatz,?Michael?Stonebraker,?and?Jeffrey?D.?Ullman:?Database?Research; Achievements?and ? Opportunities?into?the?21st?Century.?SIGMOD?Record?25(1):?52-63?(1996)

[4]? Abraham?Silberschatz,?Stanley?B.?Zdonik,?et?al:?Strategic?Directions?in?Database?Systems Breaking Out of?the?Box. ? ACM?Computing?Surveys?28(4): 764-778 (Dec. 1996).

[5]? Philip?A.?Bernstein,?Michael?L.?Brodie,?Stefano?Ceri,?David?J.?DeWitt,?Michael?J.?Franklin,?Hector?Garcia-Molina,?Jim ? Gray,?Gerald?Held,? Joseph?M.Hellerstein,?H.?V.?Jagadish,?Michael?Lesk,?David?Maier,Jeffrey?F.?Naughton,?Hamid ? Pirahesh,?Michael?Stonebraker,? and?Jeffrey?D.?Ullman:?The?Asilomar?Report?on?Database?Research.?SIGMOD?Record ? 27(4):?74-80?(1998)

[6]? CRA?Conference?on?"Grand?Research?Challenges"?in?Computer?Science?and Engineering, ? http://www.cra.org/Activities/grand.challenges/.

[7]? TREC?Data?home?page,? http://trec.nist.gov/data.html .

[8]? Vannevar?Bush.?"As?We?May?Think."?Atlantic?Monthly?(July?1945),?pp.?101-108.

[9]? Serge?Abiteboul,?Rakesh?Agrawal,?Phil?Bernstein,?Mike?Carey,?Stefano?Ceri,?Bruce?Croft,David?DeWitt,?Mike?Franklin, ? Hector?Garcia?Molina,? Dieter?Gawlick,?Jim?Gray,?Laura?Haas,?Alon?Halevy,?Joe?Hellerstein,?Yannis?Ioannidis, ? Martin?Kersten,?Michael?Pazzani,?Mike?Lesk, ? David?Maier,? Jeff?Naughton, ? Hans?Schek,?Timos?Sellis,?Avi?Silberschatz,?Mike?Stonebraker,?Rick?Snodgrass,?Jeff?Ullman, ? Gerhard?Weikum,?Jennifer?Widom,? and?Stan?Zdonik ,?The?Lowall?Database?Research?Self-assessment.? Communications?of?the?ACM ?48,5(May?2005),?111-118

?

洛威爾會議——數據庫研究的自我評估(譯文)


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!??!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 免费毛片网 | 四虎永久在线观看 | 大尺度视频网站久久久久久久久 | 久久国产成人亚洲精品影院老金 | 国产一区二区免费福利片 | 亚洲欧洲精品成人久久曰 | 欧美激情免费观看一区 | 天天摸日日舔 | 久久99热66这里只有精品一 | 亚洲国产欧美自拍 | 91九色最新地址 | 日本老熟妇激情毛片 | 国产精品免费看久久久香蕉 | 色老板女色狠xx网 | 四虎影视永久在线精品免费 | 日韩字幕无线乱码 | 天天撸天天操 | www.伊人久久 | 七七七久久久久人综合 | 一级毛片私人影院 | 国产精品怡红院永久免费 | 亚洲精品视频在线播放 | 夜夜操网 | 国产女人综合久久精品视 | 激情综合网五月婷婷 | 日韩精品久久久毛片一区二区 | 九九热免费在线观看 | 日本一级作爱片在线观看 | jizzjizz成熟丰满老妇 | 免费精品久久久久久中文字幕 | 有码中文字幕在线观看 | 神马我不卡在线观看 | 欧美一级一极性活片免费观看 | 欧美人成人亚洲专区中文字幕 | 精品国产欧美 | 亚洲一级毛片免费看 | 四虎地址8848jia | 日韩中文字幕网站 | 国产成人精品影院狼色在线 | 四虎影视国产884a精品亚洲 | 久久99九九 |