大型系統的生產環境,一般情況下,我們評價一條查詢是否有效率,更多的是關注邏輯
IO(
至于為什么,回頭補一篇
)
。我們常說,“要建彪悍的索引”、“要寫高效的
SQL
”,其實最終目的就是在相同結果集情況下,盡可能減少邏輯
IO
。
1.1 ???? where 條件的列上都得有統計信息。
沒統計信息 SQLServer 就無法估算不同查詢計劃開銷優劣,而只能采用最穩妥的 Scan (不管是 table scan 還是 clustered index scan )。一般情況下我們不會犯這種錯誤—— where 條件里不使用非索引列是個常識。索引上的統計信息是無法刪除的。
1.2 ???? 盡量不使用不等于( != )或者 NOT 邏輯運算符。
這條規則被廣為傳頌,原因據聯機文檔和百敬同學的書講,也是 SQLServer 無法評估不同查詢計劃開銷的優劣。但是 SqlServer2k5 聰明了很多,試驗發現盡管用了 != 或者 not ,查詢還是會被優化。如下:
create table tb1
(
??? col1 int identity ( 1 , 1 ) primary key ,
??? col2 int not null,
??? col3 varchar ( 64 ) not null
)
create index ix_tb1_col2 on tb1
(
??? col2
)
create index ix_tb1_col3 on tb1
(
??? col3
)
declare @f int
set @f = 0
while @f < 9999
begin
??? insert into tb1 ( col2 , col3 ) values ( 1 , 'ssdd' )
??? set @f = @f + 1
end
insert into tb1 ( col2 , col3 ) values ( 0 , 'aadddd' )
insert into tb1 ( col2 , col3 ) values ( 2 , 'bbddd' )
insert into tb1 ( col2 , col3 ) values ( 3 , 'bbaaddddddaa' )
通過上述代碼,各位可以看到數據分布。 col2 值為 1 的有 9999 條; col2 值為 0 、 2 、 3 的分別有 1 條。
按照本條規則,
!=
和
NOT
帶來的應該是個
scan
操作,但實際情況是:
???
SQL2k5 很聰明,它依據統計信息分析得出來,應該采用 index seek 而不是 index scan 。( 稍微解釋解釋 index seek 和 index scan :索引是一顆 B 樹, index seek 是查找從 B 樹的根節點開始,一級一級找到目標行。 index scan 則是從左到右,把整個 B 樹遍歷一遍。假設唯一的目標行位于索引樹(假設是非聚集索引,樹深度 2 ,葉節點占用 k 頁物理存儲)最右的葉節點上(如上例)。 index seek 引起的 IO 是 4 ,而 index scan 引起的 IO 是 K ,性能差別巨大。關于索引,可以仔細讀讀聯機文檔關于物理數據庫體系結構部分 )。
1.3 ???? 查詢條件中不要包含運算
這些運算包括字符串連接(如: select * from Users where UserName + ‘pig’ = ‘ 張三 pig’ ),通配符在前面的 Like 運算(如: select * from tb1 where col4 like ‘%aa’ ),使用其他用戶自定義函數、系統內置函數、標量函數等等(如: select * from UserLog where datepart(dd, LogTime) = 3 )。
???????? SQLServer 在處理以上語句時,一樣沒辦法估算開銷。最終結果當然是 clustered index scan 或者 table scan 了。
1.4 ???? 查詢條件中不要包含同一張表內不同列之間的運算
所謂的“運算”包括加減乘除或通過一些 function (如: select * from tb where col1 – col2 = 1997 ),也包括比較運算(如: select * from tb where col1 > col2 )。這種情況下, SQLServer 一樣沒辦法估算開銷。不論 col1 、 col2 上都有索引還是創建了 col1 、 col2 上的覆蓋索引還是創建了 col1 include col2 的索引。
但是這種查詢有解決辦法,可以在表上多創建一個計算字段,其值設置為你的“運算”結果,再在該字段上創建一個索引,就 Ok 了。
?
?
To Be Continue…
(II)中將介紹統計信息值分布不均勻對查詢的影響和如何避免這些影響,捎帶更多的說說返回多行結果時,為啥SQLServer有時會選擇index seek,而有時會選擇index scan。
(III)中主要介紹傳說中的“Foldable”和“NonFoldable”表達式。并舉例說說所謂的“Nonfoldable"表達式某些情況下也不是那么可怕。
(IV)中則主要說說在程序中執行SQL。如:安全性,拼SQL、參數化SQL和存儲過程之間對DB來說有什么區別,參數化SQL的一些技巧。捎帶著,會大概介紹介紹SQLServer的Buffer Pool
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
