TIVersio" />

亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

【Lucene3.0 初窺】索引文件格式(4):dictionar

系統 1555 0

Terms數據 磁盤文件存儲細節

?

從這篇開始,已經涉及到倒排索引表的信息存儲問題了。我們都知道倒排索引表中的Dictionary有許多不同的terms組成,Lucene關于這些terms數據的存儲,就放在磁盤的.tii和.tis文件中。

?

★ .tii? 詞典 索引文件 ?? .tis? 詞典數據文件

?

1、tii 保存了tis中每 隔 IndexInterval個詞的位置信息,這是為了加快對詞典文件tii中詞的查找速度

?

具體結構如下:

?TermInfoIndex (.tii)-->? TIVersion, IndexTermCount, IndexInterval, SkipInterval, MaxSkipLevels, TermIndices

TIVersion --> UInt32?? 版本號

IndexTermCount --> UInt64?? 詞典索引文件中包含的詞數。
IndexInterval --> UInt32? (同tis)
SkipInterval --> UInt32? (同tis)
TermIndices -->? <TermInfo, IndexDelta> IndexTermCount ???? IndexTermCount 個項的數組,每一項包括兩部分,第一部分是詞本身(TermInfo),第二部分是在詞典.tis文件中的偏移量(IndexDelta)。假設IndexInterval為 4,此數組中保存第4個,第8個,第12個詞。

?

TermInfo --> <Term, DocFreq, FreqDelta, ProxDelta, SkipDelta>? (同 tis)

IndexDelta --> VLong? 用來確定該 Term TermInfo .tis 文件中的位置, 特別指出,它是該 term 的數據的位置與前一個 term 位置的差值。 (關于差值規則請參見:《 索引文件格式(1):基礎知識

?

2、tis 存放索引表中Dictionary的所有Term的信息。

?

具體結構如下:

TermInfoFile (.tis)--> TIVersion, TermCount, IndexInterval, SkipInterval, MaxSkipLevels, TermInfos

?

TIVersion --> UInt32? 版本號

TermCount --> UInt64? 詞典中包含的總的詞數

IndexInterval --> UInt32? 為了加快對詞的查找速度,也應用類似跳躍表的結構,假設IndexInterval為4,則在詞典索引(tii)文件中保存第4個,第8個,第12個詞,這樣可以加快在詞典文件中查找詞的速度。

SkipInterval --> UInt32?? 倒排表無論是文檔號及詞頻,還是位置信息,都是以跳躍表的結構存在的,SkipInterval是跳躍的步數。

MaxSkipLevels --> UInt32? 跳躍表是多層的,這個值指的是跳躍表的最大層數。

?

TermInfos --> <TermInfo> TermCount ???? TermCount個項的數組,每一項代表一個具體詞的信息。單個TermInfo 的結構如下: TermInfo --> <Term, DocFreq, FreqDelta, ProxDelta, SkipDelta> 其中:

Term --> <PrefixLength, Suffix, FieldNum> 詞語文本信息

PrefixLength -->VInt??? 前綴規則中的前綴長度

Suffix--> String?? 利用前綴規則存放詞的文本信息(關于前綴規則請參見:《 索引文件格式(1):基礎知識 》)。

FieldNum--> VInt? 詞屬于的域的域號

?

DocFreq--> VInt? 有多少篇文檔包含此詞

FreqDelta ,ProxDelta --> VInt?? 此詞的詞頻和位置信息在frq,prx中的偏移地址

SkipDelta --> VInt ?

?

?

★? 專題用例 :

?

?關于例子的詳細信息參見《 索引文件格式(2):文件 結構總體框架 》最后的說明。

(1) 解釋一下tii文件的數據

? tii文件最重要的一個就是IndexInterval。它表明了tii中記錄了tis中每隔IndexInterval個Term的起始地址。

?

(2) 解釋一下tis文件的數據

我們將name ,path, content域都建立了索引,但name, path域并沒有用Analyzer 進行分詞。因此會出現像:"e:\實驗\content\lucene 1.txt"這樣的Term。

?

? 所有term都以前綴規則來存儲,這一點在上圖中很明顯。

? ??

?

【Lucene3.0 初窺】索引文件格式(4):dictionary數據[.tii/.tis]


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 天天干天天干天天干 | 日本在线中文 | 欧美日韩国产58香蕉在线视频 | 亚洲精品国产乱码在线播 | 久久亚洲精品国产亚洲老地址 | 亚洲视频中文 | 久久水蜜桃 | 久久天天躁夜夜躁狠狠85麻豆 | 国产精品高清一区二区不卡 | 亚洲tv精品一区二区三区 | 在线亚洲国产精品区 | 国产偷国产偷在线高清 | 久久一区二区三区免费 | 国产中文字幕视频在线观看 | 欧美三级美国一级 | 99玖玖| 久久国产精品夜色 | 国产成人毛片亚洲精品不卡 | 欧美一欧美一区二三区性 | 伊人久久综合热青草 | 伊人热 | 欧美特级大片 | 手机看片久久国产免费不卡 | 国产成+人+综合+亚洲专 | 色婷婷av777| 91精品国产91久久久久福利 | 热久久最新地址 | 亚洲国产一区在线二区三区 | 免费一级特黄欧美大片久久网 | 亚洲综合色播 | 天天槽天天槽天天槽 | 自拍偷拍三级 | 亚洲综合图片 | 一本大道久久香蕉成人网 | 最新毛片久热97免费精品视频 | 天天射网站 | 一级成人a毛片免费播放 | 牛牛影视在线入口 | 亚洲精品一区二区三区网址 | 亚洲高清免费 | 国产精品视频观看 |