TIVersio" />

亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

【Lucene3.0 初窺】索引文件格式(4):dictionar

系統 1555 0

Terms數據 磁盤文件存儲細節

?

從這篇開始,已經涉及到倒排索引表的信息存儲問題了。我們都知道倒排索引表中的Dictionary有許多不同的terms組成,Lucene關于這些terms數據的存儲,就放在磁盤的.tii和.tis文件中。

?

★ .tii? 詞典 索引文件 ?? .tis? 詞典數據文件

?

1、tii 保存了tis中每 隔 IndexInterval個詞的位置信息,這是為了加快對詞典文件tii中詞的查找速度

?

具體結構如下:

?TermInfoIndex (.tii)-->? TIVersion, IndexTermCount, IndexInterval, SkipInterval, MaxSkipLevels, TermIndices

TIVersion --> UInt32?? 版本號

IndexTermCount --> UInt64?? 詞典索引文件中包含的詞數。
IndexInterval --> UInt32? (同tis)
SkipInterval --> UInt32? (同tis)
TermIndices -->? <TermInfo, IndexDelta> IndexTermCount ???? IndexTermCount 個項的數組,每一項包括兩部分,第一部分是詞本身(TermInfo),第二部分是在詞典.tis文件中的偏移量(IndexDelta)。假設IndexInterval為 4,此數組中保存第4個,第8個,第12個詞。

?

TermInfo --> <Term, DocFreq, FreqDelta, ProxDelta, SkipDelta>? (同 tis)

IndexDelta --> VLong? 用來確定該 Term TermInfo .tis 文件中的位置, 特別指出,它是該 term 的數據的位置與前一個 term 位置的差值。 (關于差值規則請參見:《 索引文件格式(1):基礎知識

?

2、tis 存放索引表中Dictionary的所有Term的信息。

?

具體結構如下:

TermInfoFile (.tis)--> TIVersion, TermCount, IndexInterval, SkipInterval, MaxSkipLevels, TermInfos

?

TIVersion --> UInt32? 版本號

TermCount --> UInt64? 詞典中包含的總的詞數

IndexInterval --> UInt32? 為了加快對詞的查找速度,也應用類似跳躍表的結構,假設IndexInterval為4,則在詞典索引(tii)文件中保存第4個,第8個,第12個詞,這樣可以加快在詞典文件中查找詞的速度。

SkipInterval --> UInt32?? 倒排表無論是文檔號及詞頻,還是位置信息,都是以跳躍表的結構存在的,SkipInterval是跳躍的步數。

MaxSkipLevels --> UInt32? 跳躍表是多層的,這個值指的是跳躍表的最大層數。

?

TermInfos --> <TermInfo> TermCount ???? TermCount個項的數組,每一項代表一個具體詞的信息。單個TermInfo 的結構如下: TermInfo --> <Term, DocFreq, FreqDelta, ProxDelta, SkipDelta> 其中:

Term --> <PrefixLength, Suffix, FieldNum> 詞語文本信息

PrefixLength -->VInt??? 前綴規則中的前綴長度

Suffix--> String?? 利用前綴規則存放詞的文本信息(關于前綴規則請參見:《 索引文件格式(1):基礎知識 》)。

FieldNum--> VInt? 詞屬于的域的域號

?

DocFreq--> VInt? 有多少篇文檔包含此詞

FreqDelta ,ProxDelta --> VInt?? 此詞的詞頻和位置信息在frq,prx中的偏移地址

SkipDelta --> VInt ?

?

?

★? 專題用例 :

?

?關于例子的詳細信息參見《 索引文件格式(2):文件 結構總體框架 》最后的說明。

(1) 解釋一下tii文件的數據

? tii文件最重要的一個就是IndexInterval。它表明了tii中記錄了tis中每隔IndexInterval個Term的起始地址。

?

(2) 解釋一下tis文件的數據

我們將name ,path, content域都建立了索引,但name, path域并沒有用Analyzer 進行分詞。因此會出現像:"e:\實驗\content\lucene 1.txt"這樣的Term。

?

? 所有term都以前綴規則來存儲,這一點在上圖中很明顯。

? ??

?

【Lucene3.0 初窺】索引文件格式(4):dictionary數據[.tii/.tis]


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 久久精品成人欧美大片免费 | 国产精品手机在线观看 | 亚洲欧美日韩中文高清一 | 玖玖99视频 | 91精品国产视频 | 日本特黄a级高清免费大片18 | 欧美99视频 | 91精品国产综合成人 | 日韩在线视频网站 | 在线500福利视频国产 | 91精品久久国产青草 | 58av国产精品| 久久香蕉国产线看观看式 | 亚洲国产精品日韩在线观看 | 国内久久久久影院精品 | 日日夜夜拍 | 国产毛片久久精品 | 亚洲最大在线视频 | 精品国产成人系列 | 精品中文字幕在线观看 | 九九热8| 搜一级毛片 | 亚洲一区二区三区一品精 | 非常色的视频 | 97精品视频共享总站 | 中文字幕 日韩在线 | 在线高清一级欧美精品 | 午夜精品在线视频 | 欧美韩日在线 | 国内精品七七久久影院 | 在线观看香蕉免费啪在线观看 | 天天操天天射天天舔 | 毛片免费观看的视频 | 毛片站| 久草在线最新 | 亚洲一二区视频 | 在线欧美精品国产综合五月 | 国产成人lu在线视频 | 四虎影视免费在线 | 毛片视频免费观看 | 精品一区久久 |