亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

在Python的Flask框架中實現全文搜索功能

系統 2597 0

?全文檢索引擎入門

灰常不幸的是,關系型數據庫對全文檢索的支持沒有被標準化。不同的數據庫通過它們自己的方式來實現全文檢索,而且SQLAlchemy在全文檢索上也沒有提供一個好的抽象。

我們現在使用SQLite作為我們的數據庫,所以我們可以繞開SQLAlchemy而使用SQLite提供的工具來創建一個全文檢索索引。但這么做不怎么好,因為如果有一天我們換用別的數據庫,那么我們就得重寫另一個數據庫的全文檢索方法。

所以我們的方案是,我們將讓我們現有的數據庫處理常規數據,然后我們創建一個專門的數據庫來解決全文檢索。


只有很少的開源的全文檢索引擎。據我說知只有一個Whoosh提供了Flask的擴展,它是用Python語言寫的全文檢索引擎。使用純Python引擎的優點是它可以運行在任何有Python解釋器的地方。缺點就是它的搜索性能沒有達到用C或者C++寫的搜索引擎那么好。在我的腦子里理想的解決方案是有一個搜索引擎,它提供了Flask的擴展,能連接大多數數據庫,而且還要像Flask-SQLAlchemy那樣提供一個能自由使用大多數數據庫的方法,但現在貌似木有這樣的全文檢索引擎。Django的開發者有一個非常棒的,支持大多數全文檢索引擎的擴展,叫django-haystack。希望有一天某個家伙能為Flask提供一個相似的擴展。


但現在,我們將通過Whoosh實現我們自己的全文檢索。我們將使用Flask-WhooshAlchemy擴展,該擴展使得Whoosh數據庫和Flask-SQLAlchemy模塊結合起來。

如果你還沒在你的虛擬環境中安裝Flask-WhooshAlchemy擴展,馬上安裝它。

Windows用戶用以下命令安裝:
?

復制代碼 代碼如下:
flask\Scripts\pip install Flask-WhooshAlchemy

其他用戶用以下命令安裝:

?

復制代碼 代碼如下:
flask/bin/pip install Flask-WhooshAlchemy

配置

配置Flask-WhooshAlchemy灰常簡單。我們只需要告訴擴展全文檢索數據庫的名字即可(fileconfig.py):
?
WHOOSH_BASE = os.path.join(basedir, 'search.db')
修改模塊

在將Flask-WhooshAlchemy和Flask-SQLAlchemy結合起來時,我們需要在合適的模塊類(fileapp/models.py)指定哪些數據時需要被索引的:
?

            
from app import app
import flask.ext.whooshalchemy as whooshalchemy
 
class Post(db.Model):
  __searchable__ = ['body']
 
  id = db.Column(db.Integer, primary_key = True)
  body = db.Column(db.String(140))
  timestamp = db.Column(db.DateTime)
  user_id = db.Column(db.Integer, db.ForeignKey('user.id'))
 
  def __repr__(self):
    return '
            
              ' % (self.text)
 
whooshalchemy.whoosh_index(app, Post)

            
          

這個模塊有一個新的__searchable__字段,它是一個列表,包括了所有可以被當做搜索索引的數據庫字段。在我們的項目里我們只需要所有文章帖子的body字段。
?

在這個模塊中,我們也必須通過調用whoosh_index這個方法來初始化全文索引。

這不是一個能影響我們關系型數據庫的改變,所以我們沒必要換新的數據庫。

不幸的是所有的博客文章在添加全文檢索引擎之前就已經存在于數據庫中了,而且沒有被索引。為了保持數據庫和全文檢索引擎的同步,我們將在數據庫中刪除所有已經存在的博客文章,然后重新開始。首先我們打開Python解釋器。Windows用戶為以下內容:
?

復制代碼 代碼如下:
flask\Scripts\python

其它操作系統用戶:

?

復制代碼 代碼如下:
flask/bin/python

然后在Python命令提示符中刪除所有博客文章:
?

            
>>> from app.models import Post
>>> from app import db
>>> for post in Post.query.all():
...  db.session.delete(post)
>>> db.session.commit()

          

搜索

現在我們開始做搜索。首先,讓我們添加幾篇博客文章到數據庫。我們有兩種方法做這個事。我們可以像普通用戶一樣通過網頁打開應用程序添加文章,或者直接在Python命令行里添加。

用一下方法從命令行添加:
?

            
>>> from app.models import User, Post
>>> from app import db
>>> import datetime
>>> u = User.query.get(1)
>>> p = Post(body='my first post', timestamp=datetime.datetime.utcnow(), author=u)
>>> db.session.add(p)
>>> p = Post(body='my second post', timestamp=datetime.datetime.utcnow(), author=u)
>>> db.session.add(p)
>>> p = Post(body='my third and last post', timestamp=datetime.datetime.utcnow(), author=u)
>>> db.session.add(p)
>>> db.session.commit()

          

Flask-WhooshAlchemy這個擴展非常不錯,因為它能連接Flask-SQLAlchemy然后自動提交。我們不需要維護全文索引,因為它已經很明顯的幫我們做了這件事。


現在我們已經在全文索引中有了一些文章,我們可以搜搜看了:
?

            
>>> Post.query.whoosh_search('post').all()
[
            
              , 
              
                , 
                
                  ]
>>> Post.query.whoosh_search('second').all()
[
                  
                    ]
>>> Post.query.whoosh_search('second OR last').all()
[
                    
                      , 
                      
                        ]

                      
                    
                  
                
              
            
          

上面的例子可以看出,查詢不需要限制為一個單詞。實際上,Whoosh提供了一個漂亮又強大的搜索查詢語言(search query language)。
?
整合全文檢索到應用程序

為了讓我們應用程序的用戶能用上搜索功能,我們還需要增加一點小小的改變。
配置

就配置而言,我們僅僅需要指定最大的搜索結果返回數(fileconfig.py):
?

            
MAX_SEARCH_RESULTS = 50

          

搜索表單

我們需要在頁面頂部的導航欄中增加一個搜索框。把搜索框放到頂部是極好的,因為這樣所有頁面就都有搜索框了(注:所有頁面公用導航欄)。

首先我們增加一個搜索表單類(fileapp/forms.py):
?

            
class SearchForm(Form):
  search = TextField('search', validators = [Required()])

          

然后我們需要增加一個搜索表單對象,而且要讓它對所有模板可用,這么做是因為我們要將搜索表單放到所有頁面的共同的導航欄。完成這個最簡單的方法是在before_request handler上創建一個form,然后將它傳到Flask的全局變量g(fileapp/views.py):
?

            
@app.before_request
def before_request():
  g.user = current_user
  if g.user.is_authenticated():
    g.user.last_seen = datetime.utcnow()
    db.session.add(g.user)
    db.session.commit()
    g.search_form = SearchForm()

          

然后我們添加form到我們的模板(fileapp/templates/base.html):

?

            
Microblog: Home {% if g.user.is_authenticated() %} | Your Profile |
{{g.search_form.hidden_tag()}}{{g.search_form.search(size=20)}}
| Logout {% endif %}

注意,我們只是當有用戶登錄時才會顯示這個搜索框。同樣的,before_request handler只有在有用戶登錄時才會創建form,這是因為我們的應用程序不會展示任何內容給沒有經過認證的用戶。

搜索顯示方法(search view funciton)

上面我們已經設置了form的action字段,它會發送所有的搜索請求到search view方法。這就是我們要執行全文檢索查詢的地方(fileapp/views.py):
?

            
@app.route('/search', methods = ['POST'])
@login_required
def search():
  if not g.search_form.validate_on_submit():
    return redirect(url_for('index'))
  return redirect(url_for('search_results', query = g.search_form.search.data))

          

這個方法干的事也不是很多,它只是從表單收集了搜索查詢的字段,然后把這些字段作為參數傳給查詢方法,最后重定向到另一個頁面。不在這兒直接做查詢的原因是如果一個用戶點擊了刷新按鈕,那么瀏覽器就會彈出“表單數據將被重新提交”的警告窗口。所以當一個POST請求的響應結果為重定向的時候,這種警告提示就被避免了,因為重定向之后瀏覽器的刷新按鈕將會在重定向的頁面被重新載入。


搜索結果頁面

一旦一個查詢字段被接受,form POST handler就會通過頁面重定向把它發送到search_result handler(fileapp/views.py):
?

            
@app.route('/search_results/
            
              ')
@login_required
def search_results(query):
  results = Post.query.whoosh_search(query, MAX_SEARCH_RESULTS).all()
  return render_template('search_results.html',
    query = query,
    results = results)

            
          

然后搜索結果顯示方法會發送這個查詢到Whoosh,參數是最大的搜索結果數目,因為我們不想呈現一個很大數目的結果頁面,所以我們只顯示前50條數據。


最后一部分需要完成的是搜索結果的模板(fileapp/templates/search_results.html):
?

                        
{% extends "base.html" %}
 
{% block content %}

            

Search results for "{{query}}":

{% for post in results %} {% include 'post.html' %} {% endfor %} {% endblock %}

這兒,我們又可以重新使用我們的post.html頁面,所以我們不用擔心替換一個新的頁面或者其他格式的頁面元素,因為所有這些在sub-template中都是通用的方法。

后記

我們現在就有了一個完整的、非常重要的、也是經常被忽視的功能,這也是任何一個優秀的web應用必須具備的功能。

這個時刻更新的微博客應用(換氣中???)的源碼你可以從這里找到:

microblog-0.10.zip


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 九九自拍 | 玖玖成人| 亚洲男人的天堂在线视频 | 国产精品亚洲欧美日韩区 | 亚洲精品国产高清不卡在线 | 国产成人精品一区二区不卡 | 九九九精品视频 | 国产成人亚洲欧美激情 | 精品国产人成在线 | 国产色婷婷精品综合在线 | 国产在线成人一区二区 | 全免费午夜一级毛片一级毛 | 欧洲亚洲一区二区三区 | 天天夜天天干 | 天天操天天插 | 亚洲国产精品一区二区九九 | 人与拘一级a毛片 | 伊人色美文情网址 | 国产福利视频一区二区三区 | cao美女视频网站在线观看 | 欧美大陆日韩一区二区三区 | 色综合色狠狠天天综合色 | 亚洲天堂一区 | 亚州一二区| 国产精品免费一区二区三区四区 | 奇米影视777狠狠狠888不卡 | 99久久国产视频 | 精品一区二区三区免费爱 | 九色网址 | 久久精品这里只有精品 | 97国产精品视频观看一 | 99热精品在线观看 | 久草热久草在线视频 | 亚洲精品二区 | 京野结衣免费一区二区 | 亚洲精品久久久久久婷婷 | 最新久久免费视频 | 福利在线免费视频 | 亚洲爽爽 | 国产精品亚洲专区在线播放 | 欧美成人午夜做爰视频在线观看 |