Flask 教程,第十部分:全文搜索 已翻译 100%

oschina 投递于 2012/12/28 09:41 (共 15 段, 翻译完成于 01-23)
阅读 13628
收藏 6
2
加载中

这篇文章是我记录我使用Python的微型框架Flask来编写网络程序的经验系列文章的第十篇

这系列教程的目的是开发一个功能像样的微型博客应用,并展示所有并非独创的,我决定称之为微型博客(轻博客?)。

这里是系列教程的目录,迄今为止已经发布的如下:


se77en
翻译于 2013/01/23 10:47
2

概括

在这个系列以前的章节中,我们已经增加了数据库的查询,所以我们就能在页面上看到结果。

今天,我们将继续数据库部分的工作,但是会在不同的领域。所有的应用都必须提供搜索的能力。

对于很多类型的网站来说,它们可能只允许Google,Bing等搜索引擎索引所有的内容然后提供搜索结果。这种模式对于像论坛一样拥有大多数静态页面的网站来说是灰常不错滴。在我们的微博客应用中,最基本的内容单元只是用户的博客文章部分,而不是整个页面。所以我们希望搜索结果的类型是动态的。例如,如果我们搜索“CC”这个词,我们希望看到的是任意用户发的包含这个词的博客文章。很明显当某一个用户没有搜索时,没有一个大的搜索引擎能索引这些结果到一个页面,所以非常明显,我们别无选择的只能开始操刀自己的搜索。

se77en
翻译于 2013/01/23 11:12
1

全文检索引擎入门

灰常不幸的是,关系型数据库对全文检索的支持没有被标准化。不同的数据库通过它们自己的方式来实现全文检索,而且SQLAlchemy在全文检索上也没有提供一个好的抽象。

我们现在使用SQLite作为我们的数据库,所以我们可以绕开SQLAlchemy而使用SQLite提供的工具来创建一个全文检索索引。但这么做不怎么好,因为如果有一天我们换用别的数据库,那么我们就得重写另一个数据库的全文检索方法。

所以我们的方案是,我们将让我们现有的数据库处理常规数据,然后我们创建一个专门的数据库来解决全文检索。

se77en
翻译于 2013/01/23 11:56
1

只有很少的开源的全文检索引擎。据我说知只有一个Whoosh提供了Flask的扩展,它是用Python语言写的全文检索引擎。使用纯Python引擎的优点是它可以运行在任何有Python解释器的地方。缺点就是它的搜索性能没有达到用C或者C++写的搜索引擎那么好。在我的脑子里理想的解决方案是有一个搜索引擎,它提供了Flask的扩展,能连接大多数数据库,而且还要像Flask-SQLAlchemy那样提供一个能自由使用大多数数据库的方法,但现在貌似木有这样的全文检索引擎。Django的开发者有一个非常棒的,支持大多数全文检索引擎的扩展,叫django-haystack。希望有一天某个家伙能为Flask提供一个相似的扩展。

se77en
翻译于 2013/01/23 12:12
1

但现在,我们将通过Whoosh实现我们自己的全文检索。我们将使用Flask-WhooshAlchemy扩展,该扩展使得Whoosh数据库和Flask-SQLAlchemy模块结合起来。

如果你还没在你的虚拟环境中安装Flask-WhooshAlchemy扩展,马上安装它。

Windows用户用以下命令安装:

flask\Scripts\pip install Flask-WhooshAlchemy

其他用户用以下命令安装:

flask/bin/pip install Flask-WhooshAlchemy

se77en
翻译于 2013/01/23 12:24
1
配置

配置Flask-WhooshAlchemy灰常简单。我们只需要告诉扩展全文检索数据库的名字即可(fileconfig.py):

WHOOSH_BASE = os.path.join(basedir, 'search.db')

修改模块

在将Flask-WhooshAlchemy和Flask-SQLAlchemy结合起来时,我们需要在合适的模块类(fileapp/models.py)指定哪些数据时需要被索引的:

from app import app
import flask.ext.whooshalchemy as whooshalchemy

class Post(db.Model):
    __searchable__ = ['body']

    id = db.Column(db.Integer, primary_key = True)
    body = db.Column(db.String(140))
    timestamp = db.Column(db.DateTime)
    user_id = db.Column(db.Integer, db.ForeignKey('user.id'))

    def __repr__(self):
        return '<Post %r>' % (self.text)

whooshalchemy.whoosh_index(app, Post)

这个模块有一个新的__searchable__字段,它是一个列表,包括了所有可以被当做搜索索引的数据库字段。在我们的项目里我们只需要所有文章帖子的body字段。

se77en
翻译于 2013/01/23 12:32
1

在这个模块中,我们也必须通过调用whoosh_index这个方法来初始化全文索引。

这不是一个能影响我们关系型数据库的改变,所以我们没必要换新的数据库。

不幸的是所有的博客文章在添加全文检索引擎之前就已经存在于数据库中了,而且没有被索引。为了保持数据库和全文检索引擎的同步,我们将在数据库中删除所有已经存在的博客文章,然后重新开始。首先我们打开Python解释器。Windows用户为以下内容:

flask\Scripts\python

其它操作系统用户:

flask/bin/python

然后在Python命令提示符中删除所有博客文章:

>>> from app.models import Post
>>> from app import db
>>> for post in Post.query.all():
...    db.session.delete(post)
>>> db.session.commit()

se77en
翻译于 2013/01/23 12:44
1

搜索

现在我们开始做搜索。首先,让我们添加几篇博客文章到数据库。我们有两种方法做这个事。我们可以像普通用户一样通过网页打开应用程序添加文章,或者直接在Python命令行里添加。

用一下方法从命令行添加:

>>> from app.models import User, Post
>>> from app import db
>>> import datetime
>>> u = User.query.get(1)
>>> p = Post(body='my first post', timestamp=datetime.datetime.utcnow(), author=u)
>>> db.session.add(p)
>>> p = Post(body='my second post', timestamp=datetime.datetime.utcnow(), author=u)
>>> db.session.add(p)
>>> p = Post(body='my third and last post', timestamp=datetime.datetime.utcnow(), author=u)
>>> db.session.add(p)
>>> db.session.commit()

Flask-WhooshAlchemy这个扩展非常不错,因为它能连接Flask-SQLAlchemy然后自动提交。我们不需要维护全文索引,因为它已经很明显的帮我们做了这件事。

se77en
翻译于 2013/01/23 12:50
1

现在我们已经在全文索引中有了一些文章,我们可以搜搜看了:

>>> Post.query.whoosh_search('post').all()
[<Post u'my second post'>, <Post u'my first post'>, <Post u'my third and last post'>]
>>> Post.query.whoosh_search('second').all()
[<Post u'my second post'>]
>>> Post.query.whoosh_search('second OR last').all()
[<Post u'my second post'>, <Post u'my third and last post'>]

上面的例子可以看出,查询不需要限制为一个单词。实际上,Whoosh提供了一个漂亮又强大的搜索查询语言(search query language)。

se77en
翻译于 2013/01/23 12:54
1

整合全文检索到应用程序

为了让我们应用程序的用户能用上搜索功能,我们还需要增加一点小小的改变。

配置

就配置而言,我们仅仅需要指定最大的搜索结果返回数(fileconfig.py):

MAX_SEARCH_RESULTS = 50

搜索表单

我们需要在页面顶部的导航栏中增加一个搜索框。把搜索框放到顶部是极好的,因为这样所有页面就都有搜索框了(注:所有页面公用导航栏)。

首先我们增加一个搜索表单类(fileapp/forms.py):

class SearchForm(Form):
    search = TextField('search', validators = [Required()])

然后我们需要增加一个搜索表单对象,而且要让它对所有模板可用,这么做是因为我们要将搜索表单放到所有页面的共同的导航栏。完成这个最简单的方法是在before_request handler上创建一个form,然后将它传到Flask的全局变量g(fileapp/views.py):

@app.before_request
def before_request():
    g.user = current_user
    if g.user.is_authenticated():
        g.user.last_seen = datetime.utcnow()
        db.session.add(g.user)
        db.session.commit()
        g.search_form = SearchForm()

然后我们添加form到我们的模板(fileapp/templates/base.html):

<div>Microblog:
    <a href="{{ url_for('index') }}">Home</a>
    {% if g.user.is_authenticated() %}
    | <a href="{{ url_for('user', nickname = g.user.nickname) }}">Your Profile</a>
    | <form style="display: inline;" action="{{url_for('search')}}" method="post" name="search">{{g.search_form.hidden_tag()}}{{g.search_form.search(size=20)}}<input type="submit" value="Search"></form>
    | <a href="{{ url_for('logout') }}">Logout</a>
    {% endif %}
</div>

注意,我们只是当有用户登录时才会显示这个搜索框。同样的,before_request handler只有在有用户登录时才会创建form,这是因为我们的应用程序不会展示任何内容给没有经过认证的用户。

se77en
翻译于 2013/01/23 13:12
1
本文中的所有译文仅用于学习和交流目的,转载请务必注明文章译者、出处、和本文链接。
我们的翻译工作遵照 CC 协议,如果我们的工作有侵犯到您的权益,请及时联系我们。
加载中

评论(4)

M
Mr_Better
中文分词需要用jieba吧
yaoel
yaoel
默认不支持中文分词,而且搜索必须要整个单词才行。。继续学习了解中
FreezeSoul
FreezeSoul
支持中文分词么,好像不吧
雨花
雨花
good!!好像还有几节没有讲?
返回顶部
顶部