文章詳情頁

Python實(shí)現(xiàn)中英文全文搜索的示例

瀏覽：30日期：2022-07-03 11:40:13

文章版權(quán)所有：州的先生博客

原文地址：https://zmister.com/archives/1596.html

在互聯(lián)網(wǎng)上的各類網(wǎng)站中，無論大小，基本上都會(huì)有一個(gè)搜索框，用來給用戶對內(nèi)容進(jìn)行搜索，小到站點(diǎn)搜索，大到搜索引擎搜索。

從簡單的來說，搜索功能確實(shí)很簡單，一個(gè)簡單的 select 語句就可以實(shí)現(xiàn)數(shù)據(jù)的搜索。

而從復(fù)雜的來看，無論是搜索的精度還是搜索的效率，都是有很深的研究范圍的。

對于簡單的搜索功能來說，一個(gè) select 查詢語句也足夠使用，但在稍微復(fù)雜一點(diǎn)的搜索環(huán)境下，比如網(wǎng)頁、文檔、新聞資訊等場景，單純的 select 查詢語句則是遠(yuǎn)遠(yuǎn)不夠。在這些場景下的搜索，全文搜索則是最低配置。

什么是全文搜索？百度百科如是說：

全文數(shù)據(jù)庫是全文檢索系統(tǒng)的主要構(gòu)成部分。所謂全文數(shù)據(jù)庫是將一個(gè)完整的信息源的全部內(nèi)容轉(zhuǎn)化為計(jì)算機(jī)可以識(shí)別、處理的信息單元而形成的數(shù)據(jù)集合。全文數(shù)據(jù)庫不僅存儲(chǔ)了信息，而且還有對全文數(shù)據(jù)進(jìn)行詞、字、段落等更深層次的編輯、加工的功能，而且所有全文數(shù)據(jù)庫無一不是海量信息數(shù)據(jù)庫。

是不是看得不明不白的？講一個(gè)簡單的例子大概就理解了。正常情況下，我們搜索“Python 安裝教程”，如果是普通的搜索，會(huì)直接使用 select 數(shù)據(jù)庫中包含“Python 安裝教程”的內(nèi)容。但是全文搜索，會(huì)首先將搜索詞拆分成：“Python 安裝教程”、“Python”、“安裝教程”、“安裝”、“教程”等，然后用這些拆分后的詞組進(jìn)行搜索。

市面上所有的搜索引擎都使用了全文搜索：

Python實(shí)現(xiàn)中英文全文搜索的示例

最近“MrDoc 交流群”里讓覓道文檔添加上全文搜索的呼聲很高，遂打算在覓道文檔中把常規(guī)的 select 查詢搜索替換為全文搜索。

最常見的開源全文搜索引擎是 Elasticsearch，功能強(qiáng)大、性能強(qiáng)悍，但是其基于 Java 進(jìn)行編寫，在 Python 中使用不是很方便，最終州的先生選擇了純 Python 實(shí)現(xiàn)的全文搜索引擎——whoosh，并借助 Django 下的開源搜索框架——haystack，依靠 jieba 中文分詞庫，在覓道文檔這一典型 Python Web 應(yīng)用中實(shí)現(xiàn)了中英文的全文搜索。

Python實(shí)現(xiàn)中英文全文搜索的示例

安裝依賴庫

如上述所言，本次純 Python 方案實(shí)現(xiàn)中英文全文搜索使用到了如下 3 個(gè)庫：

whoosh haystack jieba

需要對其進(jìn)行安裝，使用 pip 命令進(jìn)行安裝即可：

pip install whooshpip install django-haystackpip install jieba

settings 配置

首先需要在 Django 項(xiàng)目的 settings.py 文件中進(jìn)行配置。

第一、在 INSTALLED_APPS 中添加 haystack 庫：

Python實(shí)現(xiàn)中英文全文搜索的示例

第二、添加配置 haystack 的配置項(xiàng)

Python實(shí)現(xiàn)中英文全文搜索的示例

# 當(dāng)添加、修改、刪除數(shù)據(jù)時(shí)，自動(dòng)生成索引HAYSTACK_SIGNAL_PROCESSOR = ’haystack.signals.RealtimeSignalProcessor’# 自定義高亮HAYSTACK_CUSTOM_HIGHLIGHTER = 'app_doc.search.highlight.MyHighLighter'

創(chuàng)建索引

在 app_doc 目錄下新建一個(gè)名為 search_indexes.py 的文件，在其中輸入如下內(nèi)容：

Python實(shí)現(xiàn)中英文全文搜索的示例

在 template 目錄下新建一色名為 search 的目錄，然后在 search 目錄下新建一個(gè)名為 indexes 的目錄，接著在其中新建一個(gè)名為 app_doc 的目錄（與 Django 應(yīng)用同名），最后在這個(gè)/template/search/app_doc 目錄下新建一個(gè)名稱 doc_text.txt 的文件（模型名稱_text.txt），在其中輸入需要索引的模型字段：

創(chuàng)建中文分詞器

由于 whoosh 對中文的分詞能力不行，如果我們搜索中文，其八成不會(huì)對其進(jìn)行分詞，所以我們額外引入了 jieba 模塊來進(jìn)行中文分詞。

在 /MrDoc/app_doc/search 目錄下新建一個(gè)名為 chines_analyzer.py 的文件，在其中寫入如下代碼：

Python實(shí)現(xiàn)中英文全文搜索的示例

自定義 whoosh 搜索引擎

在 /MrDoc/app_doc/search 目錄下新建一個(gè)名為 whoosh_cn_backend.py 的文件（這個(gè)路徑文件即是我們在 settings.py 文件中指定的引擎路徑），復(fù)制 python 安裝路徑Libsite-packageshaystackbackendswhoosh_backend.py 的內(nèi)容到這個(gè)文件中，并做如下修改：

from whoosh.analysis import StemmingAnalyzer

替換為：

from app_doc.search.chinese_analyzer import ChineseAnalyzer as StemmingAnalyzer

這樣，我們自定義能夠進(jìn)行中文分詞的 whoosh 引擎就完成了。

編寫視圖函數(shù)

完成上述步驟之后，全文搜索引擎幕后的工作就已經(jīng)完成了，我們接下來需要按照 Django 的方式，編寫邏輯視圖，并進(jìn)行 HTML 模板的渲染。

在這里，州的先生在/MrDoc/app_doc/下新建了一個(gè)名為 views_search.py 的文件來放置全文搜索的視圖函數(shù)，繼承 haystack.views.SearchView 類，自定義了一個(gè)全文搜索視圖類：

Python實(shí)現(xiàn)中英文全文搜索的示例

HTML 模板渲染

全文搜索引擎的數(shù)據(jù)默認(rèn)返回在了特定的 HTML 模板中，州的先生沒有對此進(jìn)行自定義，所以按照 haystack 的要求，在 template/search 目錄下新建了一個(gè)名為 search.html 的模板文件，對全文搜索視圖類返回的搜索數(shù)據(jù)集進(jìn)行渲染解析。

Python實(shí)現(xiàn)中英文全文搜索的示例

生成索引

最后我們需要在命令行終端生成一下索引文件，使用如下命令：

python manage.py rebuild_index

這樣，就實(shí)現(xiàn)了純 Python 方案的中英文全文搜索，效果如下動(dòng)圖所示：

Python實(shí)現(xiàn)中英文全文搜索的示例

文中所涉代碼均為 MrDoc 覓道文檔源碼，包括：

/MrDoc/MrDoc/settings.py /MrDoc/app_doc/search/chinese_analyzer.py /MrDoc/app_doc/search/highlight.py /MrDoc/app_doc/search/whoosh_cn_backend.py /MrDoc/app_doc/search_indexes.py /MrDoc/app_doc/views_search.py /MrDoc/template/search/*

源碼地址為：

https://gitee.com/zmister/MrDochttps://github.com/zmister2016/MrDoc

以上就是Python實(shí)現(xiàn)中英文全文搜索的示例的詳細(xì)內(nèi)容，更多關(guān)于python 實(shí)現(xiàn)全文搜索的資料請關(guān)注好吧啦網(wǎng)其它相關(guān)文章！

Python 編程

上一條：python 爬蟲請求模塊requests詳解下一條：一文帶你了解Python 四種常見基礎(chǔ)爬蟲方法介紹

相關(guān)文章：

1. Android 7.0 運(yùn)行時(shí)權(quán)限彈窗問題的解決2. java實(shí)現(xiàn)圖形化界面計(jì)算器3. IntelliJ IDEA設(shè)置條件斷點(diǎn)的方法步驟4. IDEA的Mybatis Generator駝峰配置問題5. ASP.NET MVC解決上傳圖片臟數(shù)據(jù)的方法6. 如何利用python和DOS獲取wifi密碼7. Thinkphp3.2.3反序列化漏洞實(shí)例分析8. python Xpath語法的使用9. 原生js XMLhttprequest請求onreadystatechange執(zhí)行兩次的解決10. python 批量將PPT導(dǎo)出成圖片集的案例

排行榜

					
					Android 7.0 運(yùn)行時(shí)權(quán)限彈窗問題的解決
java實(shí)現(xiàn)圖形化界面計(jì)算器
IDEA的Mybatis Generator駝峰配置問題
IntelliJ IDEA設(shè)置條件斷點(diǎn)的方法步驟
如何利用python和DOS獲取wifi密碼
Spring中的AutowireCandidateResolver的具體使用詳解
Python使用xpath實(shí)現(xiàn)圖片爬取
Android實(shí)現(xiàn)View滑動(dòng)效果的6種方法
Android Studio升級3.6 Build窗口出現(xiàn)中文亂碼問題解決方法
Java基于字符界面的簡易收銀臺(tái)
JAVA初探設(shè)計(jì)模式的六大原則