文章詳情頁

python jieba庫的基本使用

瀏覽：2日期：2022-06-26 10:53:55

一、jieba庫概述

jieba是優(yōu)秀的中文分詞第三方庫

中文文本需要通過分詞獲得單個的詞語 jieba是優(yōu)秀的中文分詞第三方庫，需要額外安裝 jieba庫提供三種分詞模式，最簡單只需要掌握一個函數(shù) 二、jieba庫安裝

pip install jieba三、jieba分詞的原理

jieba分詞依靠中文詞庫

利用一個中文詞庫，確定漢字之間的關(guān)聯(lián)概率漢字間概率大的組成詞組，形成分詞結(jié)果四、jieba分詞的3種模式精確模式：把文本精確地切分開，不存在冗余單詞（最常用）全模式：把文本中所有可能的詞語都掃描出來，有冗余搜索引擎模式：在精確模式的基礎(chǔ)上，對長詞再次切分五、jieba庫常用函數(shù)

函數(shù) 描述 jieba.lcut(s) 精確模式，返回一個列表類型的分詞結(jié)果 jieba.lcut(s,cut_all=True) 全模式，返回一個列表類型的分詞結(jié)果，存在冗余 jieba.lcut_for_search(s) 搜索引擎模式，返回一個列表類型的分詞結(jié)果，存在冗余 jieba.lcut(s) 精確模式，返回一個列表類型的分詞結(jié)果 jieba.add_word(s) 向分詞詞典增加新詞w

例子：

>>> jieba.lcut('中國是一個偉大的國家')[’中國’, ’是’, ’一個’, ’偉大’, ’的’, ’國家’]>>> jieba.lcut('中國是一個偉大的國家', cut_all=True)[’中國’, ’國是’, ’一個’, ’偉大’, ’的’, ’國家’]>>> jieba.lcut_for_search('中華人民共和國是偉大的')[’中華’, ’華人’, ’人民’, ’共和’, ’共和國’, ’中華人民共和國’, ’是’, ’偉大’, ’的’]六、文本詞頻示例

問題分析

英文文本： Hamlet 分析詞頻

https://python123.io/resources/pye/hamlet.txt

中文文本：《三國演義》分析人物

https://python123.io/resources/pye/threekingdoms.txt

代碼如下：

def getText(): # 打開 hamlet.txt 這個文件 txt = open('hamlet.txt', 'r').read() # 避免大小寫對詞頻統(tǒng)計的干擾，將所有單詞轉(zhuǎn)換為小寫 txt = txt.lower() # 將文中出現(xiàn)的所有特殊字符替換為空格 for ch in ’|'#$%^&*()_+-=`~{}[];:<>?/’: txt = txt.replace(ch, ' ') # 返回一個所以后單詞都是小寫的，單詞間以空格間隔的文本 return txthamletTxt = getText()# split() 默認(rèn)使用空格作為分隔符words = hamletTxt.split()counts = {}for word in words: counts[word] = counts.get(word,0) + 1items = list(counts.items())items.sort(key=lambda x:x[1], reverse=True)for i in range(10): word, count = items[i] print('{0:<10}{1:>5}'.format(word,count))

上面代碼中的

items.sort(key=lambda x:x[1], reverse=True)

是根據(jù)單詞出現(xiàn)的次數(shù)進(jìn)行排序，其中使用了 lambda 函數(shù)。更多解釋請看：https://www.runoob.com/python/att-list-sort.html

下面使用 jieba 庫來統(tǒng)計《三國演義》中任務(wù)出場的次數(shù)：

import jiebatxt = open('threekingdoms.txt','r',encoding='utf-8').read()words = jieba.lcut(txt)counts = {}for word in words: if len(word) == 1: continue else: counts[word] = counts.get(word, 0) + 1items = list(counts.items())items.sort(key=lambda x:x[1], reverse=True)for i in range(15): word, count = items[i] print('{0:<10}{1:>5}'.format(word,count))

運(yùn)行結(jié)果：

曹操 953孔明 836將軍 772卻說 656玄德 585關(guān)公 510丞相 491二人 469不可 440荊州 425玄德曰 390孔明曰 390不能 384如此 378張飛 358

我們可以看到得出的結(jié)果與我們想象的有些差異，比如

“卻說”、“二人”等與人名無關(guān) “諸葛亮”、“孔明”都是同一個人 “孔明”和“孔明曰”分詞不符合我們的需求

所以我們需要對上面代碼進(jìn)行優(yōu)化，在詞頻統(tǒng)計的基礎(chǔ)上，面向問題改造我們的程序。

下面是《三國演義》人物數(shù)量統(tǒng)計代碼的升級版，升級版中對于某些確定不是人名的詞，即使做了詞頻統(tǒng)計，也要將它刪除掉。使用寄一個集合excludes來接收一些確定不是人名但是又排序比較靠前的單詞列進(jìn)去。

import jiebatxt = open('threekingdoms.txt','r',encoding='utf-8').read()excludes = {'將軍','卻說','荊州','二人','不可','不能','如此'}words = jieba.lcut(txt)counts = {}for word in words: if len(word) == 1: continue elif word == '諸葛亮' or word == '孔明曰': rword == '孔明' elif word == '關(guān)公' or word == '云長': rword == '關(guān)羽' elif word == '玄德' or word == '玄德曰': rword == '劉備' elif word == '孟德' or word == '丞相': rword == '曹操' else: rword = word counts[rword] = counts.get(rword, 0) + 1items = list(counts.items())items.sort(key=lambda x:x[1], reverse=True)for i in range(15): word, count = items[i] print('{0:<10}{1:>5}'.format(word,count))

運(yùn)行結(jié)果：

曹操 963孔明 847張飛 366商議 359如何 352主公 340軍士 320呂布 303左右 298軍馬 297趙云 283劉備 282引兵 279次日 278大喜 274

可以看出還是有像“商議”、“如何”等不是人物的詞出現(xiàn)在統(tǒng)計結(jié)果，我們將這些詞加入到 excludes 中，多次運(yùn)行程序后最后得到《三國演義》任務(wù)出場順序前20：

七、文本詞頻統(tǒng)計問題舉一反三

應(yīng)用問題擴(kuò)展

《紅樓夢》、《西游記》、《水滸傳》...等名著都可以統(tǒng)計它的任務(wù)出場次數(shù) 政府工作報告、科研論文、新聞報道...中出現(xiàn)的大量的詞頻進(jìn)行分析，進(jìn)而找到每篇文章的重點內(nèi)容進(jìn)一步，對文本的詞語或詞匯繪制成詞云，使其展示的效果更加直觀

以上內(nèi)容資料均來源于中國大學(xué)MOOC網(wǎng)-北京理工大學(xué)Python語言程序設(shè)計課程課程地址：https://www.icourse163.org/course/BIT-268001

以上就是python jieba庫的基本使用的詳細(xì)內(nèi)容，更多關(guān)于python jieba庫的資料請關(guān)注好吧啦網(wǎng)其它相關(guān)文章！

Python 編程

上一條：Python接入MySQL實現(xiàn)增刪改查的實戰(zhàn)記錄下一條：python中的bool數(shù)組取反案例

相關(guān)文章：

1. nestjs實現(xiàn)圖形校驗和單點登錄的示例代碼2. html小技巧之td,div標(biāo)簽里內(nèi)容不換行3. 以PHP代碼為實例詳解RabbitMQ消息隊列中間件的6種模式4. laravel ajax curd 搜索登錄判斷功能的實現(xiàn)5. python爬蟲實戰(zhàn)之制作屬于自己的一個IP代理模塊6. Python 如何將integer轉(zhuǎn)化為羅馬數(shù)(3999以內(nèi))7. 將properties文件的配置設(shè)置為整個Web應(yīng)用的全局變量實現(xiàn)方法8. python實現(xiàn)自動化辦公郵件合并功能9. Echarts通過dataset數(shù)據(jù)集實現(xiàn)創(chuàng)建單軸散點圖10. css進(jìn)階學(xué)習(xí) 選擇符

排行榜

					
					Python 如何將integer轉(zhuǎn)化為羅馬數(shù)(3999以內(nèi))
如何基于windows實現(xiàn)python定時爬蟲
SpringBoot + Vue 項目部署上線到Linux 服務(wù)器的教程詳解
java實現(xiàn)圖形化界面計算器
關(guān)于Java下奇怪的Base64詳解
python 實現(xiàn)aes256加密
JavaScript快速實現(xiàn)日歷效果
Java繁體中文處理完全攻略（二）
php代碼優(yōu)化及php相關(guān)問題總結(jié)
如何在vue3.0+中使用tinymce及實現(xiàn)多圖上傳文件上傳公式編輯功能
Python使用shutil模塊實現(xiàn)文件拷貝