文章詳情頁

python - 關(guān)于代碼的優(yōu)化問題

瀏覽：147日期：2022-08-17 09:32:17

問題描述

我新手寫的代碼，用來處理爬蟲下來的htm文件內(nèi)容,雖然解決問題，但是會(huì)有遺漏文件不處理。爬蟲是爬一些文章的網(wǎng)站下來的，和網(wǎng)頁另存為沒什么區(qū)別。

想大神們幫我看看我的代碼，怎么優(yōu)化不會(huì)有遺漏。比較小白的代碼，麻煩了！！！

# -*- coding: utf-8 -*import reimport globfilename_list = glob.glob(’*.html’)for i in filename_list: txt = '' with open(i, 'r') as htmfile:txt = htmfile.read() scdy = r'<hr[sS]*?<hr' onedotxt = re.findall(scdy, txt) if onedotxt:r = onedotxt[0] twotxt=re.sub(’<[^>]*>’, ’’, r) threetxt=re.sub(’<hr’, ’’, twotxt) fourtxt=re.sub(’’’, ’’, threetxt) fivetxt=re.sub(’”’, ’'’, fourtxt) sixtxt=re.sub(’“’, ’'’, fivetxt)endstr=re.sub(’–’, ’-’, sixtxt) name = endstr.split(’n’)[1] with open(name+'.txt', 'w') as wf: wf.write(endstr)

問題解答

回答1：

filename_list = glob.glob(’.html’) + glob.glob(’.htm’)

Python 編程

上一條：python - mysql 如何設(shè)置通用型字段? 比如像mongodb那樣下一條：python 如何實(shí)現(xiàn)PHP替換圖片鏈接

相關(guān)文章：

1. HTML5不支持frameset一般怎么解決？2. javascript - Vue的計(jì)算屬性底層依賴原理是怎么樣？3. javascript - jquery怎么給select option一個(gè)點(diǎn)擊時(shí)觸發(fā)的事件,如圖如果選擇自定義觸發(fā)一個(gè)時(shí)間？4. 網(wǎng)頁爬蟲 - python爬蟲用BeautifulSoup爬取<s>元素并寫入字典，但某些div下沒有這一元素，導(dǎo)致自動(dòng)寫入下一條，如何解決？5. 百度地圖api - Android百度地圖SDK，MapView上層按鈕可見卻不可觸，怎么解決？6. mysql 獲取時(shí)間函數(shù)unix_timestamp 問題？7. html5 - canvas中的mousedrag事件，為什么鼠標(biāo)拖出canvas，然后再次移入canvas，drag事件還觸發(fā)8. 新入手layuiadmin，部署到tp中。想用php自已寫一個(gè)后臺(tái)管理系統(tǒng)。9. javascript - react 組件使用super()報(bào)錯(cuò)10. javascript - es6擴(kuò)展運(yùn)算符...的問題

排行榜

					
					golang - 用IDE看docker源碼時(shí)的小問題
docker-compose 為何找不到配置文件？
boot2docker無法啟動(dòng)
如何解決docker宿主機(jī)無法訪問容器中的服務(wù)？
百度地圖api - Android百度地圖SDK，MapView上層按鈕可見卻不可觸，怎么解決？
Android 關(guān)于圖片壓縮的問題。
angular.js - angularjs實(shí)現(xiàn)點(diǎn)擊事件后,在firefox生效卻在360瀏覽器不起作用
新入手layuiadmin，部署到tp中。想用php自已寫一個(gè)后臺(tái)管理系統(tǒng)。
node.js - 在nodejs環(huán)境中如何配置webhook以實(shí)現(xiàn)hexo博客的自動(dòng)更新？
android-studio - Android Studio 2.2 beta2 更新后強(qiáng)制將 Gradle 版本升級(jí)為 2.14.1，有沒有遇到同樣情況的？
node.js - vue-resource,如何改變響應(yīng)格式？
				

熱門標(biāo)簽

色综合图-色综合图片-色综合图片二区150p-色综合图区-玖玖国产精品视频-玖玖香蕉视频

python - 關(guān)于代碼的優(yōu)化問題