色综合图-色综合图片-色综合图片二区150p-色综合图区-玖玖国产精品视频-玖玖香蕉视频

您的位置:首頁技術(shù)文章
文章詳情頁

python - 關(guān)于代碼的優(yōu)化問題

瀏覽:147日期:2022-08-17 09:32:17

問題描述

我新手寫的代碼,用來處理爬蟲下來的htm文件內(nèi)容,雖然解決問題,但是會(huì)有遺漏文件不處理。爬蟲是爬一些文章的網(wǎng)站下來的,和網(wǎng)頁另存為沒什么區(qū)別。

想大神們幫我看看我的代碼,怎么優(yōu)化不會(huì)有遺漏。比較小白的代碼,麻煩了!!!

# -*- coding: utf-8 -*import reimport globfilename_list = glob.glob(’*.html’)for i in filename_list: txt = '' with open(i, 'r') as htmfile:txt = htmfile.read() scdy = r'<hr[sS]*?<hr' onedotxt = re.findall(scdy, txt) if onedotxt:r = onedotxt[0] twotxt=re.sub(’<[^>]*>’, ’’, r) threetxt=re.sub(’<hr’, ’’, twotxt) fourtxt=re.sub(’&#8217;’, ’’, threetxt) fivetxt=re.sub(’&#8221;’, ’'’, fourtxt) sixtxt=re.sub(’&#8220;’, ’'’, fivetxt)endstr=re.sub(’&#8211;’, ’-’, sixtxt) name = endstr.split(’n’)[1] with open(name+'.txt', 'w') as wf: wf.write(endstr)

問題解答

回答1:

filename_list = glob.glob(’.html’) + glob.glob(’.htm’)

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 精品国产综合成人亚洲区 | 亚洲精品成人网久久久久久 | www.av在线.com| 天天看夜夜操 | 色资源二区在线视频 | 曰本美女高清在线观看免费 | 高清在线观看自拍视频 | 久草国产在线播放 | 中国国产成人精品久久 | 欧美视频一区二区 | 黄a在线观看 | 一级做a免费视频观看网站 一级做a爰 | 一级毛片成人免费看a | 国产真实搭讪系列 | 亚洲欧美在线精品一区二区 | 久草在线新视觉 | fulidown国产精品合集 | 国产呦系列呦 | 成人免费视频一区 | 99久久精品免费 | 亚洲国产综合人成综合网站00 | 国产精品2020| 高清国产在线 | 在线不卡一区 | 欧美日韩免费一区二区在线观看 | 亚洲成人免费在线观看 | 在线播放成人毛片免费视 | 国产精品中文字幕在线观看 | 精品欧美一区二区三区精品久久 | 性欧美videos 精品 | 在线免费一区 | 热99re久久精品精品免费 | 亚洲欧美日韩综合在线一区二区三区 | 久草视频资源在线观看 | 精品一区二区视频 | 亚洲小视频在线 | 欧美成人亚洲欧美成人 | 国产成人在线视频网站 | 亚洲国产精选 | 激情欧美一区二区三区 | 国产精品99r8在线观看 |