色综合图-色综合图片-色综合图片二区150p-色综合图区-玖玖国产精品视频-玖玖香蕉视频

您的位置:首頁技術文章
文章詳情頁

python - 關于代碼的優化問題

瀏覽:119日期:2022-08-17 09:32:17

問題描述

我新手寫的代碼,用來處理爬蟲下來的htm文件內容,雖然解決問題,但是會有遺漏文件不處理。爬蟲是爬一些文章的網站下來的,和網頁另存為沒什么區別。

想大神們幫我看看我的代碼,怎么優化不會有遺漏。比較小白的代碼,麻煩了!!!

# -*- coding: utf-8 -*import reimport globfilename_list = glob.glob(’*.html’)for i in filename_list: txt = '' with open(i, 'r') as htmfile:txt = htmfile.read() scdy = r'<hr[sS]*?<hr' onedotxt = re.findall(scdy, txt) if onedotxt:r = onedotxt[0] twotxt=re.sub(’<[^>]*>’, ’’, r) threetxt=re.sub(’<hr’, ’’, twotxt) fourtxt=re.sub(’&#8217;’, ’’, threetxt) fivetxt=re.sub(’&#8221;’, ’'’, fourtxt) sixtxt=re.sub(’&#8220;’, ’'’, fivetxt)endstr=re.sub(’&#8211;’, ’-’, sixtxt) name = endstr.split(’n’)[1] with open(name+'.txt', 'w') as wf: wf.write(endstr)

問題解答

回答1:

filename_list = glob.glob(’.html’) + glob.glob(’.htm’)

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 久草视频官网 | 久久精品国产一区二区 | 九九精品国产兔费观看久久 | 亚洲国产精品不卡毛片a在线 | 成人亚洲精品一区 | 国产成人夜间影院在线观看 | 99视频有精品视频免费观看 | 国产一级特黄特色aa毛片 | 久草视频在线播放 | 91婷婷射| 97在线看| 大桥未久在线精品视频在线 | 中文字幕亚洲综合久久男男 | 九九免费精品视频在这里 | 日本欧美视频在线 | 欧美色道| 毛片a片免费观看 | 一级片视频在线 | 欧美日韩国产高清一区二区三区 | 9l国产精品久久久久麻豆 | 久久久香蕉 | 日韩欧美在线视频一区二区 | 韩国欧美一级毛片 | 国产日本一区二区三区 | 国产a一级毛片含羞草传媒 国产a自拍 | 欧美成人www在线观看网页 | 国产精品永久免费视频观看 | 中文字幕精品一区二区绿巨人 | 九草视频 | 亚洲成a人片在线观看精品 亚洲成a人片在线观看中 | 国产一级片观看 | 日韩精品一区二区三区免费视频 | 精品视频久久 | 国产农村乱子伦精品视频 | 目韩一区二区三区系列片丶 | 成人免费的性色视频 | 极品丝袜高跟91白沙发在线 | 亚洲成人福利网站 | 国产精品久久久久久一区二区 | 在线看欧美日韩中文字幕 | 国产激情视频网站 |