python - 對(duì)於不同文件夾的特徵提取策略問題
問題描述
問題描述:
有很多文件夾,一個(gè)文件夾下有很多文件。目的是將每個(gè)文件夾的特徵提取出來,特徵規(guī)定是該文件夾下的一個(gè)或少量文件(名,內(nèi)容hash及相對(duì)位置)。有什麼較好的算法或策略來解決該問題嗎?
我想的是暴力求解,但這效率低下。直接把該文件夾下的文件與其它文件夾下所有的文件做比較,如果有相同的,則該文件夾的下一個(gè)文件又去比較其它所有的,如果不同,則說明這個(gè)文件可以表達(dá)出該文件夾的特征。然后每個(gè)文件夾都這么做。
統(tǒng)計(jì)方法。按順序?qū)⒚總€(gè)文件夾的文件排序,選最大最小及中位數(shù)文件來作每個(gè)文件夾的特徵。但會(huì)出現(xiàn)這麼個(gè)問題,兩個(gè)文件夾可能就只有一個(gè)或少量文件不同,使用這種策略會(huì)產(chǎn)生遺漏,無法準(zhǔn)確提取出所有文件夾的特徵。
因此,我希望是在既能保證效率又能保證準(zhǔn)確率的情況下來對(duì)這問題進(jìn)行求解。希望各位表哥能隨便提提建議或意見,指導(dǎo)指導(dǎo)。thx。
問題解答
回答1:將當(dāng)前文件夾隨機(jī)取固定數(shù)目個(gè)文件,將他們的文件名、大小、修改時(shí)間、權(quán)限等組合起來做個(gè)哈希,然后判重,一般重復(fù)率是不會(huì)很高的,因?yàn)榧词刮募痛笮∫粯樱薷臅r(shí)間一般是不一樣的。
相關(guān)文章:
1. Python處理Dict生成json2. mysql優(yōu)化 - mysql 一張表如果不能確保字段列長(zhǎng)度一致,是不是就不需要用到char。3. python中怎么對(duì)列表以區(qū)間進(jìn)行統(tǒng)計(jì)?4. 大家都用什么工具管理mysql數(shù)據(jù)庫(kù)?5. python - 為什么match匹配出來的結(jié)果是<_sre.SRE_Match object; span=(0, 54), match=’’>6. android - 在win7配置 react native開發(fā)環(huán)境時(shí),一直卡在這里,請(qǐng)問以下是哪里出錯(cuò)了,謝謝!7. python - 請(qǐng)問這兩個(gè)地方是為什么呢?8. python - 用os.environ能獲取到的環(huán)境變量,在os.environ.getenv卻得不到,這是為什么?9. 請(qǐng)教一個(gè)mysql去重取最新記錄10. javascript - 按鈕鏈接到另一個(gè)網(wǎng)址 怎么通過百度統(tǒng)計(jì)計(jì)算按鈕的點(diǎn)擊數(shù)量
