本文所用環境:
Python 3.6.5 |Anaconda custom (64-bit)|
引言
由于某些原因,需要用python讀取二進制文件,這里主要用到struct包,而這個包里面的方法主要是unpack、pack、calcsize。詳細介紹可以看:Python Struct 官方文檔。這里主要討論,python二進制轉浮點數的操作。
python中一個float類型的數占4個字節。
二進制數據轉float,可以用struct.unpack()來實現。
小文件讀取
較小的文件,可以一次讀取:
首先導入所需的包:
import numpy as np import struct Python
例如:我需要讀取一個名為filename,存放著形狀為[100,1025]的浮點數的文件。可以采用以下辦法
# 加載測試數據 f = open('filename','rb') # 102500為文檔中包含的數字個數,而一個浮點數占4個字節 data_raw = struct.unpack('f'*102500,f.read(4*102500)) f.close() verify_data = np.asarray(verify_data_raw).reshape(-1,1025)
大文件處理方法
我需要處理的文件大小有38.1G,存放著[10000000,1025]大小的向量。
關于大文件的處理,我參考了這文章,但是,這個方法不能很好的將二進制文件轉換成浮點數。
所以我想到了另外一種辦法:
通過Linux命令切割文件
通過split命令將38.1G的文件按照指定大小切割,
split -b 820000k -a 2 filename data_
上述代碼的意思是,指定每塊大小為820000k,-a 2代表2位數命名,‘data_'代表前綴是'data_'
最終生成49個文件(字典序 aa ?C bw),前48個文件每個204800行 最后一個文件 169600行
通過python循環讀取文件
首先構建詞匯表:
voc = ['a','b','c','d','e','f','g','h','i','j','k','l', 'm','n','o','p','q','r','s','t','u','v','w','x', 'y','z'] voc_short = ['a','b','c','d','e','f','g','h','i','j','k','l', 'm','n','o','p','q','r','s','t','u','v']
為了方便讀取,將49個二進制文件轉換成numpy專用二進制格式*.npy
for i in voc: data_name = 'data_a'+str(i) f = open(data_name,'rb') data_raw = struct.unpack('f'*209920000,f.read(4*209920000)) f.close() data = np.asarray(data_raw).reshape(-1,1025) np.save(data_name+'.npy',data) # 保存data_a*.npy文件 for i in voc_short: data_name = 'data_b'+str(i) f = open(data_name,'rb') data_raw = struct.unpack('f'*209920000,f.read(4*209920000)) f.close() data = np.asarray(data_raw).reshape(-1,1025) np.save(data_name+'.npy',data) # 保存data_b*.npy文件 data_name = 'data_bw' f = open(data_name,'rb') data_raw = struct.unpack('f'*173840000,f.read(4*173840000)) np.save(data_name+'.npy',data_raw) # 保存data_bw.npy文件
以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
