亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

Python實現(xiàn)文本處理 - 按分隔符將一列里有多個值的分割成多行

系統(tǒng) 2589 0

最近在處理文件時需要將一行文本按照一定的分隔符分成多行。如

            
              ABC123,1,2,1!#2,3,4!#5!#6

            
          

ABC123是ID,后面的是屬性,按‘,’分割的第4列,第6列都有不同的屬性,用!#分割,如4!#5!#6,我想要拆成

            
              ABC123,1,2,1,3,4
ABC123,,,2,,5   
ABC123,,,,,6    

            
          

直接上代碼:

            
              
                # -*- coding:utf-8 -*-
              
              
                import
              
               sys

              
                import
              
               time


              
                # 原始文件
              
              
inputfile 
              
                =
              
               sys
              
                .
              
              argv
              
                [
              
              
                1
              
              
                ]
              
              
                #第一層分隔符,如','
              
              
split1 
              
                =
              
               sys
              
                .
              
              argv
              
                [
              
              
                2
              
              
                ]
              
              
                #第二層分隔符,如'!#'
              
              
split2 
              
                =
              
               sys
              
                .
              
              argv
              
                [
              
              
                3
              
              
                ]
              
              
                #輸出文件的分隔符
              
              
Osplit
              
                =
              
               sys
              
                .
              
              argv
              
                [
              
              
                4
              
              
                ]
              
              
                #打開文件,f為輸入;o為log;r為輸出
              
              
f 
              
                =
              
              
                open
              
              
                (
              
              inputfile
              
                ,
              
              
                'r+'
              
              
                )
              
              
o 
              
                =
              
              
                open
              
              
                (
              
              
                'log.txt'
              
              
                ,
              
              
                'w+'
              
              
                )
              
              
r 
              
                =
              
              
                open
              
              
                (
              
              inputfile 
              
                +
              
              
                "_output"
              
              
                ,
              
              
                'w+'
              
              
                )
              
              
                #寫下開始時間
              
              
o
              
                .
              
              write
              
                (
              
              
                "["
              
              
                +
              
               time
              
                .
              
              strftime
              
                (
              
              
                "%Y-%m-%d %H:%M:%S"
              
              
                ,
              
               time
              
                .
              
              localtime
              
                (
              
              
                )
              
              
                )
              
              
                +
              
              
                "]Start to Process: "
              
              
                +
              
               inputfile 
              
                +
              
              
                "\n"
              
              
                )
              
              
                all
              
              
                =
              
              
                0
              
              
                #按行處理
              
              
                for
              
              
                (
              
              num
              
                ,
              
              i
              
                )
              
              
                in
              
              
                enumerate
              
              
                (
              
              f
              
                )
              
              
                :
              
              
    ListLine 
              
                =
              
               i
              
                .
              
              strip
              
                (
              
              
                '\n'
              
              
                )
              
              
                .
              
              split
              
                (
              
              split1
              
                )
              
              
                #去除換行符,按照分隔符1拆成一個數(shù)組
              
              
    ListField 
              
                =
              
              
                [
              
              
                ]
              
              
                for
              
               s1 
              
                in
              
              
                range
              
              
                (
              
              
                len
              
              
                (
              
              ListLine
              
                )
              
              
                )
              
              
                :
              
              
                #按照分隔符2拆成一個二維數(shù)組
              
              
        ListField
              
                .
              
              append
              
                (
              
              ListLine
              
                [
              
              s1
              
                ]
              
              
                .
              
              split
              
                (
              
              split2
              
                )
              
              
                )
              
              
    FileMax 
              
                =
              
              
                0
              
              
                for
              
               s 
              
                in
              
              
                range
              
              
                (
              
              
                1
              
              
                ,
              
              
                len
              
              
                (
              
              ListField
              
                )
              
              
                )
              
              
                :
              
              
                #獲取某列最多屬性的個數(shù)
              
              
                if
              
              
                (
              
              FileMax 
              
                <
              
              
                len
              
              
                (
              
              ListField
              
                [
              
              s
              
                ]
              
              
                )
              
              
                )
              
              
                :
              
              
            FileMax 
              
                =
              
              
                len
              
              
                (
              
              ListField
              
                [
              
              s
              
                ]
              
              
                )
              
              
                for
              
               s2 
              
                in
              
              
                range
              
              
                (
              
              FileMax
              
                )
              
              
                :
              
              
                #打印文件
              
              
        r
              
                .
              
              write
              
                (
              
              ListField
              
                [
              
              
                0
              
              
                ]
              
              
                [
              
              
                0
              
              
                ]
              
              
                +
              
               Osplit
              
                )
              
              
                for
              
               s 
              
                in
              
              
                range
              
              
                (
              
              
                1
              
              
                ,
              
              
                len
              
              
                (
              
              ListField
              
                )
              
              
                )
              
              
                :
              
              
                try
              
              
                :
              
              
                if
              
              
                (
              
              s
              
                ==
              
              
                len
              
              
                (
              
              ListField
              
                )
              
              
                -
              
              
                1
              
              
                )
              
              
                :
              
              
                    r
              
                .
              
              write
              
                (
              
              ListField
              
                [
              
              s
              
                ]
              
              
                [
              
              s2
              
                ]
              
              
                )
              
              
                else
              
              
                :
              
              
                    r
              
                .
              
              write
              
                (
              
              ListField
              
                [
              
              s
              
                ]
              
              
                [
              
              s2
              
                ]
              
              
                +
              
               Osplit
              
                )
              
              
                except
              
               IndexError
              
                :
              
              
                if
              
              
                (
              
              s
              
                ==
              
              
                len
              
              
                (
              
              ListField
              
                )
              
              
                -
              
              
                1
              
              
                )
              
              
                :
              
              
                    r
              
                .
              
              write
              
                (
              
              
                ""
              
              
                )
              
              
                else
              
              
                :
              
              
                    r
              
                .
              
              write
              
                (
              
              Osplit
              
                )
              
              
        r
              
                .
              
              write
              
                (
              
              
                "\n"
              
              
                )
              
              
                all
              
              
                +=
              
              FileMax
    
              
                if
              
              
                (
              
              
                (
              
              num
              
                +
              
              
                1
              
              
                )
              
              
                %
              
              
                1000
              
              
                ==
              
              
                0
              
              
                )
              
              
                :
              
              
                #每處理1000行,打印日志,目的是看下處理大文件時看處理了多少行
              
              
        o
              
                .
              
              write
              
                (
              
              
                "["
              
              
                +
              
               time
              
                .
              
              strftime
              
                (
              
              
                "%Y-%m-%d %H:%M:%S"
              
              
                ,
              
               time
              
                .
              
              localtime
              
                (
              
              
                )
              
              
                )
              
              
                +
              
              
                "]Processed "
              
              
                +
              
              
                str
              
              
                (
              
              num
              
                +
              
              
                1
              
              
                )
              
              
                +
              
              
                " inputfile Line!  Generated "
              
              
                +
              
              
                str
              
              
                (
              
              
                all
              
              
                )
              
              
                +
              
              
                " outputfile Line!"
              
              
                +
              
              
                "\n"
              
              
                )
              
              
o
              
                .
              
              write
              
                (
              
              
                "["
              
              
                +
              
               time
              
                .
              
              strftime
              
                (
              
              
                "%Y-%m-%d %H:%M:%S"
              
              
                ,
              
               time
              
                .
              
              localtime
              
                (
              
              
                )
              
              
                )
              
              
                +
              
              
                "]Finished Processing: "
              
              
                +
              
               inputfile 
              
                +
              
              
                "\n"
              
              
                )
              
              
f
              
                .
              
              close
              
                (
              
              
                )
              
              
o
              
                .
              
              close
              
                (
              
              
                )
              
              
r
              
                .
              
              close
              
                (
              
              
                )
              
            
          

執(zhí)行方法:控制臺

            
              python ./array.py array.txt 
              
                ","
              
              
                "!#"
              
              
                "|"
              
            
          

輸入文件
Python實現(xiàn)文本處理 - 按分隔符將一列里有多個值的分割成多行_第1張圖片

實測70萬條記錄的文件拆成了1700+萬條的文件。
筆記本CPU:Intel? Core? i7-6600U CPU @ 2.60GHz 2.81GHz,用了將近半小時
服務器CPU:Intel? Xeon? CPU E5-2686 v4 @ 2.30GHz,用了10分鐘

然后用shell分文件起了多個腳本(研究了半天python多線程,放棄了)。時間縮短到6分鐘。

            
              main
              
                (
              
              
                )
              
              
                {
              
              
                if
              
              
                [
              
               $
              
                # -eq 4 ];then
              
              
                echo
              
              
                
                  `
                
                
                  date
                
                 +%Y-%m-%d:%H:%M:%S
                
                  `
                
              
               Start
              
                !
              
              

        threadNum
              
                =
              
              4
        
              
                split
              
               -n l/
              
                ${threadNum}
              
                -d 
              
                $1
              
              
                $1_
              
              
                for
              
              
                
                  ((
                
                i
                
                  =
                
                
                  0
                
                
                  ;
                
                 i
                
                  <
                
                threadNum
                
                  ;
                
                 i
                
                  ++
                
                
                  ))
                
              
              
                do
              
              
        python /data/Operation/iPinYou/data_apend_select/output_appended_attributes_data/array3.py 
              
                ${1}
              
              _0
              
                ${i}
              
              
                $2
              
              
                $3
              
              
                $4
              
              
                &
              
              
                done
              
              
                wait
              
              
                cat
              
              
                ${1}
              
              _*_output 
              
                >
              
              
                ${1}
              
              _output
        
              
                echo
              
              
                
                  `
                
                
                  date
                
                 +%Y-%m-%d:%H:%M:%S
                
                  `
                
              
               Finished
              
                !
              
              
                else
              
              
                echo
              
              
                "Process Failed, Need Arguments[Input File, split 1, split 2, output split]."
              
              
                exit
              
               -1
    
              
                fi
              
              
                }
              
              
main 
              
                $@
              
            
          

更多文章、技術交流、商務合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯(lián)系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發(fā)表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 欧美一级视频免费 | 高清在线一区 | 久久伊人网站 | 五月天激情婷婷 | 五十路一区二区三区视频 | 久久久久久久久中文字幕 | 中文字幕亚洲欧美日韩高清 | 伊人色网站 | 久草视频在线网 | 国产精品资源在线 | 日韩有码在线视频 | 日韩精品一区二区三区高清 | 天天射天天干天天 | 国产精品久久久久久久久鸭 | 国产精品网站在线观看 | 国产首页精品 | 久草综合视频在线 | 久久男人资源站 | 久久大香香蕉国产免费网vrr | 日本不卡高清免费v日本 | 91亚洲最新精品 | 久久久久久久91精品免费观看 | 国产五月色综合 | 成人免费视频在线看 | 亚洲视频手机在线 | 精品久久伦理中文字幕 | 亚洲欧洲日本在线观看 | 日本不卡一二三区 | 2021最新国产成人精品免费 | 国产高清一区二区三区 | 欧美成人一区二区三区在线视频 | 99这里都是精品 | 牛牛本精品99久久精品 | 色第一页 | 九九在线观看免费视频 | 思99re久久这里只有精品首页 | 欧美高清理论片在线观看 | 免费黄色的视频 | 日韩精品午夜视频一区二区三区 | 91九色蝌蚪 | 在线观看中文字幕国产 |