亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

在python中使用正則表達式查找可嵌套字符串組

系統 1828 0

在網上看到一個小需求,需要用正則表達式來處理。原需求如下:

找出文本中包含”因為……所以”的句子,并以兩個詞為中心對齊輸出前后3個字,中間全輸出,如果“因為”和“所以”中間還存在“因為”“所以”,也要找出來,另算一行,輸出格式為:

行號 前面3個字 *因為* 全部 &所以& 后面3個字(標點符號算一個字)

2 還不是 *因為* 這里好, &所以& 沒有人

實現方法如下:

            
#encoding:utf-8
import os
import re
def getPairStriList(filename):
  pairStrList = []
  textFile = open(filename, 'r')
  pattern = re.compile(u'.{3}\u56e0\u4e3a.*\u6240\u4ee5.{3}') #u'\u56e0\u4e3a和u'\u6240\u4ee5'分別為“因為”和“所以”的utf8碼
  for line in textFile:
    utfLine = line.decode('utf8')
    result = pattern.search(utfLine)
    while result:
      resultStr = result.group()
      pairStrList.append(resultStr)
      result = pattern.search(resultStr,2,len(resultStr)-2)
  #對每個字符串進行格式轉換和拼接  
  for i in range(len(pairStrList)):
    pairStrList[i] = pairStrList[i][:3] + pairStrList[i][3:5].replace(u'\u56e0\u4e3a',u' *\u56e0\u4e3a* ',1) + pairStrList[i][5:]
    pairStrList[i] = pairStrList[i][:len(pairStrList[i])-5] + pairStrList[i][len(pairStrList[i])-5:].replace(u'\u6240\u4ee5',u' &\u6240\u4ee5& ',1)
    pairStrList[i] = str(i+1) + ' ' + pairStrList[i]
  return pairStrList
  if __name__ == '__main__':
  pairStrList = getPairStriList('test.txt')
  for str in pairStrList:
    print str
          

PS:下面看下python里使用正則表達式的組嵌套

由于組本身是一個完整的正則表達式,所以可以將組嵌套在其他組中,以構建更復雜的表達式。下面的例子,就是進行組嵌套的例子:

            
#python 3.6 
#蔡軍生  
#http://blog.csdn.net/caimouse/article/details/51749579 
# 
import re 
def test_patterns(text, patterns): 
  """Given source text and a list of patterns, look for 
  matches for each pattern within the text and print 
  them to stdout. 
  """ 
  # Look for each pattern in the text and print the results 
  for pattern, desc in patterns: 
    print('{!r} ({})\n'.format(pattern, desc)) 
    print(' {!r}'.format(text)) 
    for match in re.finditer(pattern, text): 
      s = match.start() 
      e = match.end() 
      prefix = ' ' * (s) 
      print( 
        ' {}{!r}{} '.format(prefix, 
                   text[s:e], 
                   ' ' * (len(text) - e)), 
        end=' ', 
      ) 
      print(match.groups()) 
      if match.groupdict(): 
        print('{}{}'.format( 
          ' ' * (len(text) - s), 
          match.groupdict()), 
        ) 
    print() 
  return 
          

例子:

            
#python 3.6 
#蔡軍生  
#http://blog.csdn.net/caimouse/article/details/51749579 
# 
from re_test_patterns_groups import test_patterns 
test_patterns( 
  'abbaabbba', 
  [(r'a((a*)(b*))', 'a followed by 0-n a and 0-n b')], 
) 
          

結果輸出如下:

            
'a((a*)(b*))' (a followed by 0-n a and 0-n b)
 'abbaabbba'
 'abb'    ('bb', '', 'bb')
   'aabbb'  ('abbb', 'a', 'bbb')
     'a' ('', '', '')
          

總結

以上所述是小編給大家介紹的在python中使用正則表達式查找可嵌套字符串組,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復大家的。在此也非常感謝大家對腳本之家網站的支持!


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 久久九九青青国产精品 | 精品视频一区在线观看 | 国产精品线在线精品 | 欧美一级在线 | 私人影院免费观看 | 国产亚洲欧美精品久久久 | 奇米影视狠狠狠天天777 | 一本伊大人香蕉高清在线观看 | 成年女人永久免费观看片 | 在线免费福利 | 99免费精品| 久久精品国产亚洲综合色 | 国产精品久久久久久久伊一 | 日韩欧美国产卡通动漫 | 色拍拍噜噜噜aⅴ在线观看 色拍拍欧美视频在线看 | 欧美aaa大片| 亚洲涩涩精品专区 | 九九99久久 | 午夜私人影院粉色视频我要 | 97国产精品| 久久精品国产亚洲精品2020 | 免费视频久久久 | 一区二区三区四区在线观看视频 | 国产亚洲精品美女 | 国产精品柳州莫菁身材四 | 久久国产免费福利资源网站 | 一级aa 毛片高清免费看 | 亚洲国产乱 | 114毛片免费观看网站 | 亚洲夜夜骑 | 亚洲成a人一区二区三区 | 欧美成人手机在线视频 | 亚洲精品天堂自在久久77 | 99视频在线观看高清 | 俄罗斯毛片视频 | 热久久精品 | 奇米线在人线免费视频 | 久久新地址 | 中文在线日韩 | 丁香午夜婷婷 | 成人亚洲欧美 |