批处理for语句 文本解析显神威

发布时间:2020-05-20编辑:脚本学堂
本文介绍下,批处理中for语句的详细用法,相当经典的一篇文章,如果你有意研究下批处理的内容,这篇一定不要错过。

(五) 忽略以指定字符打头的行:eol=
在cmd窗口中敲入:for /?,相关的解释为:
eol=c - 指一个行注释字符的结尾(就一个)

FOR /F "eol=; tokens=2,3* delims=, " %i in (myfile.txt) do @echo %i %j %k
会分析 myfile.txt 中的每一行,忽略以分号打头的那些行……
第一条解释狗屁不通,颇为费解:行注释字符的结尾是什么意思?“(就一个)”怎么回事?结合第二条解释,才知道eol有忽略指定行的功能。但是,这两条解释是互相矛盾的:到底是忽略以指定字符打头的行,还是忽略以指定字符结尾的行?

实践是检验真理的唯一标准,还是用代码来检验一下eol的作用吧:
[code15]
 

复制代码 代码示例:
@echo off
for /f "eol=;" %%i in (test.txt) do echo %%i
pause

结果,那些以分号打头的行没有显示出来。
由此可见,第二条解释是正确的,eol= 的准确含义是:忽略以指定字符打头的行。而第一条的“结尾”纯属微软在信口开河。

那么,“(就一个)”又作何解释呢?
试试代码:
[code16]
 

复制代码 代码示例:
@echo off
for /f "eol=,;" %%i in (test.txt) do echo %%i
pause

此时,屏幕上出现 此时不应有 ;"。 的报错信息。可见,在指定字符的时候,只能指定1个——在很多时候,我对这样的设计颇有微词而又无可奈何:为什么只能指定1个而不是多个?要忽略多个还得又是if又是findstr加管道来多次过滤,那效率实在太低下了——能用到的功能基本上都提供,但是却又做不到更好,批处理,你的功能为什么那么弱?

不知道大家注意到没有,如果test.txt中有以分号打头的行,那么,这些行在代码[code14]的执行结果中将凭空消失。

原来,for /f 语句是默认忽略以分号打头的行内容的,正如它默认以空格键或跳格键作为字符串的切分字符一样。

  很多时候,我们可以充分利用这个特点,比如,在设计即将用for读取的配置文件的时候,可以在注释文字的行首加上分号,例如在编写病毒文件查杀代码的时候,可以通过for语句来读取病毒文件列表,那么,病毒文件列表.ini这个配置文件可以这样写:

;以下是常见的病毒文件,请见一个杀一个^_^
;copyleft:没有
qq.exe
msn.exe
iexplore.exe

如果要取消这个默认设置,可选择的办法是:
1、为eol=指定另外一个字符;
2、使用 for /f "eol=" 语句,也就是说,强制指定字符为空,就像对付delims=一样。

(六)如何决定该使用 for /f 的哪种句式?(兼谈usebackq的使用)
for /f %%i in (……) do (……) 语句有好几种变形语句,不同之处在于第一个括号里的内容:有的是用单引号括起来,有的是用双引号包住,有的不用任何符号包裹,具体格式为:

  1、for /f %%i in (文件名) do (……)
  2、for /f %%i in ('命令语句') do (……)
  3、for /f %%i in ("字符串") do (……)

  看到这里,我想很多人可能已经开始犯了迷糊了:如果要解决一个具体问题,面对这么多的选择,如何决定该使用哪一条呢?

  实际上,当我在上面罗列这些语句的时候,已经有所提示了,不知道你是否注意到了。

  如果你一时无法参透其中奥妙,那也无妨,请听我一一道来便是。

  1、当你希望读取文本文件中的内容的话,第一个括号中不用任何符号包裹,应该使用的是第1条语句;例如:你想显示test.txt中的内容,那么,就使用 for /f %%i in (test.txt) do echo %%i;
  2、当你读取的是命令语句执行结果中的内容的话,第一个括号中的命令语句必须使用单引号包裹,应该使用的是第2条语句;例如:你想显示当前目录下文件名中含有test字符串的文本文件的时候,应该使用 for /f %%i in ('dir /a-d /b *test*.txt') do echo %%i 这样的语句;
  3、当你要处理的是一个字符串的时候,第一个括号中的内容必须用双引号括起来,应该是用的是第3条语句;例如:当你想把bbs.bathome.cn这串字符中的点号换为短横线并显示出来的话,可以使用 for /f "delims=. tokens=1-3" %%i in ("bbs.bathome.cn") do echo %%i-%%j-%%k 这样的语句。

  很显然,第一个括号里是否需要用符号包裹起来,以及使用什么样的符号包裹,取决于要处理的对象属于什么类型:如果是文件,则无需包裹;如果是命令语句,则用单引号包裹;如果是字符串,则使用双引号括起来。

  当然,事情并不是绝对如此,如果细心的你想到了批处理中难缠的特殊字符,你肯定会头大如斗。

  或许你头脑中灵光一闪,已经想到了一个十分头痛的问题:在第1条语句中,如果文件名中含有空格或&,该怎么办?

  照旧吗?

  拿个叫 test 1.txt 的文件来试试。

  你很快写好了代码,新建文件-->码字-->保存为批处理,前后费时不到1分钟:
[code17]
 

复制代码 代码示例:
@echo off
for /f %%i in (test 1.txt) do echo %%i
pause

  你兴冲冲地双击批处理,运行后,屏幕上出现了可耻的报错信息:系统找不到文件 test 。

  当你把 test 1.txt 换成 test&1.txt 后,更怪异的事情发生了:CMD窗口在你眼前一闪而过,然后,优雅地消失了。

  你可能觉得自己的代码写错了某些符号,你再仔细的检查了一次,确认没有笔误,然后,你再次双击批处理,结果问题照旧;你开始怀疑其他程序对它可能有影响,于是关掉其他窗口,再运行了一次,问题依旧;你不服气地连续运行了好几次,还是同样的结果。

  怪哉!

  你一拍大腿,猛然想起了一件事:当路径中含有特殊字符的时候,应该使用引号把路径括起来。对,就是它了!

  但是,当你把代码写出来之后,你很快就焉了:for /f %%i in ("test 1.txt") do echo %%i,这不就是上面提到的第3条 for /f 命令的格式吗?批处理会把 test 1.txt 这个文件名识别为字符串啊!

  你百无聊赖地在CMD窗口中输入 for /? ,并重重地敲下了回车,漫无目的地在帮助信息中寻找,希望能找到点什么。

  结果还真让你到了点什么。

  你看到了这样的描述:
usebackq - 指定新语法已在下类情况中使用:
在作为命令执行一个后引号的字符串并且一个单
引号字符为文字字符串命令并允许在 filenameset
中使用双引号扩起文件名称。

  但是,通读一遍之后,你却如坠五里雾中,不知所云。

  还好,下面有个例子,并配有简单的说明:

FOR /F "usebackq delims==" %i IN (`set`) DO @echo %i

会枚举当前环境中的环境变量名称。

  你仔细对比了for /f语句使用usebackq和不使用usebackq时在写法上的差别,很快就找到了答案:当使用了usebackq之后,如果第一个括号中是一条命令语句,那么,就要把单引号'改成后引号`(键盘左上角esc键下面的那个按键,与~在同一键位上)。

  回过头去再看那段关于usebackq的描述,字斟句酌,反复揣摩,终于被你破译了天机:usebackq 是一个增强型参数,当使用了这个参数之后,原来的for语句中第一个括号内的写法要做如下变动:如果第一个括号里的对象是一条命令语句的话,原来的单引号'要改为后引号`;如果第一个括号里的对象是字符串的话,原来的双引号"要改为单引号';如果第一个括号里的对象是文件名的话,要用双引号"括起来。

  验证一下,把[code17]改写成如下代码:
[code18]
 

复制代码 代码示例:
@echo off
for /f "usebackq" %%i in ("test 1.txt") do echo %%i
pause

  测试通过!

  此时,你很可能会仰天长叹:Shit,微软这该死的机器翻译!

  至于把[code17]代码中的空格换成&后,CMD窗口会直接退出,那是因为&是复合语句的连接符,CMD在预处理的时候,会优先把&前后两部分作为两条语句来解析,而不是大家想象中的一条完整的for语句,从而产生了严重的语法错误。因为牵涉到预处理机制问题,不属于本节要讨论的内容,在此不做详细讲解。

  这个时候,我们会吃惊地发现,区区一条for语句,竟然有多达6种句型:

  1、for /f %%i in (文件名) do (……)
  2、for /f %%i in ('命令语句') do (……)
  3、for /f %%i in ("字符串") do (……)
  4、for /f "usebackq" %%i in ("文件名") do (……)
  5、for /f "usebackq" %%i in (`命令语句`) do (……)
  6、for /f "usebackq" %%i in ('字符串') do (……)

  其中,4、5、6由1、2、3发展而来,他们有这样的对应关系:1-->4、2-->5、3-->6。

  好在后3种情形并不常用,所以,牢牢掌握好前三种句型的适用情形就可以了,否则,要在这么多句型中确定选择哪一条语句来使用,还真有点让人头脑发懵。

  至于 for /f 为什么要增加usebacq参数,我只为第4条语句找到了合理的解释:为了兼容文件名中所带的空格或&。它在第5、6条语句中为什么还有存在的必要,我也不是很明白,这有待于各位去慢慢发现。


(七)变量延迟详解[2009.2.12更新]

  变量延迟在for语句中起着至关重要的作用,不只是在for语句中,在其他的复合语句中,它也在幕后默默地工作着,为了突出它的重要性,本节内容在单独的楼层中发出来,希望引起大家的重视。

  对于批处理新手而言,“变量延迟”这个概念很可能闻所未闻,但是,它却像一堵横亘在你前进道路上的无形高墙,你感受不到它的存在,但当你试图往前冲时,它会把你狠狠地弹回来,让你无法逾越、无功而返;而一旦找到了越过它的方法,你就会发现,在for的世界里,前面已经是一片坦途,而你对批处理的理解,又上升到了一个新的境界。

  例如,你编写了这样一个代码:
[code19]
 

复制代码 代码示例:
@echo off
set num=0&&echo %num%
pause

  你的本意是想对变量num赋值之后,再把这个值显示出来,结果,显示出来的并不是0,而是显示:ECHO 处于关闭状态。

  之所以会出错,是因为“变量延迟”这个家伙在作怪。

  在讲解变量延迟之前,我们需要了解一下批处理的执行过程,它将有助于我们深入理解变量延迟。

  批处理的执行过程是怎样的呢?

  “自上而下,逐条执行”,我想,这个经典的说法大家都已经耳熟能详了,没事的时候倒着念,也还别有一番古韵呢^_^,但是,我想问大家的是,大家真的深刻地理解了这句话的含义了吗?

  “自上而下”,这一条和我们本节的讲解关系不大,暂时略过不说,后一条,“逐条执行”和变量延迟有着莫大的干系,它是我们本节要关注的重点。

  很多人往往认为一行代码就是一条语句,从而把“逐条执行”与“逐行执行”等同起来,这就大错特错了。

  莫非“逐条执行”里暗藏着玄机?

  正是如此。

  “逐条”并不等同于“逐行”。这个“条”,是“一条完整的语句”的意思,并不是指“一行代码”。在批处理中,是不是一条完整的语句,并不是以行来论的,而是要看它的作用范围。

  什么样的语句才算“一条完整的语句”呢?

  1、在复合语句中,整个复合语句是一条完整的语句,而无论这个复合语句占用了多少行的位置。常见的复合语句有:for语句、if……else语句、用连接符&、||和&&连接的语句,用管道符号|连接的语句,以及用括号括起来的、由多条语句组合而成的语句块;
  2、在非复合语句中,如果该语句占据了一行的位置,则该行代码为一条完整的语句。
  例如:

[code20]
 

复制代码 代码示例:
@echo off
set num=0
for /f %%i in ('dir /a-d /b *.exe') do (
set /a num+=1
echo num 当前的值是 %num%
)
echo 当前目录下共有 %num% 个exe文件
dir /a-d /b *.txt|findstr "test">nul&&(
echo 存在含有 test 字符串的文本本件
)||echo 不存在含有 test 字符串的文本文件
if exist test.ini (
echo 存在 test.ini 文件
) else echo 不存在 test.ini 文件
pause

  上面的代码共有14行,但是只有完整的语句只有7条,它们分别是:
  第1条:第1行的echo语句;
  第2条:第2行的set语句;
  第3条:第3、4、5、6行上的for复合语句;
  第4条:第7行的echo语句;
  第5条:第8、9、10行上用&&和||连接的复合语句;
  第6条:第11、12、13行上的if……else复合语句;
  第7条:第14行上的pause语句。

  在这里,我之所以要花这么长的篇幅来说明一行代码并不见得就是一条语句,是因为批处理的执行特点是“逐条”执行而不是“逐行”执行,澄清了这个误解,将会更加理解批处理的预处理机制。

  在代码“逐条”执行的过程中,cmd.exe这个批处理解释器会对每条语句做一些预处理工作,这就是批处理中大名鼎鼎的“预处理机制”。预处理的大致情形是这样的:首先,把一条完整的语句读入内存中(不管这条语句有多少行,它们都会被一起读入),然后,识别出哪些部分是命令关键字,哪些是开关、哪些是参数,哪些是变量引用……如果代码语法有误,则给出错误提示或退出批处理环境;如果顺利通过,接下来,就把该条语句中所有被引用的变量及变量两边的百分号对,用这条语句被读入内存之就已经赋予该变量的具体值来替换……当所有的预处理工作完成之后,批处理才会执行每条完整语句内部每个命令的原有功能。也就是说,如果命令语句中含有变量引用(变量及紧邻它左右的百分号对),并且某个变量的值在命令的执行过程中被改变了,即使该条语句内部的其他地方也用到了这个变量,也不会用最新的值去替换它们,因为某条语句在被预处理的时候,所有的变量引用都已经被替换成字符串常量了,变量值在复合语句内部被改变,不会影响到语句内部的其他任何地方。

  顺便说一下,运行代码[code20]之后,将在屏幕上显示当前目录下有多少个exe文件,是否存在含有 test 字符串的文本文件,以及是否存在 test.ini 这个文件等信息。让很多人百思不得其解的是:如果当前目录下存在exe文件,那么,有多少个exe文件,屏幕上就会提示多少次 "num 当前的值是 0" ,而不是显示1到N(N是exe文件的个数)。

  结合上面两个例子,我们再来分析一下,为什么这两段代码的执行结果和我们的期望有一些差距。

  在[code19]中,set num=0&&echo %num%是一条复合语句,它的含义是:把0赋予变量num,成功后,显示变量num的值。

  虽然是在变量num被赋值成功后才显示变量num的值,但是,因为这是一条复合语句,在预处理的时候,&&后的%num%只能被set语句之前的语句赋予变量num的具体值来替换,而不能被复合语句内部、&&之前的set语句对num所赋予的值来替换,可见,此num非彼num。可是,在这条复合语句之前,我们并没有对变量num赋值,所以,&&之后的%num%是空值,相当于在&&之后只执行了 echo 这一命令,所以,会显示 echo 命令的当前状态,而不是显示变量num的值(虽然该变量的值被set语句改变了)。

  在[code20]中,for语句的含义是:列举当前目录下的exe文件,每发现一个exe文件,变量num的值就累加1,并显示变量num的值。

  看了对[code19]的分析之后,再来分析[code20]就不再那么困难了:第3、4、5行上的代码共同构成了一条完整的for语句,而语句"echo num 当前的值是 %num%"与"set /a num+=1"同处复合语句for的内部,那么,第4行上set改变了num的值之后,并不能对第5行上的变量num有任何影响,因为在预处理阶段,第5行上的变量引用%num%已经被在for之前就赋予变量num的具体值替换掉了,它被替换成了0(是被第2行上的set语句赋予的)。

  如果想让代码[code19]的执行结果中显示&&之前赋予num的值,让代码[code20]在列举exe文件的时候,从1到N地显示exe文件的数量,那又该怎么办呢?

  对代码[code19],可以把用&&连接复合语句拆分为两条单独的语句,写成:

复制代码 代码示例:
@echo off
set num=0
echo %num%
pause

  但是,这不是我们这次想要的结果。

  对这两段代码都适用的办法是:使用变量延迟扩展语句,让变量的扩展行为延迟一下,从而获取我们想要的值。

  在这里,我们先来充下电,看看“变量扩展”有是怎么一回事。

  用CN-DOS里批处理达人willsort的原话,那就是:“在许多可见的官方文档中,均将使用一对百分号闭合环境变量以完成对其值的替换行为称之为“扩展(expansion)”,这其实是一个第一方的概念,是从命令解释器的角度进行称谓的,而从我们使用者的角度来看,则可以将它看作是引用(Reference)、调用(Call)或者获取(Get)所谓的“变量扩展”,实际上就是很简单的这么一件事情:用具体的值去替换被引用的变量及紧贴在它左右的那对百分号。

  既然只要延迟变量的扩展行为,就可以获得我们想要的结果,那么,具体的做法又是怎样的呢?

  一般说来,延迟变量的扩展行为,可以有如下选择:

  1、在适当位置使用 setlocal enabledelayedexpansion 语句;
  2、在适当的位置使用 call 语句。

  使用 setlocal enabledelayedexpansion 语句,那么,[code19]和[code20]可以分别修改为:
 

复制代码 代码示例:

@echo off
setlocal enabledelayedexpansion
set num=0&&echo !num!
pause

@echo off
set num=0
setlocal enabledelayedexpansion
for /f %%i in ('dir /a-d /b *.exe') do (
set /a num+=1
echo num 当前的值是 !num!
)
echo 当前目录下共有 %num% 个exe文件
dir /a-d /b *.txt|findstr "test">nul&&(
echo 存在含有 test 字符串的文本本件
)||echo 不存在含有 test 字符串的文本文件
if exist test.ini (
echo 存在 test.ini 文件
) else 不存在 test.ini 文件
pause

  使用第call语句,那么,[code19]和[code20]可以分别修改为:
 

复制代码 代码示例:

@echo off
set num=0&&call echo %%num%%
pause

@echo off
set num=0
for /f %%i in ('dir /a-d /b *.exe') do (
set /a num+=1
call echo num 当前的值是 %%num%%
)
echo 当前目录下共有 %num% 个exe文件
dir /a-d /b *.txt|findstr "test">nul&&(
echo 存在含有 test 字符串的文本本件
)||echo 不存在含有 test 字符串的文本文件
if exist test.ini (
echo 存在 test.ini 文件
) else 不存在 test.ini 文件
pause

  由此可见,如果使用 setlocal enabledelayedexpansion 语句来延迟变量,就要把原本使用百分号对闭合的变量引用改为使用感叹号对来闭合;如果使用call语句,就要在原来命令的前部加上 call 命令,并把变量引用的单层百分号对改为双层。 其中,因为call语句使用的是双层百分号对,容易使人犯迷糊,所以用得较少,常用的是使用 setlocal enabledelayedexpansion 语句(set是设置的意思,local是本地的意思,enable是能够的意思,delayed是延迟的意思,expansion是扩展的意思,合起来,就是:让变量成为局部变量,并延迟它的扩展行为)。