BEZEICHNUNG
perlsyn - Perl syntax
BESCHREIBUNG
Ein Perl Skript besteht aus einer Abfolge vom Deklarationen und Anweisungen. Die Abfolge der Anweisungen wird, im Gegensatz zu
sed und
awk Skripten, in denen die Abfolge für jede Eingabezeile ausgeführt wird, nur einmal ausgeführt. Obwohl das bedeutet, dass explizit eine Schleife über jede Zeile der Eingabedatei (oder Dateien) durchlaufen werden muss, heisst es auch, dass man sehr viel mehr Kontrolle darüber hat, welche Dateien und Zeilen betrachtet werden. (In Wirklichkeit lüge ich -- es ist möglich implizit Schleifen zu durchlaufen, in dem entweder der
-n oder der
-p Schalter verwendet wird. Es ist bloà nicht zwangsweise vorgegeben, wie in
sed und
awk .)
Perl ist zum gröÃten Teil eine formlose Sprache. (Die einzige Ausnahme sind, aus offensichtlichen Gründen, Vorgaben über die Formatierung.) Text vom einem
"#" Zeichen bis zum Zeilenende ist ein Kommentar und wird ignoriert. Wenn Sie es gewohnt sind
/* */ Kommentare im C-Stil zu verwenden, werden diese je nach dem in welchem Kontext sie stehen, entweder als Division oder als Mustererkennung erkannt. C++
// Kommentare hingegen sehen aus wie leere reguläre Ausdrücke, also verwenden Sie sie nicht.
Deklarationen
Die einzigen Dinge, die in Perl deklariert werden müssen sind Dokument Formate und Unterprogramme--und sogar undefiniert Unterprogramme können mit AUTOLOAD gehandhabt werden. Eine Variable hat den undefinierten Wert (
undef ) bis ihr ein definierter Wert zugewiesen wird, der irgendetwas anderes als
undef ist. Wenn es als eine Zahl verwendet wird, wird
undef als
0 behandelt, wenn es las Zeichenkette verwendet wird, wird
undef als leere Zeichenkette <""> behandelt und wenn es als Referenz, der nichts zugewiesen ist, verwendet wird, wird es als Fehler behandelt. Wenn Sie "warnings" verwenden, werden Sie über uninitialisierte Werte benachrichtigt, wenn
undef als Zeichenfolge oder Zahl verwendet wird. Naja, für gewöhnlich. Boolesche Kontexte wie:
my $a;
if ($a) {}
sind von "warnings" ausgenommen (,weil sie sich um die Wahrheit anstatt um die Definiertheit kümmern). Operatoren wie
++ ,
-- ,
+= ,
-= und
.= , die auf undefinierte Lvalues zugreifen, wie:
my $a;
$a++;
sind ebenfalls von "warnings" ausgenommen.
Eine Deklaration kann überall dort gemacht werden, wo auch eine Anweisung stehen kann, hat aber keinen Einfluss auf die Abfolge der Anweisungen -- alle Deklarationen werden während der Kompilierung bearbeitet. Normalerweise werden alle Deklarationan an den Anfang oder das Ende des Skripts geschrieben. Allerdings muss man, wenn man lexikalische, private Variablen verwendet, die mit
my() erstellt wurden, sicher gehen, dass die Format- oder Unterprogrammdefinitionen im selben Block mit dem my sind, wenn auf diese privaten Variablen zugegriffen werden soll.
Die Deklaration einer Unterfunktion macht es möglich ihren Namen ab der Stelle, an dem sie deklariert wurde, so zu verwenden, als ob sie ein Operator für eine Liste von Werten wäre. Eine Unterfunktion kann folgendermaÃem mit
sub name deklariert werden, ohne definiert zu werden:
sub meinname;
$ich = meinname $0 or die "Kann nicht auf meinname zugreifen!";
Beachten Sie, dass meinname() als Listenoperator und nicht als unärer Operator verwendet wird, also seien Sie hier vorsichtig bei der Verwendung von
or anstelle von
|| . Allerdings würde
meinname als unärer Operator arbeiten, wenn das Unterprogramm als
sub meinname($) deklariert worden wäre, so dass sowohl
or als auch
|| funktionierten.
Deklarationen von Unterprogrammen können auch mittels der
require Anweisung geladen werden, oder mittels der
use Anweisung sowohl geladen als auch in den Namensraum importiert werden. Weitere Detaills zu diesem THema sind in
perlmod beschrieben.
Eine Anweisungsabfolge kann Deklarationen lexikalisch betrachteter Variablen
beinhalten, diese werden aber, abgesehen von der Deklaration des
Variablennamens, innerahlb der Anweisungsabfolge wie eine normale Anweisung
verarbeitet. Das Bedeutet, dass es sowohl Effekte auf die Kompilier-, als auch
auf die Laufzeit gibt.
=head2 Einfache Anweisungen
Die einzige Art einfacher Anweisungen ist ein Ausdruck, der ausgewertet wird. Jede einfache Anweisung muss mit einem Semikolon abgeschlossen werden, es sei denn sie steht am Ende eines Blockes, wobei das Semikolon dann optional ist. (Wenn der Block länger als eine Zeile ist, wird das Semikolon empfohlen, weil unter Umständen eine weiter Zeile hinzugefügt wird.) Beachten Sie, dass es einige Operatoren wie
eval {} und
do {} gibt, die wie zusammengesetzte Anweisungen aussehen, aber keine sind (sie sind nur TERMe in einem Ausdruck) und daher einen expliziten Abschluà brauchen, wenn sie als Eintrag in einer Anweisung stehen.
Jeder einfachen Anweisung kann direkt vor dem Semikolon (oder dem Ende des Blocks) optional ein
EINZIGER Modifikator folgen. Die möglichen Modifikatoren sind:
if AUSDRUCK
unless AUSDRUCK
while AUSDRUCK
until AUSDRUCK
foreach AUSDRUCK
Die
if und
unless Modifikatoren haben die erwartete Semantik, vorausgesetzt, Sie sprechen Englisch.Der
foreach Modifikator ist ein Iterator: Er setzt jeden Wert in AUSDRUCK für
$_ ein und führt die Anweisung aus. Die
while und
until Modifikatoren haben die übliche "
while Schleifen" Semantik (die Bedingung wird zuerst ausgewertet), auÃer wenn sie an einen
do -Block (oder an die veraltete
do -Unterfunktion) angehängt werden, in denen der Block einmal ausgeführt wird, bevor die Bedingung ausgewertet wird. Das ist so, damit Schleifen erstellt werden können wie:
do {
$zeile = <STDIN>;
...
} until $zeile eq ".\n";
Siehe
perlfunc, do. Beachten Sie auch, dass die Anweisungen zur Kontrolle von Schleifen, die später beschrieben werden, in dieser Konstruktion
NICHT funktionieren, weil Modifikatoren keine Schleifenmarkierungen annehmen. Entschuldigung. Man kann immer einen anderen Block hinein- (für
next ) oder herumlegen (für
last ) um solche Dinge zu machen. Verdoppeln Sie für
next einfach die Klammern:
do {{
next if $x == $y;
# mach hier etwas
}} until $x++ > $z;
Für C<last> müssen Sie ausführlicher sein:
SCHLEIFE: {
do {
last if $x = $y**2;
# mach hier etwas
} while $x++ <= $z;
}
Zusammengesetzte Anweisungen
In Perl wird eine Abfolge von Anweisungen, die einen Gültigkeitsbereich definieren, Block genannt. Manchmal ist ein Block durch die Datei, die ihn enthält (im Falle einer benötigten Datei, oder dem Programm als Ganzen) begrenzt und manchmal ist ein Block durch die Länge eines Strings (im Falle eines eval) begrenzt.
Aber im Regelfall ist ein Block durch geschweifte Klammern begrenzt. Wir nennen dieses syntaktische Konstrukt einen BLOCK.
Die folgenden zusammengesetzten Anweisungen können zur Flusskontrolle verwendet werden:
if (AUSDRUCK) BLOCK
if (AUSDRUCK) BLOCK else BLOCK
if (AUSDRUCK) BLOCK elsif (AUSDRUCK) BLOCK ... else BLOCK
MARKIERUNG while (AUSDRUCK) BLOCK
MARKIERUNG while (AUSDRUCK) BLOCK continue BLOCK
MARKIERUNG for (AUSDRUCK; AUSDRUCK; AUSDRUCK) BLOCK
MARKIERUNG foreach VAR (LISTE) BLOCK
MARKIERUNG foreach VAR (LISTE) BLOCK continue BLOCK
MARKIERUNG BLOCK continue BLOCK
Beachten Sie dass, die zusammengestzten Anweisungen, im Gegensatz zu C oder Pascal, in der GröÃenordnung von BLÃCKEN definiert sind, nicht in der von Anweisungen. Das bedeutet, dass geschweifte Klammern
zwingend notwendig sind -- einfach angehängte Ausdrücke sind nicht erlaubt. Wenn Sie bedingte Anweisungen ohne geschweifte Klammern schreiben wollen, gibt es mehrere Wege dies zu tun. Folgende Ausdrücke machen alle das Gleiche:
if (!open(FOO)) { die "Kann $FOO nicht oeffnen: $!"; }
die "Kann $FOO nicht oeffnen: $!" unless open(FOO);
open(FOO) or die "Kann $FOO nicht oeffnen: $!"; # FOO oder futsch!
open(FOO) ? 'Hallo Mutti' : die "Kann $FOO nicht oeffnen: $!";
# der letzte ist etwas exotisch
Die
if Anweisung ist unkompliziert. Weil BLÃCKE immer von geschweiften Klammern begrenzt werden, gibt es niemals Unklarheiten darüber, zu welchem
if ein
else gehört. Wenn Sie
unless anstatt
if verwenden, wird der Sinn des Tests umgekehrt.
Die
while Anweisung führt den Block so lange aus, wie der Ausdruck wahr ist (der Nullstring
"" oder
0 oder
"0" werden als falsch gewertet). Die MARKIERUNG ist optional und besteht, wenn vorhanden, aus einem Bezeichner, gefolgt von einem Doppelpunkt. Die MARKIERUNG kennzeichnet die Schleife für die Schleifenkontrollausdrücke
next ,
last , und
redo . Wenn die MARKIERUNG weggelassen wird, wird der Schleifenkontrollausdruck auf die innerste eingeschlossene Schleife angewandt. Das kann dazu führen, dass auf dem Aufruf-Stack zur Laufzeit dynamisch zurückgeschaut wird, um die -MARKIERUNG zu finden. Ein derart aussichtsloses verhalten löst eine Warnung aus, wenn Sie das
use warnings Pragma oder das
-w Flag verwenden. Im Gegensatz zu einem
foreach Ausdruck hat der
while Ausdruck keine implizite lokale Variable.
Wenn es einen
continue BLOCK gibt, wird er immer ausgeführt bevor die Bedingung neu geprüft wird, genau wie der dritte Teil einer
for Schleife in C. Daher kann er dazu verwendet werden, eine Schleifenvariable zu inkrementieren, selbst wenn die Schleife durch den
next Ausdruck (der gleich dem
continue Ausdruck ist) fortgesetzt wird.
Loop Control
The
next command is like the
continue statement in C; it starts the next iteration of the loop:
LINE: while (<STDIN>) {
next LINE if /^#/; # discard comments
...
}
The
last command is like the
break statement in C (as used in loops); it immediately exits the loop in question. The
continue block, if any, is not executed:
LINE: while (<STDIN>) {
last LINE if /^$/; # exit when done with header
...
}
The
redo command restarts the loop block without evaluating the conditional again. The
continue block, if any, is
not executed. This command is normally used by programs that want to lie to themselves about what was just input.
For example, when processing a file like
/etc/termcap . If your input lines might end in backslashes to indicate continuation, you want to skip ahead and get the next record.
while (<>) {
chomp;
if (s/\\$//) {
$_ .= <>;
redo unless eof();
}
# now process $_
}
which is Perl short-hand for the more explicitly written version:
LINE: while (defined($line = <ARGV>)) {
chomp($line);
if ($line =~ s/\\$//) {
$line .= <ARGV>;
redo LINE unless eof(); # not eof(ARGV)!
}
# now process $line
}
Note that if there were a
continue block on the above code, it would get executed only on lines discarded by the regex (since redo skips the continue block). A continue block is often used to reset line counters or
?pat? one-time matches:
# inspired by :1,$g/fred/s//WILMA/
while (<>) {
?(fred)? && s//WILMA $1 WILMA/;
?(barney)? && s//BETTY $1 BETTY/;
?(homer)? && s//MARGE $1 MARGE/;
} continue {
print "$ARGV $.: $_";
close ARGV if eof(); # reset $.
reset if eof(); # reset ?pat?
}
If the word
while is replaced by the word
until , the sense of the test is reversed, but the conditional is still tested before the first iteration.
The loop control statements don't work in an
if or
unless , since they aren't loops. You can double the braces to make them such, though.
if (/pattern/) {{
last if /fred/;
next if /barney/; # same effect as "last", but doesn't document as well
# do something here
}}
This is caused by the fact that a block by itself acts as a loop that executes once, see
Basic BLOCKs and Switch Statements.
The form
while/if BLOCK BLOCK , available in Perl 4, is no longer available. Replace any occurrence of
if BLOCK by
if (do BLOCK) .
For Loops
Perl's C-style
for loop works like the corresponding
while loop; that means that this:
for ($i = 1; $i < 10; $i++) {
...
}
is the same as this:
$i = 1;
while ($i < 10) {
...
} continue {
$i++;
}
There is one minor difference: if variables are declared with
my in the initialization section of the
for , the lexical scope of those variables is exactly the
for loop (the body of the loop and the control sections).
Besides the normal array index looping,
for can lend itself to many other interesting applications. Here's one that avoids the problem you get into if you explicitly test for end-of-file on an interactive file descriptor causing your program to appear to hang.
$on_a_tty = -t STDIN && -t STDOUT;
sub prompt { print "yes? " if $on_a_tty }
for ( prompt(); <STDIN>; prompt() ) {
# do something
}
Foreach Loops
The
foreach loop iterates over a normal list value and sets the variable VAR to be each element of the list in turn. If the variable is preceded with the keyword
my , then it is lexically scoped, and is therefore visible only within the loop. Otherwise, the variable is implicitly local to the loop and regains its former value upon exiting the loop. If the variable was previously declared with
my , it uses that variable instead of the global one, but it's still localized to the loop.
The
foreach keyword is actually a synonym for the
for keyword, so you can use
foreach for readability or
for for brevity. (Or because the Bourne shell is more familiar to you than
csh , so writing
for comes more naturally.) If VAR is omitted,
$_ is set to each value.
If any element of LIST is an lvalue, you can modify it by modifying VAR inside the loop. Conversely, if any element of LIST is NOT an lvalue, any attempt to modify that element will fail. In other words, the
foreach loop index variable is an implicit alias for each item in the list that you're looping over.
If any part of LIST is an array,
foreach will get very confused if you add or remove elements within the loop body, for example with
splice . So don't do that.
foreach probably won't do what you expect if VAR is a tied or other special variable. Don't do that either.
Examples:
for (@ary) { s/foo/bar/ }
for my $elem (@elements) {
$elem *= 2;
}
for $count (10,9,8,7,6,5,4,3,2,1,'BOOM') {
print $count, "\n"; sleep(1);
}
for (1..15) { print "Merry Christmas\n"; }
foreach $item (split(/:[\\\n:]*/, $ENV{TERMCAP})) {
print "Item: $item\n";
}
Here's how a C programmer might code up a particular algorithm in Perl:
for (my $i = 0; $i < @ary1; $i++) {
for (my $j = 0; $j < @ary2; $j++) {
if ($ary1[$i] > $ary2[$j]) {
last; # can't go to outer :-(
}
$ary1[$i] += $ary2[$j];
}
# this is where that last takes me
}
Whereas here's how a Perl programmer more comfortable with the idiom might do it:
OUTER: for my $wid (@ary1) {
INNER: for my $jet (@ary2) {
next OUTER if $wid > $jet;
$wid += $jet;
}
}
See how much easier this is? It's cleaner, safer, and faster. It's cleaner because it's less noisy. It's safer because if code gets added between the inner and outer loops later on, the new code won't be accidentally executed. The
next explicitly iterates the other loop rather than merely terminating the inner one. And it's faster because Perl executes a
foreach statement more rapidly than it would the equivalent
for loop.
Basic BLOCKs and Switch Statements
A BLOCK by itself (labeled or not) is semantically equivalent to a loop that executes once. Thus you can use any of the loop control statements in it to leave or restart the block. (Note that this is
NOT true in
eval{} ,
sub{} , or contrary to popular belief
do{} blocks, which do
NOT count as loops.) The
continue block is optional.
The BLOCK construct is particularly nice for doing case structures.
SWITCH: {
if (/^abc/) { $abc = 1; last SWITCH; }
if (/^def/) { $def = 1; last SWITCH; }
if (/^xyz/) { $xyz = 1; last SWITCH; }
$nothing = 1;
}
There is no official
switch statement in Perl, because there are already several ways to write the equivalent.
However, starting from Perl 5.8 to get switch and case one can use the Switch extension and say:
use Switch;
after which one has switch and case. It is not as fast as it could be because it's not really part of the language (it's done using source filters) but it is available, and it's very flexible.
In addition to the above BLOCK construct, you could write
SWITCH: {
$abc = 1, last SWITCH if /^abc/;
$def = 1, last SWITCH if /^def/;
$xyz = 1, last SWITCH if /^xyz/;
$nothing = 1;
}
(That's actually not as strange as it looks once you realize that you can use loop control "operators" within an expression, That's just the normal C comma operator.)
or
SWITCH: {
/^abc/ && do { $abc = 1; last SWITCH; };
/^def/ && do { $def = 1; last SWITCH; };
/^xyz/ && do { $xyz = 1; last SWITCH; };
$nothing = 1;
}
or formatted so it stands out more as a "proper"
switch statement:
SWITCH: {
/^abc/ && do {
$abc = 1;
last SWITCH;
};
/^def/ && do {
$def = 1;
last SWITCH;
};
/^xyz/ && do {
$xyz = 1;
last SWITCH;
};
$nothing = 1;
}
or
SWITCH: {
/^abc/ and $abc = 1, last SWITCH;
/^def/ and $def = 1, last SWITCH;
/^xyz/ and $xyz = 1, last SWITCH;
$nothing = 1;
}
or even, horrors,
if (/^abc/)
{ $abc = 1 }
elsif (/^def/)
{ $def = 1 }
elsif (/^xyz/)
{ $xyz = 1 }
else
{ $nothing = 1 }
A common idiom for a
switch statement is to use
foreach 's aliasing to make a temporary assignment to
$_ for convenient matching:
SWITCH: for ($where) {
/In Card Names/ && do { push @flags, '-e'; last; };
/Anywhere/ && do { push @flags, '-h'; last; };
/In Rulings/ && do { last; };
die "unknown value for form variable where: `$where'";
}
Another interesting approach to a switch statement is arrange for a
do block to return the proper value:
$amode = do {
if ($flag & O_RDONLY) { "r" } # XXX: isn't this 0?
elsif ($flag & O_WRONLY) { ($flag & O_APPEND) ? "a" : "w" }
elsif ($flag & O_RDWR) {
if ($flag & O_CREAT) { "w+" }
else { ($flag & O_APPEND) ? "a+" : "r+" }
}
};
Or
print do {
($flags & O_WRONLY) ? "write-only" :
($flags & O_RDWR) ? "read-write" :
"read-only";
};
Or if you are certain that all the
&& clauses are true, you can use something like this, which "switches" on the value of the
HTTP_USER_AGENT environment variable.
#!/usr/bin/perl
# pick out jargon file page based on browser
$dir = 'http://www.wins.uva.nl/~mes/jargon';
for ($ENV{HTTP_USER_AGENT}) {
$page = /Mac/ && 'm/Macintrash.html'
|| /Win(dows )?NT/ && 'e/evilandrude.html'
|| /Win|MSIE|WebTV/ && 'm/MicroslothWindows.html'
|| /Linux/ && 'l/Linux.html'
|| /HP-UX/ && 'h/HP-SUX.html'
|| /SunOS/ && 's/ScumOS.html'
|| 'a/AppendixB.html';
}
print "Location: $dir/$page\015\012\015\012";
That kind of switch statement only works when you know the
&& clauses will be true. If you don't, the previous
?: example should be used.
You might also consider writing a hash of subroutine references instead of synthesizing a
switch statement.
Goto
Although not for the faint of heart, Perl does support a
goto statement. There are three forms:
goto -LABEL,
goto -EXPR, and
goto -&NAME. A loop's LABEL is not actually a valid target for a
goto ; it's just the name of the loop.
The
goto -LABEL form finds the statement labeled with LABEL and resumes execution there. It may not be used to go into any construct that requires initialization, such as a subroutine or a
foreach loop. It also can't be used to go into a construct that is optimized away. It can be used to go almost anywhere else within the dynamic scope, including out of subroutines, but it's usually better to use some other construct such as
last or
die . The author of Perl has never felt the need to use this form of
goto (in Perl, that is--C is another matter).
The
goto -EXPR form expects a label name, whose scope will be resolved dynamically. This allows for computed
goto s per FORTRAN, but isn't necessarily recommended if you're optimizing for maintainability:
goto(("FOO", "BAR", "GLARCH")[$i]);
The
goto -&NAME form is highly magical, and substitutes a call to the named subroutine for the currently running subroutine. This is used by
AUTOLOAD() subroutines that wish to load another subroutine and then pretend that the other subroutine had been called in the first place (except that any modifications to
@_ in the current subroutine are propagated to the other subroutine.) After the
goto , not even
caller() will be able to tell that this routine was called first.
In almost all cases like this, it's usually a far, far better idea to use the structured control flow mechanisms of
next ,
last , or
redo instead of resorting to a
goto . For certain applications, the catch and throw pair of
eval{} and die() for exception processing can also be a prudent approach.
PODs: Embedded Documentation
Perl has a mechanism for intermixing documentation with source code. While it's expecting the beginning of a new statement, if the compiler encounters a line that begins with an equal sign and a word, like this
=head1 Here There Be Pods!
Then that text and all remaining text up through and including a line beginning with
=cut will be ignored. The format of the intervening text is described in
perlpod.
This allows you to intermix your source code and your documentation text freely, as in
=item snazzle($)
The snazzle() function will behave in the most spectacular
form that you can possibly imagine, not even excepting
cybernetic pyrotechnics.
=cut back to the compiler, nuff of this pod stuff!
sub snazzle($) {
my $thingie = shift;
.........
}
Note that pod translators should look at only paragraphs beginning with a pod directive (it makes parsing easier), whereas the compiler actually knows to look for pod escapes even in the middle of a paragraph. This means that the following secret stuff will be ignored by both the compiler and the translators.
$a=3;
=secret stuff
warn "Neither POD nor CODE!?"
=cut back
print "got $a\n";
You probably shouldn't rely upon the
warn() being podded out forever. Not all pod translators are well-behaved in this regard, and perhaps the compiler will become pickier.
One may also use pod directives to quickly comment out a section of code.
Plain Old Comments (Not!)
Much like the C preprocessor, Perl can process line directives. Using this, one can control Perl's idea of filenames and line numbers in error or warning messages (especially for strings that are processed with
eval() ). The syntax for this mechanism is the same as for most C preprocessors: it matches the regular expression
/^#\s*line\s+(\d+)\s*(?:\s"([^"]+)")?\s*$/ with
$1 being the line number for the next line, and
$2 being the optional filename (specified within quotes).
There is a fairly obvious gotcha included with the line directive: Debuggers and profilers will only show the last source line to appear at a particular line number in a given file. Care should be taken not to cause line number collisions in code you'd like to debug later.
Here are some examples that you should be able to type into your command shell:
% perl
# line 200 "bzzzt"
# the `#' on the previous line must be the first char on line
die 'foo';
__END__
foo at bzzzt line 201.
% perl
# line 200 "bzzzt"
eval qq[\n#line 2001 ""\ndie 'foo']; print $@;
__END__
foo at - line 2001.
% perl
eval qq[\n#line 200 "foo bar"\ndie 'foo']; print $@;
__END__
foo at foo bar line 200.
% perl
# line 345 "goop"
eval "\n#line " . __LINE__ . ' "' . __FILE__ ."\"\ndie 'foo'";
print $@;
__END__
foo at goop line 345.
Kommentare:
--
HaraldBongartz - 29 Jun 2003