*   программу.
            *   Обратите внимание на то, что в
            *   этой Lex-программе отсутствуют
            *   активные правила. Это сделано
            *   в связи с тем, что нет
            *   необходимости иметь правила,
            *   которые всегда активны.
            *   Все цепочки символов входного
            *   потока, не распознанные в
            *   правилах, копируются в выходной
            *   поток символов.
            */

    LETTER          [A-ZА-Яa-zа-я_]
    DIGIT           [0-9]
    IDENT           {LETTER}({LETTER}|{DIGIT})*
    INT             {DIGIT}+
    FIXED           {INT}?.{INT}
    WHISP           [ 0*

     <b>%%</b>
                          <b>BEGIN</b> Normal;
    &lt;Normal&gt;"{"           <b>BEGIN</b> IC1;
    &lt;IC1&gt;[^}]             ;
    &lt;IC1&gt;"}"              <b>BEGIN</b> Normal;
    &lt;Normal&gt;"(*"          <b>BEGIN</b> IC2;
    &lt;IC2&gt;[^*]|[^)]     ;
    &lt;IC2&gt<b>&</b>gt;<b>"*)"             BEGIN</b> Normal;

    &lt;Normal&gt;'([^']|'')*'  <b>return</b>( строка );
    &lt;Normal&gt;"&lt;&gt;"          <b>return</b>( не_равно );
    &lt;Normal&gt;"="           <b>return</b>( равно );
    &lt;Normal&gt;"&lt;"           <b>return</b>( меньше );
    &lt;Normal&gt;"&gt;"           <b>return</b>( больше );
    &lt;Normal&gt;"&gt;="      <b>return</b>(больше_или_равно);
    &lt;Normal&gt;"&lt;="      <b>return</b>(меньше_или_равно);
    &lt;Normal&gt;".."         <b>return</b>( точка_точка );
    &lt;Normal&gt;"+"           <b>return</b>( плюс );
    &lt;Normal&gt;"-"           <b>return</b>( минус );
    &lt;Normal&gt;":="          <b>return</b>( присвоить );
    &lt;Normal&gt;"*"           <b>return</b>( умножить );
    &lt;Normal&gt;"/"           <b>return</b>( разделить );
    &lt;Normal&gt;<b>mod           return</b>( t_mod );


 <b>24</b>


    &lt;Normal&gt;<b>div           return</b>( t_div );
    &lt;Normal&gt;<b>and           return</b>( t_and );
    &lt;Normal&gt;<b>or            return</b>( t_or );
    &lt;Normal&gt;<b>not           return</b>( t_not );
    &lt;Normal&gt;"("           <b>return</b>( lpar );
    &lt;Normal&gt;")"           <b>return</b>( rpar );
    &lt;Normal&gt;"["           <b>return</b>( lbracket );
    &lt;Normal&gt;"]"           <b>return</b>( rbracket );
    &lt;Normal&gt;","           <b>return</b>( comma );
    &lt;Normal&gt;":"           <b>return</b>( colon );
    &lt;Normal&gt;"^"           <b>return</b>( circumflex );
    &lt;Normal&gt;";"           <b>return</b>( semicolon );
    &lt;Normal&gt;<b>write         return</b>( Write );
    &lt;Normal&gt;<b>writeln       return</b>( Writeln );
    &lt;Normal&gt;<b>label         return</b>( t_label );
    &lt;Normal&gt;<b>program       return</b>(  );
    &lt;Normal&gt;<b>const         x</b>( "константы" ) ;
    &lt;Normal&gt;<b>type          x</b>( "типы" ) ;
    &lt;Normal&gt;<b>var           x</b>( "перем" ) ;
    &lt;Normal&gt;<b>procedure     x</b>( "процедура" ) ;
    &lt;Normal&gt;<b>function      x</b>( "функция" ) ;
    &lt;Normal&gt;<b>begin         x</b>( "начало" ) ;
    &lt;Normal&gt;<b>end</b>{WHISP}.  <b>x</b>( "конец прогр" ) ;
    &lt;Normal&gt;<b>end           x</b>( "конец" ) ;
    &lt;Normal&gt;<b>array         x</b>( "массив" ) ;
    &lt;Normal&gt;<b>of            x</b>( "из" ) ;
    &lt;Normal&gt;<b>record        x</b>( "запись" ) ;
    &lt;Normal&gt;<b>case          x</b>( "выбор" ) ;
    &lt;Normal&gt;<b>in            x</b>( "в" ) ;
    &lt;Normal&gt;<b>file          x</b>( "файл" ) ;
    &lt;Normal&gt;<b>for           x</b>( "для" ) ;
    &lt;Normal&gt;<b>to            x</b>( "к" ) ;
    &lt;Normal&gt;<b>downto        x</b>( "вниз к" ) ;
    &lt;Normal&gt;<b>do            x</b>( "выполн" ) ;
    &lt;Normal&gt;<b>while         x</b>( "пока" ) ;
    &lt;Normal&gt;<b>repeat        x</b>( "повт" ) ;
    &lt;Normal&gt;<b>until         x</b>( "до" ) ;
    &lt;Normal&gt;<b>set           x</b>( "множество" ) ;
    &lt;Normal&gt;<b>with          x</b>( "с" );
    &lt;Normal&gt;<b>nil           x</b>( "nil" ) ;
    &lt;Normal&gt;<b>if            x</b>( "если" ) ;
    &lt;Normal&gt;<b>then          x</b>( "то" ) ;
    &lt;Normal&gt;<b>else          x</b>( "иначе" ) ;
    &lt;Normal&gt;{FIXED}       <b>x</b>( "float" ) ;
    &lt;Normal&gt;{INT}         <b>x</b>( "ц.б.з" ) ;
    &lt;Normal&gt;{IDENT}       <b>x</b>( "идент" ) ;
    &lt;Normal&gt;[ 0]       ;

     <b>%%</b>

    <b>x</b>( s )
    <b>char</b> *s ;
    {


 <b>25</b>


    <b>printf</b>("%-15.15s 177&gt; <b>%s</b> &lt;1770,
                            s, <b>yytext</b> ) ;

    }


<b>4.  Структура файла lex.yy.c</b>

     <b>lex</b> строит программу - лексический анализатор на  языке
Си,  которая  размещается  в  файле  со  стандартным  именем
lex.yy.c. Эта программа содержит две основных функции и нес-
колько вспомогательных. Основные - это:

функция <b>yylex</b>()
     Она содержит  разделы  действий  всех  правил,  которые
     определены пользователем;

функция <b>yylook</b>()
     Она реализует детерминированный конечный автомат, кото-
     рый  осуществляет  разбор  входного  потока  символов в
     соответствии  с  регулярными  выражениями  правил  Lex-
     программы.

     Вспомогательные функции, которые  являются  подпрограм-
мами ввода-вывода. К ним относятся:

<b>input</b>()
     читает и возвращает символ из входного потока символов;

<b>unput</b>(c)
     возвращает символ обратно во входной поток для  повтор-
     ного чтения;

<b>output</b>(c)
     выводит в выходной поток символ c.

     Эти функции определены как  макроподстановки  следующим
образом:

     <b>input</b> -

            <b>fprintf</b>( fout, "<b>%s%d%s</b>0,
      "<b>#define input</b>() (((<b>yytchar</b>=<b>yysptr</b>&gt;<b>yysbuf</b>
            <b>ctable</b>['0],
     "?(<b>yylineno</b>++,<b>yytchar</b>):<b>yytchar</b>)==<b>EOF</b>?0:<b>yyt</b>


     <b>unput</b> -


 <b>26</b>


    <b>#define unput</b>(c){
            <b>yytchar</b> = (c);
            <b>if</b>( <b>yytchar</b> == '\n' ) <b>yylineno</b>--;
            <b>*yysptr</b>++ = <b>yytchar</b>;
    }


     <b>output</b> -

    <b>#define output</b>(c) <b>putc</b>(c,<b>yyout</b>)


     Эти функции можно изменить, указав им  те  же  имена  и
разместив в разделе программ пользователя.

     При  сборке  программы  лексического  анализа  редактор
связи <b>ld</b> по флагу <b>-ll</b> подключает головную функцию <b>main</b>, если
она не определена. Ниже приведен текст этой функции из  биб-
лиотеки /usr/lib/libl.a

    <b># include</b> "stdio.h"
    <b>main</b>(){
            <b>yylex</b>();
            <b>exit</b>(0);
    }


<b>5.  Функция yywrap()</b>

     Функция  <b>yywrap</b>  используется  для  определения   конца
файла,  из которого лексический анализатор читает поток сим-
волов. Если  <b>yywrap</b>  возвращает  1,  лексический  анализатор
прекращает  работу.  Однако,  иногда  имеется  необходимость
начать ввод данных из другого источника и продолжить работу.
В этом случае пользователь должен написать свою подпрограмму
<b>yywrap</b>, которая организует новый входной поток и  возвращает
0,  что служит сигналом к продолжению работы анализатора. По
умолчанию <b>yywrap</b> всегда возвращает 1 при завершении входного
потока символов.

     В Lex-программе невозможно  записать  правило,  которое
будет обнаруживать конец файла. Единственный способ это сде-
лать - использовать фунцию <b>yywrap</b>. Эта функция также удобна,
когда необходимо выполнить какие-либо действия по завершению
входного потока символов, определив в разделе программ поль-
зователя новый вариант функции <b>yywrap</b>. Пример:


 <b>27</b>


    <b>%START</b> AA BB CC

       /*
        *   Строится лексический анализатор,
        *   который распознает наличие
        *   включений файлов в Си-программе,
        *   условных компиляций,
        *   макроопределений,
        *   меток и головной функции main.
        *   Анализатор ничего не выводит, пока
        *   осуществляется чтение входного
        *   потока, а по его завершении
        *   выводит статистику.
        */

    БУКВА       =    [A-ZА-Яa-zа-я_]
    ЦИФРА           [0-9]
    ИДЕНТИФИКАТОР   {БУКВА}({БУКВА}|{ЦИФРА})*

                    <b>int</b> a1,a2,a3,b1,b2,c;
     <b>%%</b>
            {a1 = a2 = a3 = b1 = b2 = c = 0;}

    ^#                          <b>BEGIN</b> AA;
    ^[ \t]*main                 <b>BEGIN</b> BB;
    ^[ \t]*{ИДЕНТИФИКАТОР}      <b>BEGIN</b> CC;
    \t                          ;
    \n                          <b>BEGIN</b> 0;

    &lt;AA&gt;define                  { a1++; }
    &lt;AA&gt;include                 { a2++; }
    &lt;AA&gt;ifdef                   { a3++; }

    &lt;BB&gt;[^\,]*","[^\,]*")"     { b1++; }
    &lt;BB&gt;[^\,]*")"               { b2++; }

    &lt;CC&gt;":"/[ \t]               { c++;  }

     <b>%%</b>

    <b>yywrap</b>(){

    <b>if</b>( b1 == 0 && b2 == 0 )
            <b>printf</b>("В программе\
     отсутствует  функция main.\n");

    <b>if</b>( b1 &gt;= 1 && b2 &gt;= 1 ){
            <b>printf</b>("Многократное\
     определение функции main.\n");

    } <b>else</b> {
        <b>if</b>(b1 == 1 )
            <b>printf</b>("Функция main\


 <b>28</b>


     с аргументами.\n");

        <b>if</b>( b2 == 1 )
            <b>printf</b>("Функция main\
     без аргументов.\n");
    }

    <b>printf</b>("Включений файлов: %d.\n",a2);
    <b>printf</b>("Условных компиляций: %d.\n",a3);
    <b>printf</b>("Определений: %d.\n",a1);
    <b>printf</b>("Меток: %d.\n",c);

    <b>return</b>(1);

    }


     Оператор <b>return</b>(1) в функции <b>yywrap</b> указывает, что лек-
сический анализатор должен завершить работу. Если необходимо
продолжить работу анализатора для чтения  данных  из  нового
файла,  нужно  указать  <b>return</b>(0), предварительно осуществив
операции закрытия и открытия файлов и, в этом случае, анали-
затор  продолжит чтение и обработку входного потока. Однако,
если <b>yywrap</b> не возвращает 1, то это приводит к  бесконечному
циклу.

<b>6.  Функция REJECT</b>

     Обычно <b>lex</b>  разделяет  входной  поток,  не  осуществляя
поиск  всех  возможных  соответствий  каждому выражению. Это
означает, что каждый символ рассматривается  один  и  только
один раз. Предположим, что мы хотим подсчитать все вхождения
цепочек she и he во входном тексте. Для этого  мы  могли  бы
записать следующие правила:

            she     s++;
            he      h++;
            .       |
            \n      ;

Так как she включает в себя he, анализатор не распознает  те
вхождения he, которые включены в she, так как, прочитав один
раз she, эти символы он не вернет во входной поток.

     Иногда желательно переопределить этот  выбор.  Действие
функции  <b>REJECT</b>  означает  "выбрать следующую альтернативу".
Это приводит к тому, что каким бы  ни  было  правило,  после
него необходимо выполнить второй выбор. Соответственно изме-
нится и положение указателя во входном потоке:


 <b>29</b>


            she         { s++; <b>REJECT</b>; }
            he          { h++; <b>REJECT</b>; }
            .           |
            \n          ;

Здесь после выполнения одного правила  символы  возвращаются
назад во входной поток, и выполняется другое правило.

     Функция <b>REJECT</b> полезна в том случае, когда она применя-
ется  для  определения  всех  вхождений какого-либо объекта,
причем  вхождения  могут  перекрываться  или  включать  друг
друга.   Предположим,  необходимо  получить из одного потока
таблицу всех двухбуквенных сочетаний, которые обычно  перек-
рываются,  например,  слово  the  содержит как th, так и he.
Допустим, имеется двумерный массив digram, тогда:

     <b>%%</b>
    [a-z][a-z]      {

              digram[<b>yytext</b>[0]][<b>yytext</b>[1]]++;
              <b>REJECT</b>;
                    }
    \n              ;

Здесь <b>REJECT</b> используется для выделения буквенных пар, начи-
нающихся на каждой букве, а не на каждой следующей.

<b>7.  Функции yyless и yymore</b>

     В обычной ситуации содержимое <b>yytext</b> обновляется всякий
раз,  когда  на входе появляется следующая строка. Напомним,
что в <b>yytext</b> всегда находятся символы распознанной  последо-
вательности. Иногда возникает необходимость добавить к теку-
щему содержимому <b>yytext</b> следующую распознанную цепочку  сим-
волов.  Для  этой  цели  используется функция <b>yymore</b>. Формат
вызова этой функции:
                          <b>yymore</b>()
В некоторых случаях возникает необходимость использовать  не
все  символы  распознанной  последовательности  в  <b>yytext</b>, а
только необходимое их  число.  Для  этой  цели  используется
функция <b>yyless</b>. Формат ее вызова:
                         <b>yyless</b>(n)
где n указывает, что в данный  момент  необходимы  только  n
символов  строки в <b>yytext</b>. Остальные найденные символы будут
возвращены во входной поток.

     Пример использования фунцкии <b>yymore</b>:


 <b>30</b>


     .
     .
     .
    \"[^"]*         {
             <b>if</b>( <b>yytext</b>[<b>yyleng</b> - 1] == '\\'){
                            <b>yymore</b>();
             }<b>else</b>{

                 /*
                  *  здесь должна быть часть
                  *  программы, обрабатывающая
                  *  закрывающую кавычку.
                  */

             }
                    }
     .
     .
     .

В этом примере распознаются строки симвoлов, взятые в  двой-
ные  кавычки,  причем  символ  двойная  кавычка  внутри этой
строки может изображаться  с  предшествующей  косой  чертой.
Анализатор   должен   распознавать  кавычку,  ограничивающую
строку, и кавычку, являющуюся частью строки, когда она изоб-
ражена как \".

     Допустим, на вход поступает строка "абв\"где".  Сначала
будет распознана цепочка "абв\ и, так как последним символом
в этой цепочке будет символ "\", выполнится вызов  <b>yymore</b>().
В  результате  к  цепочке  "абв\  будет  добавлено "где, и в
<b>yytext</b> мы получим:  "абв\"где, что и требовалось.

     Пример использования фунции <b>yyless</b>:

     .
     .
     .
    =-[A-ZА-Яa-zа-я]       {

      <b>printf</b>("Oператор (=-) двусмысленный.\n");
      <b>yyless</b>(<b>yyleng</b> - 2);

     /*
      * здесь необходимо указать
      * действия для случая "=-"
      */
                            }
     .
     .
     .

В этом примере  разрешается  двусмысленность  выражения  "=-


 <b>31</b>


буква" в языке Си.  Это выражение можно рассматривать как

            "=- буква" (равносильно "-=" )
    или
            "= -буква"

Предположим, что желательно эту ситуацию  рассматривать  как
"=  -буква"  и  выводить пердупреждение. Указанное в примере
правило распознает эту ситуацию  и  выводит  предупреждение.
Затем,  в  результате вызова "<b>yyless</b>(<b>yyleng</b> - 2);"  два сим-
вола "-буква" будут возвращены во входной поток, а знак  "="
останется в <b>yytext</b> для обработки, как в нормальной ситуации.
Таким образом, при продолжении чтения  входного  потока  уже
будет обрабатываться цепочка "-буква", что и требовалось.

<b>8.  Совместное использование lex и yacc</b>

     <b>yacc</b> требует указание  лексическому  анализатору  имени
<b>yylex</b>(). Именно поэтому эта функция так называется в <b>lex</b>.

     Известно, что  <b>yacc</b>  строит  выходной  файл  y.tab.c  .
Основной в файле y.tab.c является функция <b>yyparse</b>, реализую-
щая алгоритм грамматического разбора. Функция <b>yyparse</b> содер-
жит  многократное  обращение  к функции лексического анализа
<b>yylex</b>.

     Для обеспечения корректной работы грамматического  ана-
лизатора  функция <b>yylex</b> должна быть согласована с конкретной
спецификацией грамматики и удовлетворять определенным требо-
ваниям.

     Пользователь  при  описании  грамматики  решает,  какие
конструкции целесообразнее непосредственно выделять из вход-
ного текста на этапе лексического анализа.

     Сложность лексического  анализатора  зависит  от  того,
какие структурные единицы взяты за основу при описании грам-
матических правил.  Детализовав грамматику до отдельных сим-
волов,  можно  обойтись простейшим лексическим анализатором.
Однако, в этом случае число правил растет, а  грамматический
разбор  оказывается  менее эффективным. Поэтому пользователь
обычно должен найти некоторый компромисс при  выборе  набора
лексем.

     Заметим, что ключевые слова описываемого входного языка
часто  бывает  удобно  считать лексемами. Имена лексем могут
совпадать с этими ключевыми словами,  недопустимым  является
лишь  совпадение  имен  лексем  с зарезервированными словами
языка Си.

     Основная задача функции <b>yylex</b> состоит во вводе из вход-
ного  потока  ряда очередных символов до выявления конструк-
ции, соответствующей одной из лексем, и  возвращении  номера


 <b>32</b>


типа  этой  лексемы  и,  когда это необходимо, значения этой
лексемы.

     Все виды лексем, кроме литералов, обозначаются  некото-
рыми   именами  и  под  этими  именами  фигурируют  в  Yacc-
программе, где объявление имен лексем осуществляется  дирек-
тивой <b>token</b>:

            <b>%token</b> &lt;список имен лексем&gt;

Благодаря объявлению имен лексем  в  директиве  <b>token</b>,  <b>yacc</b>
отличает имена лексем от имен нетерминальных символов.

     Пример объявления имен лексем в Yacc-программе:

        <b>%token</b> IDENT CONST ЗНАК IF THEN GOTO

При первом появлении лексемы или литерала в секции  объявле-
ний  Yacc-программы за каждым из них может следовать неотри-
цательное целое число, рассматриваемое как  номер_типа  лек-
семы.

     По умолчанию номера типов всех лексем определяются <b>yacc</b>
следующим образом:

     - для литерала номером типа лексемы считается  числовое
       значение  данного литерального символа, рассматривае-
       мого как однобайтовое целое число;

     - лексемы, обозначенные именами, в соответствии с  оче-
       редностью  их  объявления  получают  последовательные
       номера, начиная с 257.

     Для каждого имени лексемы независимо от того, переопре-
делен  ли ее номер пользователем, <b>yacc</b> генерирует в выходном
файле y.tab.c оператор препроцессора:

          <b>#define</b> &lt;имя_лексемы&gt; &lt;номер_типа&gt;

Значение, возвращаемое функцией <b>yylex</b>, является номером типа
лексемы. Таким образом, список лексем и номера их типов ука-
зываются в Yacc-программе, а определения этих лексем в  Lex-
программе.  Возникает  проблема  соответствия  номеров типов
лексем в файлах y.tab.c и lex.yy.c, котороя разрешается сле-
дующим образом:

     - при вызове <b>yacc</b> с флагом <b>-d</b> последовательность опера-
       торов <b>#define</b> помещается в файл y.tab.h.;

     - этот файл посредством оператора <b>#include</b> включается в
       Lex-программу.


 <b>33</b>


     В процедуре лексического анализа кроме выделения лексем
можно  предусмотреть некоторую обработку лексем определенных
типов, в частности, запоминание конкретных значений лексем.

     Примером значения лексемы могут служить числовое значе-
ние  символа  - цифры, вычисленное значение константы, адрес
идентификатора в таблице имен (построение таблицы имен  осу-
ществляет  <b>lex</b>).   Кроме того, эти значения обычно требуется
передать грамматическому анализатору. С  этой  целью  нужное
значение  должно  быть  присвоено  внешней переменной целого
типа с именем <b>yylval</b>. Если функция <b>yylex</b> находится в отдель-
ном файле, то эта переменная должна быть объявлена:

            <b>extern int yylval</b>;

Уточним,  что  значением_лексемы  будем  называть  значение,
присвоенное при ее распознавании переменной <b>yylval</b>. Заметим,
что в <b>yylval</b>  всегда  должно  находится  значение  последней
выделенной лексемы.

     Допустим,  мы  располагаем  Yacc-программой   в   файле
source.y  и Lex-программой в файле source.l, которые необхо-
димо собрать в работающую программу. Существует два  способа
сборки:

     - сборка  Lex-  и  Yacc-программы  с  созданием   файла
       y.tab.h;

     - сборка  Lex-  и  Yacc-программы  без  создания  файла
       y.tab.h.

     Рассмотрим первый способ сборки.

     Ниже приведен пример <b>makefile</b> для программы <b>make</b>, кото-
рая  осуществляет  последовательную  обработку  и сборку эих
программ и размещает результат в файле program:


 <b>34</b>


    program:        y.tab.o lex.yy.o
          <b>cc</b> y.tab.o lex.yy.o <b>-ly -ll -o</b> program

    y.tab.o:        y.tab.c
                    <b>cc -c -O</b> y.tab.c

    lex.yy.o:       lex.yy.c  y.tab.h
                    <b>cc -c -O</b> lex.yy.c

    y.tab.h:
    y.tab.c:        source.y
                    <b>yacc -d</b> source.y

    lex.yy.c:       source.l
                    <b>lex -v</b> source.l

    clear:
           <b>rm -f</b> yy.tab.?  lex.yy.? program

В  файле  source.l  размещена  Yacc-программа,   реализующая
небольшой   настольный  калькулятор.  Калькулятор  имеет  52
регистра, помеченных буквами от A до z, и разрешает  исполь-
зовать  арифметические  выражения, содержащие операции +, -,
*, /, % (остаток от деления), & (побитовое и), |  (побитовое
или) и присваивание. Как и в Си, целые числа, начинающиеся с
0, считаются восьмеричными,  все  остальные  -  десятичными.
Результат всегда выводится десятичными числами.

     Калькулятор работает в интерактивном режиме с  построч-
ным  формированием  выхода,  может читать задание из файла и
выводить результат в файл.

     Знак "=" используется для присваивания, а для выведения
результата достаточно нажать клавишу &lt;ВК&gt;. Распознаются ско-
бочные структуры, изменяющие порядок приоритетов при  вычис-
лениях. Калькулятор работает только с целыми типа <b>integer</b>.


 <b>35</b>


    <b>%token</b> DIGIT LETTER
    <b>%left</b> '|'
    <b>%left</b> '&'
    <b>%left</b> '+' '-'
    <b>%left</b> '*' '/' '%'
    <b>%left</b> UMINUS
    <b>%{</b>
    <b>int</b> base, regs[26];
    <b>%}</b>
     <b>%%</b>
    list:
        |
         list stat '\n'
        |list stat error '\n' { <b>yyerrok</b>; }

    stat:
         expr { <b>printf</b>( "%d\n",$1 ); }
        |LETTER '=' expr { regs[$1]=$3; }

    expr:
         '(' expr ')'   { $$=$2;  }
        |expr '+' expr  { $$=$1+$3; }
        |expr '-' expr  { $$=$1-$3; }
        |expr '*' expr  { $$=$1*$3; }
        |expr '/' expr  { $$=$1/$3; }
        |expr '%' expr  { $$=$1%$3; }
        |expr '&' expr  { $$=$1&$3; }
        |expr '|' expr  { $$=$1|$3; }
        |'-' expr <b>%prec</b> UMINUS  { $$= -$2; }
        | LETTER  { $$=regs[$1]; }
        | number;

    number:
         DIGIT  { $$=$1;
                  base=10;
                  <b>if</b>($1==0) base=8;  }
        |number DIGIT  { $$=base*$1+$2; }


     В файле source.l  размещена  Lex-программа  лексичского
анализатора для этого калькулятора:


 <b>36</b>


    <b>%{</b>
    <b>#include</b>   "y.tab.h"
    <b>extern int yylval</b>;
    <b>%}</b>
     <b>%%</b>
    ^\n             ;
    [ \t]*          ;
    [A-Za-z]     {
           <b>yylval</b> = <b>yytext</b>[<b>yyleng</b>-1] - 'a';
           <b>return</b>(LETTER);}
    [0-9]              {
           <b>yylval</b> = <b>yytext</b>[<b>yyleng</b>-1] - '0';
           <b>return</b>(DIGIT);}


     Рассмотрим  второй  способ  сборки.   <b>Makefile</b>   теперь
существенно проще:

    program:       y.tab.c lex.yy.c
          <b>cc -O</b> y.tab.c <b>-ly -ll -o</b> program

    y.tab.c:        source.y
                    <b>yacc</b>  source.y

    lex.yy.c:       source.l
                    <b>lex -v</b> source.l
    clear:
            <b>rm -f</b> y.tab.? lex.yy.? program


Но в файлах source.y и source.l произойдут следующие измене-
ния. В разделе входной информации для Yacc-программы необхо-
димо указать строку <b>#include</b> lex.yy.c,  а  из  Lex-программы
необходимо  убрать  строку  <b>#include</b>  "y.tab.h". Теперь файл
source.y выглядит следующим образом:


 <b>37</b>


    <b>%token</b> DIGIT LETTER
    <b>%left</b> '|'
    <b>%left</b> '&'
    <b>%left</b> '+' '-'
    <b>%left</b> '*' '/' '%'
    <b>%left</b> UMINUS
    <b>%{</b>
    <b>#include</b> "lex.yy.c"
    <b>int</b> base, regs[26];
    <b>%}</b>
     <b>%%</b>
    list:
        |
         list stat '\n'
        |list stat error '\n' { <b>yyerrok</b>; }

    stat:
         expr { <b>printf</b>( "%d\n",$1 ); }
        |LETTER '=' expr { regs[$1]=$3; }

    expr:
         '(' expr ')'   { $$=$2;  }
        |expr '+' expr  { $$=$1+$3; }
        |expr '-' expr  { $$=$1-$3; }
        |expr '*' expr  { $$=$1*$3; }
        |expr '/' expr  { $$=$1/$3; }
        |expr '%' expr  { $$=$1%$3; }
        |expr '&' expr  { $$=$1&$3; }
        |expr '|' expr  { $$=$1|$3; }
        |'-' expr <b>%prec</b> UMINUS  { $$= -$2; }
        | LETTER  { $$=regs[$1]; }
        | number;

    number:
         DIGIT  { $$=$1;
                  base=10;
                  <b>if</b>($1==0) base=8;  }
        |number DIGIT  { $$=base*$1+$2; }


А файл source.l выглядит следующим образом:


 <b>38</b>


    <b>%{</b>
    <b>extern int yylval</b>;
    <b>%}</b>
     <b>%%</b>
    ^\n             ;
    [ \t]*          ;
    [A-Za-z]     {
           <b>yylval</b> = <b>yytext</b>[<b>yyleng</b>-1] - 'a';
           <b>return</b>(LETTER);}
    [0-9]              {
           <b>yylval</b> = <b>yytext</b>[<b>yyleng</b>-1] - '0';
           <b>return</b>(DIGIT);}


<b>9.  Использование Ратфора</b>

     <b>lex</b> можно использовать для генерации программ лексичес-
кого  анализа на Ратфоре.  Для этого в первой строке раздела
определений необходимо указать <b>%R</b>.  Все  сказанное  выше  об
использовании  Си  в  качестве host-языка относится и к Рат-
фору.  Необходимо учесть, что Ратфор имеет  свою  библиотеку
ввода-вывода. Однако, состав функций <b>lex</b> для Ратфора тот же,
что и для Си. Есть и функция, выделенная только для  Ратфора
- <b>lexshf</b>.  Функция <b>lexshf</b> переводит внутреннее представление
символа (младший байт) из  Си  во  внутреннее  представление
символа в Фортране (старший байт).

     Дествия правил Lex-программы для Ратфора оформляются  в
виде  вычисляемых  <b>goto</b> в выходном файле, который называется
lex.yy.r.

     Допустим, имеется исходный файл source.l с  Ратфором  в
качестве host-языка, тогда для получения лексического анали-
затора необходимы следующие действия:

            <b>% lex</b> source<b>.</b>l
            <b>% rc</b> lex<b>.</b>yy<b>.</b>r <b>-llr</b>

Напомним, что в Ратфоре индексы  массивов  начинаются  с  1,
поэтому,  например, <b>yytex</b>[<b>yyleng</b>] - это последний полученный
из входного потока символ.

<b>10.  Флаги Lex</b>

<b>-t</b>   поместить результат в стандартный файл вывода, а  не  в
     файл lex.yy.c;

<b>-v</b>   вывести размеры внутренних таблиц;

<b>-f</b>   ускорить работу,  не  упаковывая  таблицы  (только  для
     небольших программ);


 <b>39</b>


<b>-n</b>   не выводить размеры таблиц (устанавливается по  умолча-
     нию);

<b>-d</b>   используется при отладке <b>lex</b>.

     Имеется возможность собрать анализатор для диагностики.
Для этого необходимо компиляцию файла lex.yy.c  осуществлять
с подключением разделов диагностики:

            <b>cc -d -DLEXDEBUG</b>  lex.yy.c

При работе полученного таким образом анализатора будет выво-
диться  диагностика действий. Флаг <b>-d</b>, кроме того, позволяет
проверить текст  программы  lex.yy.c  с  помощью  текстового
отладчика <b>cdeb</b>.


 <b>40</b>


                         СОДЕРЖАНИЕ


.   Аннотация .........................................    2

1.  Введение ..........................................    3

2.  Регулярные выражения в Lex-правилах ...............    8
2.1.  Обозначения символов в выражениях ...............    8
2.2.  Операторы регулярных выражений ..................    9
2.3.  Оператор выделения классов символов .............    9
2.4.  Повторители .....................................    9
2.5.  Операторы выбора ................................   10
2.6.  Оператор {} .....................................   11
2.7.  Оператор &lt;&gt;. Служебные слова START и BEGIN ......   12

3.  Структура Lex-программы ...........................   15
3.1.  Раздел определений Lex-программы ................   15
3.2.  Раздел правил ...................................   18
3.2.1.  Действия в правилах Lex-программы .............   19
3.2.2.  Порядок действия активных правил ..............   21
3.3.  Раздел программ пользователя ....................   22
3.4.  Комментарии Lex-программы .......................   22
3.5.  Примеры Lex-программ ............................   22

4.  Структура файла lex.yy.c ..........................   26

5.  Функция yywrap() ..................................   27

6.  Функция REJECT ....................................   29

7.  Функции yyless и yymore ...........................   30

8.  Совместное использование lex и yacc ...............   32

9.  Использование Ратфора .............................   39

10. Флаги Lex .........................................   39


 <b>41</b>