Magnus Cedergren (ceder@nada.kth.se)
Interaktions- och presentationslaboratoriet
Inst. för Numerisk analys och datalogi
Kungl. Tekniska högskolan
100 44 Stockholm
Datorn som skrivhjälpmedel för de nämnda yrkesgrupperna har inneburit en förändrad arbetsuppdelning på kontoren. Det är inte längre en noggrann och språkkunnig sekreterare som lägger sista handen vid alla dokument. Texten ändras ofta av författaren själv ända fram till "deadline". Denna förändring har potentiellt både positiva och negativa konsekvenser. Den ökade användningen av ordbehandling har inneburit ett ökat behov av datorstöd för att kontrollera och hantera språkliga egenskaper hos texter.
Denna rapport föreligger som ett delresultat inom projektet "Språkliga datorstöd vid skrivande" vid NADA/IPLab, Interaktions- och Presentationslaboratoriet, Inst. för numerisk analys och datalogi vid KTH. Inom detta projekt försöker vi med skribenten som utgångspunkt undersöka möjligheterna för datorn att på olika vis stödja skribenten språkligt. Med språkkunskap kan datorn utföra en mängd olika uppgifter: Granska texter (genom t.ex. läsbarhetsanalyser eller rättstavning), avstava eller kanske stödja skribenten att formulera och redigera texten. Vidare utvecklas en programprototyp, Plita, i HyperCard på Apple Macintosh. Projektet har finansierats av Apple Computer Svenska AB och av NUTEK (Närings- och teknikutvecklingsverket).
Skrivforskningen vid NADA/IPLab knyts till ett skrivlaboratorium som håller på att byggas upp. Forskningen inom detta laboratorium rör vitt skilda aspekter av skrivandet. Projekten som f.n. bedrivs vid laboratoriet, förutom de språkliga datorstöden, rör bl.a. undersökningar av problemen kring överblick vid skrivande med dator, grundläggande metoder för att studera skrivprocessen med datorstöd samt datorstött kunskapssamarbete med hypertext-teknik som datorstöd. En del forskning ägnas också datorstödd typografisk formgivning.
Jag vill här tacka Apple Computer Svenska AB, Jorge de Sousa Pieres och NUTEK, Gunnel Tolby/Ulf Eklundh som finansierat projektet samt min projektledare Kerstin S. Eklundh för många värdefulla råd under skrivandets gång.
Magnus Cedergren
Denna rapport behandlar korrekturkopior, vilket är en funktion där datorn understödjer manuell granskning av texten, till skillnad från de nämnda programmen som försöker göra en automatisk granskning. Jag inför här begreppet korrekturkopia och definierar det på följande sätt: En korrekturkopia är en kopia av en text där vissa strukturella eller andra egenskaper hos texten särskilt framhävts eller undertrycks. Till korrekturkopian kan även läggas särskild information, såsom meningslängder eller löpnummer för någon viss enhet.
Korrekturkopior innebär alltså att datorn framhäver vissa strukturella eller språkliga aspekter av texten för att underlätta granskning av denna aspekt. Genom att t.ex. markera alla pronomen i texten kan skribenten lättare kontrollera sin syftning. På motsvarande sätt kan ett undertryckande av allt utom första meningen i varje stycke avslöja något om textens språkliga struktur. Funktioner av denna typ har varit vanliga i amerikanska pedagogiska program, men förekommer även integrerat i vissa "Grammar&Style-checkers".
Jag sammanfattar först några amerikanska program med funktioner för korrekturkopior. Därefter redogör jag för den mer dynamiska funktion för korrekturkopior som finns i programprototypen Plita.
Delprogrammet org i WWB skriver ut alla rubriker (dvs. tillräckligt korta stycken) samt första och sista meningen i varje stycke. Meningen med denna funktion att skribenten ska kunna kontrollera textens organisation och sammanhanget i texten. Med en tillräckligt "bra" text som grund menar Cherry&Macdonald att en sådan utmatning kan användas som stomme i en textsammanfattning.
Programmet syl skriver ut alla ord som består av minst fem stavelser. Skribenten skall med denna funktion kunna kontrollera långa ord i texten. Kanske kan några av dem ersättas med kortare ord.
Med programmet findbe, slutligen, kan skribenten hitta alla former av verbet be (vara) i texten. Programmet markerar särskilt alla förekomster. I engelska texter anses det ofta vara bättre att använda mer aktiva verb än olika former av vara.
[Cohen&Lanham] framhåller fördelarna att som med HOMER utgå ifrån en konkret skrivmetod när man skapar ett verktyg för textgranskning. Programmet är uppbyggt kring en metod för "Revising Prose" beskriven av Scribner 1983. Denna metod bygger på att använda aktiva verb snarare än passiva, att undvika onödigt abstrakta uttryckssätt samt att undvika onödig ordrikhet.
Programmet, som i några avseenden tagit intryck av WWB, identifierar i sin huvudfunktion fyra kategorier av ord:
* Prepositioner
* Former av verbet be
* Nominaliseringar
* Vaga uttryck
Varje rad i den aktuella texten återges i sin helhet åtföljd av en kodning av den aktuella raden ("P" = preposition, "T" = former av verbet be,"S" = nominaliseringar, "W" = vaga uttryck , "-" = övriga ord). Ett exempel på en utskrift ges i figur 1.
Computers deal only in discrete phehonmena;
- - - P - -
the follow rigid procedures to manipulate and
- - - - P - -
transform precise data.
- - -
Can Melissa run her essay "My Opinion of
- - - - - - - P
Life", on a 6502B microcomputer and hope
W, P - - - - -
for some reasonable stylistic advice?
P - - - -
Figur 1. Utskrift från HOMER [Cohen&Lanham 1984]
Som ett alternativ till detta sätt att presentera ord från de fyra kategorierna kan programmet i stället skapa en korrekturkopia där orden föregås av radbrytning. De sätts dessutom i marginalen. Exempel på detta finns i figur 2.
Computers deal only
in discrete phenomena; the follow rigid procedures
to manipulate and transform precise data.
Can Melissa run her essay "My Opinion
of Life",
on a 6502B microprocessor and hope
for some reasonable stylistic advice?
Figur 2. Utskrift från HOMER [Cohen&Lanham 1984]
HOMER innehåller slutligen ytterligare två funktioner. För det första skapar programmet horisontella diagram över ordlängder där en asterisk motsvarar varje ord i texten. För det andra kvantifieras som en sammanfattning meningslängd, ordlängd och orden från de fyra kategorierna.
Figur 3. En utskrift från programmet punc
Perlman&Erickson jämför användningen av sitt program med användningen av program som beräknar läsbarhet med hjälp av läsbarhetsformler (om användningen av läsbarhetsformler under datorstödd granskning, se vidare [Cedergren 1992]). Perlman&Erickson menar att deras program på ett mer effektivt sätt hjälper skribenten att analysera sina meningsstrukturer än vad enkla siffervärden kan gära. Genom att programmet fokuserar användaren på de strukturella aspekterna av texten underlättas denna granskning.
* Ordlängd
* Interpunktion
* Syntax
* Nominaliseringar
Det olika funktionerna innebär att vissa element i texten framhävs, alternativt att vissa element undertrycks. Programmet använder datorns textskärm och möjligheter till semigrafik.
Funktionen för ordlängd innebär att varje ord ersätts med ett block som motsvarar ordlängden. Ord med minst tio bokstäver skrivs ut i klartext. Programmet kvanitifierar vidare ordlängder, meningslängder och genomsnittligt antal långa ord (minst 10 bokstäver). Crew menar här att skribenten kan upptäcka alltför många långa eller korta ord tillsammans, samt att via meningslängden se om texten "löper bra" (Jfr. programmet punc, avsnitt 2.3).
Interpunktionsfunktionen innebär att alla interpunktionstecken framhävs i en kopia av texten, samtidigt som ett rombtecken markerar varje ord i texten. Vidare kvantifieras avstånden mellan interpunktionstecknen. Funktionen är naturligt nog avsedd för granskning av interpunktionstecken.
Strukturord, däribland konjunktioner, samt första och sista ordet i varje mening markeras särskilt i Styleds syntaxfunktion. Övriga ord markeras med gråa block. Syntaxfunktionen kvantifierar de markerade orden samt presenterar en lista över dem. Funktionen är avsedd för att granska den språkliga strukturen i texten.
Den sista funktionen i Styled, nominalization, markerar former av verbet be, precis som WWB-programmet findbe (se avsnitt 2.1). Styled gör här, precis som för sina övriga funktioner, en kvantifiering av antalet förekomster och presenterar denna sist.
På motsvarande sätt finns en mängd funktioner för korrekturkopior integrerade i programmet Writer`s Helper [Hazen 1986]: Disposition, styckelängd (en asterisk för vart femte ord) samt varje mening på egen rad.
* Meningslista med varje mening på egen rad.
* Styckestruktur med första och sista meningen i varje stycke markerad med fetstil.
* Meningsinledningar med första ordet i varje mening markerat.
* Textstruktur där varje stycke endast representeras med första och sista meningen.
Meningslistan är avsedd för att underlätta granskning mening för mening, styckestrukturen att granska inledning och avslutningen av stycket, meningsinledningarna att kontrollera variationen i inledningarna hos meningarna samt textstrukturen att granska hur sammanhanget "upprätthålls" mellan styckena i texten.
De ovan nämnda programmen innehåller var och en ett fixerat antal funktioner, avsedda för vissa speciella ändamål. Varje skribent kommer säkert inte att använda alla funktioner i ett visst program. Det är kanske troligare att ingen eller endast någon enstaka typ av korrekturkopia kommer till användning.
Ambitionen med korrekturkopiorna i Plita har därför varit att användaren själv skall kunna "komponera" sin egen typ av korrekturkopia. Med hjälp av en mängd "basfunktioner" kan användaren definiera de olika typerna av korrekturkopior.
I bilaga A finns en uppräkning av basfunktionerna tillsammans med en kort beskrivning av vad varje funktion innebär. När en korrekturkopia skapas appliceras de påkopplade basfunktionerna på texten. Det kan innebära att vissa element i texten särskilt markeras, att vissa delar av texten ersätts eller stryks samt att information som löpnummer tillkommer.
Eftersom de flesta funktioner kan kombineras fritt har jag infört tre olika sätt att särskilt markera text. När ord i olika sammanhang skall markeras används understrykningar, fetstil används för hela meningar samt konturerad stil för att markera hela stycken. De olika markeringarna används dessutom för att markera information knuten till respektive enhet. Explicit angivna meningslängder markeras t.ex. med fetstil.
I bilaga B har jag definierat några typer av korrekturkopior som exempel på hur basfunktionerna kan "komponeras". Meningen med "innehåll" är t.ex. att skribenten skall få en snabb överblick över textens innehåll och med "textstruktur" att skribenten skall kunna granska sammanhanget mellan textens stycken. "Meningslängder" är avsedd för att granska variationen i meningslängder samt "Syftning", slutligen, är tänkt att hjälpa skribenten att hitta pronomen för granskning av syftningar.
Det går alltså lätt att definiera egna typer att korrekturkopior genom att på olika sätt kombinera basfunktionerna. Skribenten kan även lägga till egna ordgrupper, liknande de som finns för basfunktionerna "Markera pronomen", "Markera funktionsord" och "Markera konjunktioner", genom att skapa egna listor med ordgrupper som särskilt skall markeras.
Tekniskt sett är dock funktionerna i Plita i grunden de samma som i de äldre programmen, t.ex. Styled, MacProof eller punc. Man kan dock tänka sig andra sätt att vidareutveckla korrekturkopiorna. I programmet Gram*ma*tik Mac för Macintosh -- en "Grammar&Style Checker" -- går det att få morfologisk information knuten till varje ord (dvs. att få texten "taggad"). Den morfologiska analys som ligger till grund för denna "taggning" är inte alltid helt korrekt, men funktionen har ändå bedömts som användbar.
[Perlman&Erickson 1983] framför några andra, yttre aspekter på sitt program punc som skulle förbättra dess användbarhet: Grafik och integration. Om ett program som genererar korrekturkopior integreras i själva skrivandet (i skrivprocessen) och med användning av mer sofistikerad grafik kan korrekturkopior vara ett mycket användbar hjälpmedel, menar Perman&Erickson. Integrationen skulle t.ex. kunna innebära att skribenten kan gå in direkt i korrekturkopian och göra revideringar av texten. Tekniskt sett skulle "korrekturkopian" inte vara en kopia, utan vara ett annat sätt att "betrakta" orginaltexten.
CEDERGREN, MAGNUS 1992a: Skrivprocessen och språkliga datorstöd -- en bakgrund, TRITA-NA-P9201, NADA/IPLab, KTH, Stockholm 1992.
CEDERGREN, MAGNUS 1992: Kvantitativa läsbarhetsanalyser som metod för datorstödd granskning.
CHERRY, LORINDA L. OCH MACDONALD, NINA H. 1983: The Unix Writer`s Workbench Software, BYTE, October 1983
COHEN, MICHAEL E., LANHAM OCH RICHARD A. 1984: HOMER: Teaching Style with a Microcomputer, i The Computer in Composition Instruction: A Writer`s Tool. av Wresch, William (Ed.) National Council of Teachers of English, 1111 Kenyon Rd, Urbana, IL 61801, USA ,1984; ERIC ED247602.
CREW, LOUIS 1988: The manual for STYLED, version 3.0, (c) 1988 by Louis Crew, P. O. Box 1545, Orangeburg, SC 29116-1545, USA. (Distribueras bl.a. via PC-SIG).
Gram*ma*tik Mac
HAZEN, MARGRET et. al. 1986: Report on the Writer`s Workbench and Other Writing Tools, North Carolina Univ., Chapel Hill, Microcomputing Support Center; ERIC ED227015
MacProof
PERLMAN, GARY OCH ERICKSON THOMAS D. 1983: Graphical Abstractions of Technical Documents, Visible Language, vol 17, no 4 1983.
Löptext: [1] <2>
<<fem>> <<retorikens>> <<partes>>
Löptext: [2] <4>
Löptext: [3] <3>
* Styckeslängd
* Styckesnummer
* Nyckelord
Löptext: [1] <2>
Retorikens mål är att hjälpa en talar att göra sina texter, vilka var avsedda att framföras muntligen. Enligt Strömquists källor delas här processen in i sju faser, av vilka fem är de mest centrala, retorikens fem delar eller partes, Den inledande analys-fasen och den avslutande bearbetningen räknas vanligen utanpå de fem partes.
Löptext: [2] <4>
Löptext: [3] <3>
* Styckeslängd
* Styckesnummer
* Endast första och sista meningen i varje stycke
[1] <17,102> ,, < [[currency]] < fl [[currency]] fi < > > fl, fi < [[daggerdbl]] < , ,.
[2] <35,228> fl [[perthousand]] fl fi < , [[currency]] / < fi, [[currency]] fi < [[currency]] [[currency]] > ., ,, < fi fi fl, < , fl-fi < < ,, Ê fl . fl [[currency]] < fl.
[3] <21,124> < , fl-fi [[daggerdbl]] < [[daggerdbl]] < fi < < fl fi < < < fi < fi [[daggerdbl]] < fi.
[4] <10,55> fi > < ,,, < fl [[currency]] [[currency]] < fl.
[5] <11,59> < fi [[daggerdbl]] [[currency]] fi > fl fi > < >.
[6] <19,125> < fi  < > . [[currency]] <  >, fi [[currency]] Ê, < [[daggerdbl]] < [[currency]] . fi.
[7] <23,166> . fl  [[currency]] fl <  < [[daggerdbl]] , [[daggerdbl]] < > < > fl ,, [[currency]] fl fl fi , ,,.
[8] <16,108> Ê, < ,, fl fi / fi ,, / [[daggerdbl]], fl >, [[daggerdbl]] [[currency]] < fl.
[9] <18,116> < , fi, fi < < fl > fi , >, < [[currency]] fl [[daggerdbl]] fi fi Â.
* Meningslängd
* Meningsnummer
* Ordgrafer
Löptext: [1]
Retorikens mål är att hjälpa en talar att göra sina texter, vilka var avsedda att framföras muntligen. Enligt Strömquists källor delas här processen in i sju faser, av vilka fem är de mest centrala, retorikens fem delar eller partes, Den inledande analys-fasen och den avslutande bearbetningen räknas vanligen utanpå de fem partes.
Löptext: [2]
Löptext: [3]
* Styckesnummer
* Markera pronomen