AP2 - Basale skrevne sprogresurser

I denne arbejdspakke indsamles og annoteres skrevne tekster, nutidige såvel som ældre, almensproglige og specialiserede fagsproglige tekster, litterære og sagprosatekster, såvel som parallelle korpora med dansk som et af sprogene. De enkelte underarbejdspakker samarbejder om at etablere en fælles standard for angivelse af metadata og for opmærkning af sproglige enheder i tekstindholdet. Opmærkningen lægger sig tæt op ad anbefalingerne i TEI P5.

Arbejdspakke 2 består af seks underarbejdspakker:

AP2.1 Referencekorpus for dansk alment sprog

Arbejdspakkens mål er at indsamle et almensprogligt tekstkorpus over moderne dansk i perioden 2000 til 2010 af et omfang på ca. 45 mio. løbende ord. Korpussets kerne vil bestå af avistekster fra Infomedia, men denne teksttype bliver suppleret af en lang række andre teksttyper, så som ungdomsblade, livsstilsmagasiner, skønlitterære romaner og tekst af mere uformel karakter fra de ny medier (fx blogs). Disse bestræbelser skulle gerne resultere i en høj grad af afbalancerethed.

Hvis du vil læse mere om arbejdspakke 2.1, klik her.

AP2.2 Subkorpus over fagsprog - nutidsfagtekster

Det generelle formål med arbejdspakke 2.2 er at supplere KorpusDK og andre tilgængelige almensproglige korpora med et samlet fagsprogligt korpus bestående af tekster fra flere domæner fra perioden 2000-2010. Dette fagsproglige korpus vil give et billede af hvad, hvordan og til hvilket formål der skrives om de enkelte domæner i nutiden.  

Hvis du vil læse mere om arbejdspakke 2.2, klik her.

AP2.3 Tekster til menigmand - danske sagtekster fra 1500 til 1750

Denne arbejdspakke omfatter arbejdet med at opbygge og annotere et korpus på 250.000 ord sammensat af dansk sagprosa for det almindelige publikum fra perioden 1500 til 1750 . Dette korpus består af kapitler fra 50 trykte værker i udvalgte fagområder.

Hvis du vil læse mere om arbejdspakke 2.3, klik her.

AP2.4 Udvidet annotation og forbedrede søgemuligheder i ældre litterære tekster

Denne arbejdspakke består af to opgaver:

  1. At forbedre søgemulighederne i Arkiv for Dansk Litteratur (ADL)
  2. At digitalisere Johannes V. Jensens værker

(oversættelse af engelsk beskrivelse)

Hvis du vil læse mere om arbejdspakke 2.4, klik her.

AP2.5 Billeder, genstande og tekster fra Nationalmuseet

I denne arbejdspakke fokuseres der på håndværk og industri baseret på Nationalmuseets billedbase fra enheden "Danmarks Nyere Tid" (perioden 1660 og frem). 

(oversættelse af engelsk beskrivelse)

Hvis du vil læse mere om arbejdspakke 2.5, klik her.

AP2.6 Parallelt flersprogskorpus

Arbejdspakkens formål er at tilgængeliggøre et korpus på 20 mio. løbende ord. Korpusset består af parallelle tekster for dansk, engelsk og i en vis udstrækning tysk. Disse annoteres bl.a. med ordklase og grundform. Aligneringen af teksterne foretages vha. software, hvor aligneringskvaliteten nøje evalueres. De parallelle data vil kunne anvendes i forskning i automatisk oversættelse og i oversættelsesundervisning.

Teksterne er ved at blive indsamlet og består af juridiske tekster fra Acquis-korpuset, samt pressemeddelelser fra EU's RAPID-database på henholdsvis dansk, engelsk og tysk. Desuden indsamles årsberetninger på engelsk og dansk. I det omfang der kan opnås rettigheder til oversættelserne vil også enkelte ældre litterære tekster bearbejdes i arbejdspakken.

Hvis du vil læse mere om arbejdspakke 2.6, klik her.