DOD OCR-tekst datasæt vedr. ældre dansksproget materiale

Permanent URI for this collection

DOD (Danske bøger On Demand) servicen er baseret på, at registrerede lånere på Det Kgl. Bibliotek i en årrække har kunnet og fortsat kan bestille OCR behandlet og digitaliseret (søgbar) pdf-udgave af danske bøger uden for ophavsret.

Datasættet er derfor bestemt af seneste kørsels tidspunkt og inkluderer metadata fra KB’s biblioteks system og OCR udtrukne tekster fra pdf’erne som er uden for ophavsret.

Den automatisk OCR genererede tekst er produceret efter bedste standarder for automatiseret OCR genkendelse i KB’s digitaliseringsafdeling. OCR teksterne er ikke efterbehandlet eller korrekturlæst efterfølgende og kvalitetsniveauet af OCR-genkendelsen er ikke systematisk undersøgt.

Læs evt. mere her: https://www.kb.dk/services/danske-boeger-demand

Browse

Recent Submissions

Now showing 1 - 3 of 3
  • Item
    DOD OCR korpus 20240416
    (2024-04-16) Det Kgl. Bibiliotek
    Advarsel: datasættet er under teknisk udredning, da datasættet er alt for lille. Der arbejdes på et nyt 2024 udtræk. "DOD OCR korpus 20240416" Datasættet er skabt den 16. april 2024 og inkluderer metadata fra KB’s biblioteks system og OCR udtrukne tekster fra pdf’erne som er uden for ophavsret.
  • Item
    DOD OCR korpus 20220107
    (2022-01-07) Det Kgl. Bibiliotek
    "DOD OCR korpus 20220107" Datasættet er skabt den 7. januar 2022 og inkluderer metadata fra KB’s biblioteks system og OCR udtrukne tekster fra pdf’erne som er uden for ophavsret.
  • Item
    DOD OCR korpus 20210923
    (2021-09-23) Det Kgl. Bibiliotek
    "DOD OCR korpus 20210923" Datasættet er skabt den 23. september 2021 og inkluderer metadata fra KB’s biblioteks system og OCR udtrukne tekster fra pdf’erne som er uden for ophavsret.