Details

      Description

      Wir haben Probleme mit Umlauten, die als kombinierte Zeichen (z.B. o und Punkte nacheinander) erfasst wurden. Da diese nicht normalisiert werden, unterscheiden sie sich von den "normalen" Umlauten. Wenn man dann danach über Tastatureingabe sucht, findet man nichts, da der Text zwar gleich aussieht, es aber nicht ist.

      Typischerweise passiert dies bei der Übernahme der Texte aus PDF oder beim Import der Daten über externe Schnittstellen. Die GND-Namen, die wir uns in OpenAgrar über die DNB-Schnittstelle holen, haben z.B. auch alle diese Umlaute.
      Ich habe hier z.T. mit Solr-Filtern nachbessern können, aber beim Personenindex fällt mir dies z.B. auf die Füße ...

      Es steht eine Funktion in MyCoRe zur Verfügung, die den Text korrekt normalisiert:

      org.mycore.common.xml.MCRXMLFunctions.normalizeUnicode(String)
      

      Es wäre gut, wenn sowohl Editor als auch XEditor die Daten damit normalisieren würden.

        Attachments

          Activity

            People

            • Assignee:
              mcrfluet Frank Lützenkirchen
              Reporter:
              mcrkrebs Kathleen Neumann
            • Votes:
              0 Vote for this issue
              Watchers:
              2 Start watching this issue

              Dates

              • Created:
                Updated:
                Resolved: