Für meinen Anwendungsfall, vorhandene Issue Einträge zu vergleichen, will ich nun auf eine in Memory Lösung wechseln. Da das wesentlich komplexer ist, trenne ich die Blogartikel und fokussiere mich auf das Tokenize des Textes. Das ist der Vorgang der ein Dokument, Satz und sogar Wort so zerlegt das ...
[Mehr]