lucene => Analyse

Erstellen eines benutzerdefinierten Analysators

Die meisten Anpassungsanpassungen befinden sich in der createComponents Klasse, in der Tokenizer und TokenFilters definiert sind.

CharFilters können in der initReader Methode initReader werden.

Analyzer analyzer = new Analyzer() {
    @Override
    protected Reader initReader(String fieldName, Reader reader) {
        return new HTMLStripCharFilter(reader);
    }
       
    @Override
    protected TokenStreamComponents createComponents(String fieldName) {
        Tokenizer tokenizer = new StandardTokenizer();
        TokenStream stream = new StandardFilter(tokenizer);
        //Order matters!  If LowerCaseFilter and StopFilter were swapped here, StopFilter's
        //matching would be case sensitive, so "the" would be eliminated, but not "The"
        stream = new LowerCaseFilter(stream);
        stream = new StopFilter(stream, StopAnalyzer.ENGLISH_STOP_WORDS_SET);
        return new TokenStreamComponents(tokenizer, stream);
    }
};

Manuelle Iteration durch analysierte Token

TokenStream stream = myAnalyzer.tokenStream("myField", textToAnalyze);
stream.addAttribute(CharTermAttribute.class);
stream.reset();
while(stream.incrementToken()) {
    CharTermAttribute token = stream.getAttribute(CharTermAttribute.class);
    System.out.println(token.toString());
}

stream.close();

Eine Reihe von Attributen sind verfügbar. Am häufigsten ist CharTermAttribute , mit dem der analysierte Begriff als String CharTermAttribute wird.

Modified text is an extract of the original Stack Overflow Documentation

Lizenziert unter CC BY-SA 3.0

Nicht angeschlossen an Stack Overflow

lucene
Analyse

Suche…

Erstellen eines benutzerdefinierten Analysators

Manuelle Iteration durch analysierte Token