Modify KeywordField behavior

1. Use Lucene's KeywordField instead of custom Field type. 2. Use IndexOrDocValuesQuery for all MultiTermQueries. Signed-off-by: Michael Froh <froh@amazon.com>
msfroh · Aug 8, 2023 · abaa86f · abaa86f · harshavamsi · Oct 3, 2023
1 parent 2c33669
commit abaa86f
Show file tree

Hide file tree

Showing 5 changed files with 85 additions and 28 deletions.
diff --git a/server/src/main/java/org/opensearch/index/mapper/FlatObjectFieldMapper.java b/server/src/main/java/org/opensearch/index/mapper/FlatObjectFieldMapper.java
@@ -12,6 +12,7 @@
 import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
 import org.apache.lucene.document.Field;
 import org.apache.lucene.document.FieldType;
+import org.apache.lucene.document.KeywordField;
 import org.apache.lucene.document.SortedSetDocValuesField;
 import org.apache.lucene.index.IndexOptions;
 import org.apache.lucene.index.Term;
@@ -29,10 +30,10 @@
 import org.opensearch.common.collect.Iterators;
 import org.opensearch.common.lucene.Lucene;
 import org.opensearch.common.lucene.search.AutomatonQueries;
+import org.opensearch.common.xcontent.JsonToStringXContentParser;
 import org.opensearch.core.xcontent.DeprecationHandler;
 import org.opensearch.core.xcontent.NamedXContentRegistry;
 import org.opensearch.core.xcontent.XContentParser;
-import org.opensearch.common.xcontent.JsonToStringXContentParser;
 import org.opensearch.index.analysis.NamedAnalyzer;
 import org.opensearch.index.fielddata.IndexFieldData;
 import org.opensearch.index.fielddata.plain.SortedSetOrdinalsIndexFieldData;
@@ -116,7 +117,7 @@ private FlatObjectFieldType buildFlatObjectFieldType(BuilderContext context, Fie
 
         /**
          * ValueFieldMapper is the subfield type for values in the Json.
-         * use a {@link KeywordFieldMapper.KeywordField}
+         * use a {@link KeywordField}
          */
         private ValueFieldMapper buildValueFieldMapper(BuilderContext context, FieldType fieldType, FlatObjectFieldType fft) {
             String fullName = buildFullName(context);
@@ -129,7 +130,7 @@ private ValueFieldMapper buildValueFieldMapper(BuilderContext context, FieldType
 
         /**
          * ValueAndPathFieldMapper is the subfield type for path=value format in the Json.
-         * also use a {@link KeywordFieldMapper.KeywordField}
+         * also use a {@link KeywordField}
          */
         private ValueAndPathFieldMapper buildValueAndPathFieldMapper(BuilderContext context, FieldType fieldType, FlatObjectFieldType fft) {
             String fullName = buildFullName(context);
@@ -686,7 +687,7 @@ protected ValueAndPathFieldMapper(FieldType fieldType, KeywordFieldMapper.Keywor
         void addField(ParseContext context, String value) {
             final BytesRef binaryValue = new BytesRef(value);
             if (fieldType.indexOptions() != IndexOptions.NONE || fieldType.stored()) {
-                Field field = new KeywordFieldMapper.KeywordField(fieldType().name(), binaryValue, fieldType);
+                Field field = new KeywordField(fieldType().name(), binaryValue, fieldType.stored() ? Field.Store.YES : Field.Store.NO);
 
                 context.doc().add(field);
 
@@ -727,7 +728,7 @@ protected ValueFieldMapper(FieldType fieldType, KeywordFieldMapper.KeywordFieldT
         void addField(ParseContext context, String value) {
             final BytesRef binaryValue = new BytesRef(value);
             if (fieldType.indexOptions() != IndexOptions.NONE || fieldType.stored()) {
-                Field field = new KeywordFieldMapper.KeywordField(fieldType().name(), binaryValue, fieldType);
+                Field field = new KeywordField(fieldType().name(), binaryValue, fieldType.stored() ? Field.Store.YES : Field.Store.NO);
                 context.doc().add(field);
 
                 if (fieldType().hasDocValues() == false && fieldType.omitNorms()) {

diff --git a/server/src/main/java/org/opensearch/index/mapper/KeywordFieldMapper.java b/server/src/main/java/org/opensearch/index/mapper/KeywordFieldMapper.java
@@ -36,10 +36,13 @@
 import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
 import org.apache.lucene.document.Field;
 import org.apache.lucene.document.FieldType;
+import org.apache.lucene.document.KeywordField;
 import org.apache.lucene.document.SortedSetDocValuesField;
 import org.apache.lucene.index.IndexOptions;
+import org.apache.lucene.search.IndexOrDocValuesQuery;
 import org.apache.lucene.search.MultiTermQuery;
 import org.apache.lucene.search.Query;
+import org.apache.lucene.search.TermRangeQuery;
 import org.apache.lucene.util.BytesRef;
 import org.opensearch.common.Nullable;
 import org.opensearch.common.lucene.Lucene;
@@ -87,19 +90,6 @@ public static class Defaults {
         }
     }
 
-    /**
-     * The keyword field for the field mapper
-     *
-     * @opensearch.internal
-     */
-    public static class KeywordField extends Field {
-
-        public KeywordField(String field, BytesRef term, FieldType ft) {
-            super(field, term, ft);
-        }
-
-    }
-
     private static KeywordFieldMapper toType(FieldMapper in) {
         return (KeywordFieldMapper) in;
     }
@@ -258,7 +248,7 @@ public KeywordFieldType(String name, FieldType fieldType, NamedAnalyzer normaliz
                 name,
                 fieldType.indexOptions() != IndexOptions.NONE,
                 fieldType.stored(),
-                builder.hasDocValues.getValue(),
+                true, // Always has doc values
                 new TextSearchInfo(fieldType, builder.similarity.getValue(), searchAnalyzer, searchAnalyzer),
                 builder.meta.getValue()
             );
@@ -383,6 +373,71 @@ public Query wildcardQuery(
             // query text
             return super.wildcardQuery(value, method, caseInsensitve, true, context);
         }
+
+        @Override
+        public Query termsQuery(List<?> values, QueryShardContext context) {
+            failIfNotIndexed();
+            BytesRef[] bytesRefs = new BytesRef[values.size()];
+            for (int i = 0; i < bytesRefs.length; i++) {
+                bytesRefs[i] = indexedValueForSearch(values.get(i));
+            }
+            return KeywordField.newSetQuery(name(), bytesRefs);
+        }
+
+        @Override
+        public Query prefixQuery(String value, MultiTermQuery.RewriteMethod method, boolean caseInsensitive, QueryShardContext context) {
+            Query indexQuery = super.prefixQuery(value, method, caseInsensitive, context);
+            Query dvQuery = super.prefixQuery(value, MultiTermQuery.DOC_VALUES_REWRITE, caseInsensitive, context);
+            return new IndexOrDocValuesQuery(indexQuery, dvQuery);
+        }
+
+        @Override
+        public Query normalizedWildcardQuery(String value, MultiTermQuery.RewriteMethod method, QueryShardContext context) {
+            Query indexQuery = super.normalizedWildcardQuery(value, method, context);
+            Query dvQuery = super.normalizedWildcardQuery(value, MultiTermQuery.DOC_VALUES_REWRITE, context);
+            return new IndexOrDocValuesQuery(indexQuery, dvQuery);
+        }
+
+        @Override
+        public Query regexpQuery(
+            String value,
+            int syntaxFlags,
+            int matchFlags,
+            int maxDeterminizedStates,
+            MultiTermQuery.RewriteMethod method,
+            QueryShardContext context
+        ) {
+            Query indexQuery = super.regexpQuery(value, syntaxFlags, matchFlags, maxDeterminizedStates, method, context);
+            Query dvQuery = super.regexpQuery(
+                value,
+                syntaxFlags,
+                matchFlags,
+                maxDeterminizedStates,
+                MultiTermQuery.DOC_VALUES_REWRITE,
+                context
+            );
+            return new IndexOrDocValuesQuery(indexQuery, dvQuery);
+        }
+
+        @Override
+        public Query rangeQuery(Object lowerTerm, Object upperTerm, boolean includeLower, boolean includeUpper, QueryShardContext context) {
+            Query indexQuery = new TermRangeQuery(
+                name(),
+                lowerTerm == null ? null : indexedValueForSearch(lowerTerm),
+                upperTerm == null ? null : indexedValueForSearch(upperTerm),
+                includeLower,
+                includeUpper
+            );
+            Query dvQuery = new TermRangeQuery(
+                name(),
+                lowerTerm == null ? null : indexedValueForSearch(lowerTerm),
+                upperTerm == null ? null : indexedValueForSearch(upperTerm),
+                includeLower,
+                includeUpper,
+                MultiTermQuery.DOC_VALUES_REWRITE
+            );
+            return new IndexOrDocValuesQuery(indexQuery, dvQuery);
+        }
     }
 
     private final boolean indexed;
@@ -464,7 +519,7 @@ protected void parseCreateField(ParseContext context) throws IOException {
         // convert to utf8 only once before feeding postings/dv/stored fields
         final BytesRef binaryValue = new BytesRef(value);
         if (fieldType.indexOptions() != IndexOptions.NONE || fieldType.stored()) {
-            Field field = new KeywordField(fieldType().name(), binaryValue, fieldType);
+            Field field = new KeywordField(fieldType().name(), binaryValue, fieldType.stored() ? Field.Store.YES : Field.Store.NO);
             context.doc().add(field);
 
             if (fieldType().hasDocValues() == false && fieldType.omitNorms()) {

diff --git a/...rc/main/java/org/opensearch/search/suggest/completion/context/CategoryContextMapping.java b/...rc/main/java/org/opensearch/search/suggest/completion/context/CategoryContextMapping.java
@@ -32,6 +32,7 @@
 
 package org.opensearch.search.suggest.completion.context;
 
+import org.apache.lucene.document.KeywordField;
 import org.apache.lucene.document.SortedDocValuesField;
 import org.apache.lucene.document.SortedSetDocValuesField;
 import org.apache.lucene.document.StoredField;
@@ -41,7 +42,6 @@
 import org.opensearch.core.xcontent.XContentBuilder;
 import org.opensearch.core.xcontent.XContentParser;
 import org.opensearch.core.xcontent.XContentParser.Token;
-import org.opensearch.index.mapper.KeywordFieldMapper;
 import org.opensearch.index.mapper.ParseContext;
 import org.opensearch.index.mapper.ParseContext.Document;
 
@@ -156,7 +156,7 @@ public Set<String> parseContext(Document document) {
             for (IndexableField field : fields) {
                 if (field instanceof SortedDocValuesField || field instanceof SortedSetDocValuesField || field instanceof StoredField) {
                     // Ignore doc values and stored fields
-                } else if (field instanceof KeywordFieldMapper.KeywordField) {
+                } else if (field instanceof KeywordField) {
                     values.add(field.binaryValue().utf8ToString());
                 } else if (field.stringValue() != null) {
                     values.add(field.stringValue());

diff --git a/server/src/test/java/org/opensearch/index/mapper/FlatObjectFieldMapperTests.java b/server/src/test/java/org/opensearch/index/mapper/FlatObjectFieldMapperTests.java
@@ -8,6 +8,7 @@
 
 package org.opensearch.index.mapper;
 
+import org.apache.lucene.document.KeywordField;
 import org.apache.lucene.index.DocValuesType;
 import org.apache.lucene.index.IndexOptions;
 import org.apache.lucene.index.IndexableField;
@@ -16,10 +17,10 @@
 import org.apache.lucene.search.TermQuery;
 import org.apache.lucene.util.BytesRef;
 import org.opensearch.common.Strings;
-import org.opensearch.core.xcontent.ToXContent;
-import org.opensearch.core.xcontent.XContentBuilder;
 import org.opensearch.common.xcontent.XContentFactory;
 import org.opensearch.common.xcontent.json.JsonXContent;
+import org.opensearch.core.xcontent.ToXContent;
+import org.opensearch.core.xcontent.XContentBuilder;
 import org.opensearch.index.query.QueryShardContext;
 
 import java.io.IOException;
@@ -119,12 +120,12 @@ public void testDefaults() throws Exception {
         // Test internal substring fields as well
         IndexableField[] fieldValues = doc.rootDoc().getFields("field" + VALUE_SUFFIX);
         assertEquals(2, fieldValues.length);
-        assertTrue(fieldValues[0] instanceof KeywordFieldMapper.KeywordField);
+        assertTrue(fieldValues[0] instanceof KeywordField);
         assertEquals(new BytesRef("bar"), fieldValues[0].binaryValue());
 
         IndexableField[] fieldValueAndPaths = doc.rootDoc().getFields("field" + VALUE_AND_PATH_SUFFIX);
         assertEquals(2, fieldValues.length);
-        assertTrue(fieldValueAndPaths[0] instanceof KeywordFieldMapper.KeywordField);
+        assertTrue(fieldValueAndPaths[0] instanceof KeywordField);
         assertEquals(new BytesRef("field.foo=bar"), fieldValueAndPaths[0].binaryValue());
     }
 

diff --git a/...r/src/test/java/org/opensearch/search/suggest/completion/CategoryContextMappingTests.java b/...r/src/test/java/org/opensearch/search/suggest/completion/CategoryContextMappingTests.java
@@ -33,8 +33,8 @@
 package org.opensearch.search.suggest.completion;
 
 import org.apache.lucene.document.Field;
-import org.apache.lucene.document.FieldType;
 import org.apache.lucene.document.IntPoint;
+import org.apache.lucene.document.KeywordField;
 import org.apache.lucene.document.SortedDocValuesField;
 import org.apache.lucene.document.SortedSetDocValuesField;
 import org.apache.lucene.document.StoredField;
@@ -809,7 +809,7 @@ public void testParsingContextFromDocument() throws Exception {
         ParseContext.Document document = new ParseContext.Document();
 
         KeywordFieldMapper.KeywordFieldType keyword = new KeywordFieldMapper.KeywordFieldType("category");
-        document.add(new KeywordFieldMapper.KeywordField(keyword.name(), new BytesRef("category1"), new FieldType()));
+        document.add(new KeywordField(keyword.name(), new BytesRef("category1"), Field.Store.NO));
         // Ignore doc values
         document.add(new SortedSetDocValuesField(keyword.name(), new BytesRef("category1")));
         Set<String> context = mapping.parseContext(document);