类 DocumentEmbeddingGenerator

java.lang.Object
top.aoyudi.rag.impl.DocumentEmbeddingGenerator
所有已实现的接口:
EmbeddingGenerator

public class DocumentEmbeddingGenerator extends Object implements EmbeddingGenerator
  • 字段详细资料

    • EMBEDDING_DIMENSION

      private static final int EMBEDDING_DIMENSION
      另请参阅:
    • WORD_PATTERN

      private static final Pattern WORD_PATTERN
    • TOP_K_WORDS

      private static final int TOP_K_WORDS
      另请参阅:
    • vocabulary

      private final Map<String,Integer> vocabulary
  • 构造器详细资料

    • DocumentEmbeddingGenerator

      public DocumentEmbeddingGenerator()
  • 方法详细资料

    • generate

      public float[] generate(String content)
      从接口复制的说明: EmbeddingGenerator
      将文本转换为向量表示
      指定者:
      generate 在接口中 EmbeddingGenerator
      参数:
      content - 输入文本
      返回:
      向量数组
    • preprocessText

      private List<String> preprocessText(String content)
      文本预处理:分词、小写转换、过滤
    • updateVocabulary

      private void updateVocabulary(List<String> words)
      更新词汇表,只保留高频词
    • generateEmbedding

      private float[] generateEmbedding(List<String> words)
      基于词频和词汇表生成嵌入向量
    • normalizeVector

      private void normalizeVector(float[] vector)
      归一化向量