StyledLines/cpp-docs/sampling-base_8h_source.html

#pragma once

#include <random>

#include <string>

#include <unordered_map>

#include <vector>


// sampler types


enum class llama_sampler_type : char {

    TOP_K       = 'k',

    TOP_P       = 'p',

    MIN_P       = 'm',

    TFS_Z       = 'f',

    TYPICAL_P   = 'y',

    TEMPERATURE = 't'

};


// sampling parameters


typedef struct llama_sampling_params {

    int32_t     n_prev                = 64;                 // number of previous tokens to remember

    int32_t     n_probs               = 0;                  // if greater than 0, output the probabilities of top n_probs tokens.

    int32_t     min_keep              = 0;                  // 0 = disabled, otherwise samplers should return at least min_keep tokens

    int32_t     top_k                 = 40;                 // <= 0 to use vocab size

    float       top_p                 = 0.95f;              // 1.0 = disabled

    float       min_p                 = 0.05f;              // 0.0 = disabled

    float       tfs_z                 = 1.00f;              // 1.0 = disabled

    float       typical_p             = 1.00f;              // 1.0 = disabled

    float       temp                  = 0.80f;              // <= 0.0 to sample greedily, 0.0 to not output probabilities

    float       dynatemp_range        = 0.00f;              // 0.0 = disabled

    float       dynatemp_exponent     = 1.00f;              // controls how entropy maps to temperature in dynamic temperature sampler

    int32_t     penalty_last_n        = 64;                 // last n tokens to penalize (0 = disable penalty, -1 = context size)

    float       penalty_repeat        = 1.00f;              // 1.0 = disabled

    float       penalty_freq          = 0.00f;              // 0.0 = disabled

    float       penalty_present       = 0.00f;              // 0.0 = disabled

    int32_t     mirostat              = 0;                  // 0 = disabled, 1 = mirostat, 2 = mirostat 2.0

    float       mirostat_tau          = 5.00f;              // target entropy

    float       mirostat_eta          = 0.10f;              // learning rate

    bool        penalize_nl           = false;              // consider newlines as a repeatable token

    uint32_t    seed                  = LLAMA_DEFAULT_SEED; // the seed used to initialize llama_sampling_context


    std::vector<llama_sampler_type> samplers_sequence = {

        llama_sampler_type::TOP_K,

        llama_sampler_type::TFS_Z,

        llama_sampler_type::TYPICAL_P,

        llama_sampler_type::TOP_P,

        llama_sampler_type::MIN_P,

        llama_sampler_type::TEMPERATURE

    };


    std::string grammar;  // optional BNF-like grammar to constrain sampling


    // Classifier-Free Guidance

    // https://arxiv.org/abs/2306.17806

    std::string cfg_negative_prompt; // string to help guidance

    float       cfg_scale     = 1.f; // how strong is guidance


    std::unordered_map<llama_token, float> logit_bias; // logit bias for specific tokens


    std::vector<llama_token> penalty_prompt_tokens;

    bool                     use_penalty_prompt_tokens = false;

} llama_sampling_params;


llama_sampler_type
llama_sampler_type
Definition sampling-base.h:8

llama_sampler_type::TFS_Z
@ TFS_Z

llama_sampler_type::MIN_P
@ MIN_P

llama_sampler_type::TYPICAL_P
@ TYPICAL_P

llama_sampler_type::TOP_K
@ TOP_K

llama_sampler_type::TEMPERATURE
@ TEMPERATURE

llama_sampler_type::TOP_P
@ TOP_P

llama_sampling_params
struct llama_sampling_params llama_sampling_params

llama_sampling_params
Definition sampling-base.h:18

llama_sampling_params::penalty_repeat
float penalty_repeat
Definition sampling-base.h:31

llama_sampling_params::penalty_present
float penalty_present
Definition sampling-base.h:33

llama_sampling_params::use_penalty_prompt_tokens
bool use_penalty_prompt_tokens
Definition sampling-base.h:59

llama_sampling_params::min_p
float min_p
Definition sampling-base.h:24

llama_sampling_params::penalty_last_n
int32_t penalty_last_n
Definition sampling-base.h:30

llama_sampling_params::cfg_negative_prompt
std::string cfg_negative_prompt
Definition sampling-base.h:53

llama_sampling_params::penalty_freq
float penalty_freq
Definition sampling-base.h:32

llama_sampling_params::n_prev
int32_t n_prev
Definition sampling-base.h:19

llama_sampling_params::top_p
float top_p
Definition sampling-base.h:23

llama_sampling_params::seed
uint32_t seed
Definition sampling-base.h:38

llama_sampling_params::tfs_z
float tfs_z
Definition sampling-base.h:25

llama_sampling_params::penalty_prompt_tokens
std::vector< llama_token > penalty_prompt_tokens
Definition sampling-base.h:58

llama_sampling_params::grammar
std::string grammar
Definition sampling-base.h:49

llama_sampling_params::min_keep
int32_t min_keep
Definition sampling-base.h:21

llama_sampling_params::mirostat
int32_t mirostat
Definition sampling-base.h:34

llama_sampling_params::samplers_sequence
std::vector< llama_sampler_type > samplers_sequence
Definition sampling-base.h:40

llama_sampling_params::logit_bias
std::unordered_map< llama_token, float > logit_bias
Definition sampling-base.h:56

llama_sampling_params::temp
float temp
Definition sampling-base.h:27

llama_sampling_params::top_k
int32_t top_k
Definition sampling-base.h:22

llama_sampling_params::typical_p
float typical_p
Definition sampling-base.h:26

llama_sampling_params::n_probs
int32_t n_probs
Definition sampling-base.h:20

llama_sampling_params::dynatemp_range
float dynatemp_range
Definition sampling-base.h:28

llama_sampling_params::mirostat_eta
float mirostat_eta
Definition sampling-base.h:36

llama_sampling_params::mirostat_tau
float mirostat_tau
Definition sampling-base.h:35

llama_sampling_params::penalize_nl
bool penalize_nl
Definition sampling-base.h:37

llama_sampling_params::cfg_scale
float cfg_scale
Definition sampling-base.h:54

llama_sampling_params::dynatemp_exponent
float dynatemp_exponent
Definition sampling-base.h:29