textattack-nlp-transformer/textattack/shared/scripts/attack_args.py

import textattack

RECIPE_NAMES = {
    'alzantot':         'textattack.attack_recipes.Alzantot2018',
    'deepwordbug':      'textattack.attack_recipes.DeepWordBugGao2018',
    'hotflip':          'textattack.attack_recipes.HotFlipEbrahimi2017',
    'kuleshov':         'textattack.attack_recipes.Kuleshov2017',
    'seq2sick':         'textattack.attack_recipes.Seq2SickCheng2018BlackBox',
    'textbugger':       'textattack.attack_recipes.TextBuggerLi2018',
    'textfooler':       'textattack.attack_recipes.TextFoolerJin2019',
}

# AG News and MR are the last datasets self-hosted by textattack. Once they
# join `nlp`, we'll remove them from our hosting.
TEXTATTACK_MODEL_CLASS_NAMES = {
    #

    #
    # BERT models - default uncased
    'bert-base-uncased-ag-news':    'textattack.models.classification.bert.BERTForAGNewsClassification',
    'bert-base-uncased-mr':         'textattack.models.classification.bert.BERTForMRSentimentClassification',
    # CNN models
    'cnn-ag-news':                  'textattack.models.classification.cnn.WordCNNForAGNewsClassification',
    'cnn-mr':                       'textattack.models.classification.cnn.WordCNNForMRSentimentClassification',
    # LSTM models
    'lstm-ag-news':                 'textattack.models.classification.lstm.LSTMForAGNewsClassification',
    'lstm-mr':                      'textattack.models.classification.lstm.LSTMForMRSentimentClassification',
    #
    # Translation models
    #
    "t5-en2fr": "textattack.models.translation.t5.T5EnglishToFrench",
    "t5-en2de": "textattack.models.translation.t5.T5EnglishToGerman",
    "t5-en2ro": "textattack.models.translation.t5.T5EnglishToRomanian",
    #
    # Summarization models
    #
    "t5-summ": "textattack.models.summarization.T5Summarization",
    #
    # Translation datasets
    #
    "t5-en2de": textattack.datasets.translation.NewsTest2013EnglishToGerman,
}

DATASET_BY_MODEL = {
    # AG News
    'bert-base-uncased-ag-news':    textattack.datasets.classification.AGNews,
    'cnn-ag-news':                  textattack.datasets.classification.AGNews,
    'lstm-ag-news':                 textattack.datasets.classification.AGNews,
    # MR
    'bert-base-uncased-mr':         textattack.datasets.classification.MovieReviewSentiment,
    'cnn-mr':                       textattack.datasets.classification.MovieReviewSentiment,
    'lstm-mr':                      textattack.datasets.classification.MovieReviewSentiment,
}

HUGGINGFACE_DATASET_BY_MODEL = {
    #
    # bert-base-uncased
    #
    'bert-base-uncased-cola':       ('textattack/bert-base-uncased-CoLA',  ('glue', 'cola',  'validation')),
    'bert-base-uncased-mnli':       ('textattack/bert-base-uncased-MNLI',  ('glue', 'mnli',  'validation_matched', [1, 2, 0])),
    'bert-base-uncased-mrpc':       ('textattack/bert-base-uncased-MRPC',  ('glue', 'mrpc',  'validation')),
    'bert-base-uncased-qnli':       ('textattack/bert-base-uncased-QNLI',  ('glue', 'qnli',  'validation')),
    'bert-base-uncased-qqp':        ('textattack/bert-base-uncased-QQP',   ('glue', 'qqp',   'validation')),
    'bert-base-uncased-rte':        ('textattack/bert-base-uncased-RTE',   ('glue', 'rte',   'validation')),
    'bert-base-uncased-sst2':       ('textattack/bert-base-uncased-SST-2', ('glue', 'sst2', 'validation')),
    'bert-base-uncased-stsb':       ('textattack/bert-base-uncased-STS-B', ('glue', 'stsb', 'validation', None, 5.0)),
    'bert-base-uncased-wnli':       ('textattack/bert-base-uncased-WNLI',  ('glue', 'wnli',  'validation')),
    #
    # distilbert-base-cased
    #
    'distilbert-base-cased-cola':   ('textattack/distilbert-base-cased-CoLA',   ('glue', 'cola',  'validation')),
    'distilbert-base-cased-mrpc':   ('textattack/distilbert-base-cased-MRPC',   ('glue', 'mrpc',  'validation')),
    'distilbert-base-cased-qqp':    ('textattack/distilbert-base-cased-QQP',    ('glue', 'qqp',   'validation')),
    'distilbert-base-cased-sst2':   ('textattack/distilbert-base-cased-SST-2',  ('glue', 'sst2', 'validation')),
    'distilbert-base-cased-stsb':   ('textattack/distilbert-base-cased-STS-B',  ('glue', 'stsb', 'validation', None, 5.0)),
    #
    # distilbert-base-uncased
    #
    'distilbert-base-uncased-mnli':  ('textattack/distilbert-base-uncased-MNLI',  ('glue', 'mnli',  'validation_matched', [1, 2, 0])),
    'distilbert-base-uncased-mrpc':  ('textattack/distilbert-base-uncased-MRPC',  ('glue', 'mrpc',  'validation')),
    'distilbert-base-uncased-qnli':  ('textattack/distilbert-base-uncased-QNLI',  ('glue', 'qnli',  'validation')),
    'distilbert-base-uncased-qqp':   ('textattack/distilbert-base-uncased-QQP',   ('glue', 'qqp',   'validation')),
    'distilbert-base-uncased-rte':   ('textattack/distilbert-base-uncased-RTE',   ('glue', 'rte',   'validation')),
    'distilbert-base-uncased-sst2':  ('textattack/distilbert-base-uncased-SST-2', ('glue', 'sst2',  'validation')),
    'distilbert-base-uncased-stsb':  ('textattack/distilbert-base-uncased-STS-B', ('glue', 'stsb',  'validation', None, 5.0)),
    'distilbert-base-uncased-wnli':  ('textattack/distilbert-base-uncased-WNLI',  ('glue', 'wnli',  'validation')),
    #
    # roberta-base (RoBERTa is cased by default)
    #
    'roberta-base-cola':             ('textattack/roberta-base-CoLA',  ('glue', 'cola',  'validation')),
    'roberta-base-mrpc':             ('textattack/roberta-base-MRPC',  ('glue', 'mrpc',  'validation')),
    'roberta-base-qnli':             ('textattack/roberta-base-QNLI',  ('glue', 'qnli',  'validation')),
    'roberta-base-rte':              ('textattack/roberta-base-RTE',   ('glue', 'rte',   'validation')),
    'roberta-base-sst2':             ('textattack/roberta-base-SST-2', ('glue', 'sst2', 'validation')),
    'roberta-base-stsb':             ('textattack/roberta-base-STS-B', ('glue', 'stsb', 'validation', None, 5.0)),
    'roberta-base-wnli':             ('textattack/roberta-base-WNLI',  ('glue', 'wnli',  'validation')),
}

TEXTATTACK_DATASET_BY_MODEL = {
    #
    # CNNs
    #
    'lstm-sst':                     ('models/classification/lstm/sst', ('glue', 'sst2', 'validation')),
    'lstm-yelp-sentiment':          ('models/classification/lstm/yelp_polarity', ('yelp_polarity', None, 'test')),
    'lstm-imdb':                    ('models/classification/lstm/imdb', ('imdb', None, 'test')),
    #
    # LSTMs
    #
    'cnn-sst':                      ('models/classification/cnn/sst', ('glue', 'sst2', 'validation')),
    'cnn-imdb':                     ('models/classification/cnn/imdb', ('imdb', None, 'test')),
    'cnn-yelp-sentiment':           ('models/classification/cnn/yelp_polarity', ('yelp', None, 'test')),
    #
    # Textual entailment models
    #
    # BERT models
    'bert-base-uncased-snli':        ('snli', None,  'test'),
    #
    # Text classification models
    #
    'bert-base-cased-imdb':         ('models/classification/bert/imdb-cased',   ('imdb', None, 'test')),
    'bert-base-uncased-imdb':       ('models/classification/bert/imdb-uncased', ('imdb', None, 'test')),
    'bert-base-cased-yelp':         ('models/classification/bert/yelp-cased',   ('yelp', None, 'test')),
    'bert-base-uncased-yelp':       ('models/classification/bert/yelp-uncased', ('yelp', None, 'test')),
    #
    # Translation models
    # TODO add proper datasets
    #
    # Summarization models
    #
    #'t5-summ':                      'textattack.models.summarization.T5Summarization',
}

BLACK_BOX_TRANSFORMATION_CLASS_NAMES = {
    'word-swap-embedding':                  'textattack.transformations.WordSwapEmbedding',
    'word-swap-homoglyph':                  'textattack.transformations.WordSwapHomoglyphSwap',
    'word-swap-neighboring-char-swap':      'textattack.transformations.WordSwapNeighboringCharacterSwap',
    'word-swap-random-char-deletion':       'textattack.transformations.WordSwapRandomCharacterDeletion',
    'word-swap-random-char-insertion':      'textattack.transformations.WordSwapRandomCharacterInsertion',
    'word-swap-random-char-substitution':   'textattack.transformations.WordSwapRandomCharacterSubstitution',
    'word-swap-wordnet':                    'textattack.transformations.WordSwapWordNet',
}

WHITE_BOX_TRANSFORMATION_CLASS_NAMES = {
    'word-swap-gradient':                   'textattack.transformations.WordSwapGradientBased'
}

CONSTRAINT_CLASS_NAMES = {
    #
    # Semantics constraints
    #
    'embedding':        'textattack.constraints.semantics.WordEmbeddingDistance',
    'bert':             'textattack.constraints.semantics.sentence_encoders.BERT',
    'infer-sent':       'textattack.constraints.semantics.sentence_encoders.InferSent',
    'thought-vector':   'textattack.constraints.semantics.sentence_encoders.ThoughtVector',
    'use':              'textattack.constraints.semantics.sentence_encoders.UniversalSentenceEncoder',
    #
    # Grammaticality constraints
    #
    'lang-tool':        'textattack.constraints.grammaticality.LanguageTool',
    'part-of-speech':   'textattack.constraints.grammaticality.PartOfSpeech',
    'goog-lm':          'textattack.constraints.grammaticality.language_models.GoogleLanguageModel',
    'gpt2':             'textattack.constraints.grammaticality.language_models.GPT2',
    #
    # Overlap constraints
    #
    'bleu':                 'textattack.constraints.overlap.BLEU',
    'chrf':                 'textattack.constraints.overlap.chrF',
    'edit-distance':        'textattack.constraints.overlap.LevenshteinEditDistance',
    'meteor':               'textattack.constraints.overlap.METEOR',
    'max-words-perturbed':  'textattack.constraints.overlap.MaxWordsPerturbed',
    #
    # Pre-transformation constraints
    #
    'repeat':           'textattack.constraints.pre_transformation.RepeatModification',
    'stopword':         'textattack.constraints.pre_transformation.StopwordModification',
}

SEARCH_CLASS_NAMES = {
    'beam-search':      'textattack.search_methods.BeamSearch',
    'greedy':           'textattack.search_methods.GreedySearch',
    'ga-word':          'textattack.search_methods.GeneticAlgorithm',
    'greedy-word-wir':  'textattack.search_methods.GreedyWordSwapWIR',
}

GOAL_FUNCTION_CLASS_NAMES = {
    'non-overlapping-output':     'textattack.goal_functions.NonOverlappingOutput',
    'targeted-classification':    'textattack.goal_functions.TargetedClassification',
    'untargeted-classification':  'textattack.goal_functions.UntargetedClassification',
}