2023-09-29 16:05:39 +03:00
2023-09-29 13:43:14 +03:00
2022-11-22 15:11:12 +03:00
2022-11-22 15:11:12 +03:00
2023-09-29 16:05:39 +03:00

Table of contents

  1. Introduction
  2. Main results
  3. Using TurkishBERTweet with transformers
  4. Citation

TurkishBERTweet in the shadow of Large Language Models

Main Results

alt text

Models

Model #params Arch. Max length Pre-training data
VRLLab/TurkishBERTweet 163M base 128 894M Turkish Tweets (uncased)

Example usage

Twitter Preprocessor

from Preprocessor import preprocess

text = """Lab'ımıza "viral" adını verdik çünkü amacımız disiplinler arası sınırları aşmak ve aralarında yeni bağlantılar kurmak! 🔬 #ViralLab
https://varollab.com/"""

preprocessed_text = preprocess(text)
print(preprocessed_text)

Output:

lab'ımıza "viral" adını verdik çünkü amacımız disiplinler arası sınırları aşmak ve aralarında yeni bağlantılar kurmak! <emoji> mikroskop </emoji> <hashtag> virallab </hashtag> <http> varollab.com </http>

Feature Extraction

import torch
from transformers import AutoTokenizer
from Preprocessor import preprocess

tokenizer = AutoTokenizer.from_pretrained("VRLLab/TurkishBERTweet")
turkishBERTweet = AutoModel.from_pretrained("VRLLab/TurkishBERTweet")

text = """Lab'ımıza "viral" adını verdik çünkü amacımız disiplinler arası sınırları aşmak ve aralarında yeni bağlantılar kurmak! 💥🔬 #ViralLab #DisiplinlerArası #YenilikçiBağlantılar"""

preprocessed_text = preprocess(text)
input_ids = torch.tensor([tokenizer.encode(preprocessed_text)])

with torch.no_grad():
    features = turkishBERTweet(input_ids)  # Models outputs are now tuples

Citation

@article{najafi2022TurkishBERTweet,
    title={TurkishBERTweet in the shadow of Large Language Models},
    author={Najafi, Ali and Varol, Onur},
    journal={arXiv preprint },
    year={2023}
}

Acknowledgments

We thank Fatih Amasyali for providing access to Tweet Sentiment datasets from Kemik group. This material is based upon work supported by the Google Cloud Research Credits program with the award GCP19980904. We also thank TUBITAK (121C220 and 222N311) for funding this project.

Description
TurkishBERTweet: Fast and Reliable Large Language Model for Social Media Analysis
Readme MIT 331 KiB
Languages
Python 100%