NLTK庫提供了多種編碼器(tokenizer)和解碼器(detokenizer)來處理文本。以下是使用NLTK庫進行文本編碼的一般步驟:
pip install nltk
import nltk
nltk.download('all')
from nltk.tokenize import word_tokenize
text = "This is a sample sentence."
tokens = word_tokenize(text)
print(tokens)
from nltk.tokenize import word_tokenize
tokens = ['This', 'is', 'a', 'sample', 'sentence', '.']
text = ' '.join(tokens)
print(text)
通過以上步驟,您可以使用NLTK庫對文本進行編碼和解碼操作。您還可以嘗試其他NLTK提供的編碼器和解碼器,以獲取更多文本處理的功能。