怎么使用NLTK庫簡化文本

使用NLTK庫簡化文本的方法包括：

分詞：使用NLTK庫的分詞功能可以將文本分割成單詞或短語，使得文本處理更加方便。

from nltk.tokenize import word_tokenize
text = "This is a sample sentence."
tokens = word_tokenize(text)
print(tokens)

去除停用詞：NLTK庫提供了停用詞列表，可以通過去除這些常見詞語來簡化文本。

from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
filtered_tokens = [word for word in tokens if word.lower() not in stop_words]
print(filtered_tokens)

詞形歸并：NLTK庫提供了詞形歸并器，可以將單詞還原成原型。

from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
lemmatized_tokens = [lemmatizer.lemmatize(word) for word in filtered_tokens]
print(lemmatized_tokens)

詞頻統計：NLTK庫提供了頻率分布類，可以用于統計文本中單詞的出現頻率。

from nltk import FreqDist
freq_dist = FreqDist(lemmatized_tokens)
print(freq_dist.most_common(5))

通過以上方法，可以使用NLTK庫簡化文本并進行文本處理分析。

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

最新問答

相關標簽