要將HTML文件轉換為TXT文件,可以使用以下方法之一:
from bs4 import BeautifulSoup
# 打開HTML文件
with open('input.html', 'r') as file:
html_content = file.read()
# 解析HTML內容
soup = BeautifulSoup(html_content, 'html.parser')
# 提取純文本內容
text_content = soup.get_text()
# 將內容寫入TXT文件
with open('output.txt', 'w') as file:
file.write(text_content)
無論使用哪種方法,最終都會得到一個純文本的TXT文件,其中包含從HTML中提取出的內容。