亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

如何用R語言XML包獲得html文件中的表格

發布時間:2021-07-10 14:35:19 來源:億速云 閱讀:244 作者:chen 欄目:大數據

本篇內容主要講解“如何用R語言XML包獲得html文件中的表格”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“如何用R語言XML包獲得html文件中的表格”吧!

 需求

使用snpEff軟件對vcf格式文件進行注釋后會生成一個snpEff_summary.html;這個文件是對vcf格式文件中的內容進行的統計,結果會以表格和圖片的形式在html文件里展示。我現在想把html中的數據提取出來,自己來做圖。

 參考文章
  • https://stackoverflow.com/questions/14517732/how-to-get-table-data-from-html-table-in-xml
    How to get table data from html table in xml

 使用R語言的 XML包

使用到的R語言代碼

library(XML)
doc<-htmlParse("snpEff_summary.html")
total_table<-getNodeSet(doc,"//table")

# 以上代碼是固定的寫法
# 下面的代碼想獲得第幾個表格,中括號中的數字就改成幾

df3<-readHTMLTable(total_table[[3]])
df3
class(df3)
 


  • 結果以數據框的形式存儲


 以上功能使用python的BeautifulSoup模塊應該也可以實現,如果有時間回頭看一下自己之前寫的利用python的BeautifulSoup模塊抓取火箭當家球星哈登數據的那篇筆記,爭取利用python的BeautifulSoup模塊也來實現一下本文提到的這個需求。
 另外vcftools工具只保留vcf文件中的二等位基因
vcftools --vcf input.vcf --min-alleles 2 --max-alleles 2 --recode --recode-INFO-all --out output_vcf_prefix
 


  • vcftools的幫助文檔



 --min-alleles <integer>
 --max-alleles <integer>
Include only sites with a number of alleles greater than or equal to the "--min-alleles" value and less than or equal to  the  "--max-alleles" value. One of these options may be used without the other.
For example, to include only bi-allelic sites, one could use:
vcftools --vcf file1.vcf --min-alleles 2 --max-alleles 2




到此,相信大家對“如何用R語言XML包獲得html文件中的表格”有了更深的了解,不妨來實際操作一番吧!這里是億速云網站,更多相關內容可以進入相關頻道進行查詢,關注我們,繼續學習!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

香港| 定西市| 曲阜市| 南昌市| 定陶县| 黄山市| 隆安县| 井研县| 名山县| 扬州市| 新竹县| 玉环县| 西宁市| 黎川县| 贡嘎县| 界首市| 金川县| 乐都县| 曲阳县| 句容市| 邹平县| 惠东县| 青铜峡市| 台东县| 平乡县| 建瓯市| 福鼎市| 柞水县| 咸阳市| 南丹县| 泗洪县| 邯郸县| 梓潼县| 宁都县| 碌曲县| 望城县| 赤城县| 洪湖市| 隆林| 建宁县| 织金县|