生物信息學

針對對生物信息學感興趣的研究人員,開發人員,學生,教師和最終用戶的問答


0
在WGCNA中加快網絡創建
我正在遵循WGCNA網站上的tutorials來創建共表達網絡。花費的時間太長了。有沒有辦法加快執行速度?我需要做的就是創建共表達圖。然後,我將導出到Python並在那裡進行分析。特別地,步驟 計算模塊特徵基因 花費大量時間。我...
 

0
對一組患者中的一組VCF進行功能分析的最佳實踐
我很困惑如何在變種患者群體之後進行功能分析。我已經註釋了所有vcfs並對其進行過濾,以便僅獲取那些有害的變體。我正在考慮合併這些vcf:我試圖將它們與bcftools merge以及VariantAnnotation合併,並將每個樣本vcf轉換為包含變量...
 

0
獨立Blast +;自動搜索,Blastn格式,解釋
我正在努力使用NCBI的獨立爆炸功能,尤其是爆炸功能。我想使用blastn識別大量核苷酸序列。目標是從blast程序中檢索信息,並最終將該信息導入excel。我想知道格式化輸出的功能或最簡單的方法。我正在對NCBI的核苷酸數據庫進行...
  

0
由於Tabix無法產生.tbi文件,VCF合併失敗
我正在嘗試使用vcf-merge組合2個外顯子組捕獲vcf文件(大小分別為〜250K和〜330K),然後再對所有96個樣本進行嘗試。我會很樂意為您提供最好的建議!我在下面詳細說明了我嘗試過的內容。我的問題似乎是使用tabix將文件轉換為.t...
    

0
您是否應該過濾標準誤較高的GWAS匹配?
我正在嘗試確定是否應該過濾掉具有高標準錯誤的GWAS匹配,並且我不確定該怎麼做。似乎沒關係,因為標準誤差用於計算t統計量,然後用於計算p值。因此,它已經以某種方式內置。但是,報告具有很高標準誤的SNP似乎不太正確...
   

2
從FASTQ中提取由位置確定的特定部分
鑑於FASTQ文件,我想生成一個新的FASTQ文件,該文件僅包含由其位置指定的原始序列的某些小節。例如,假設我要從每個序列中提取 1、3、5-7 處的核苷酸:輸入:@id1 AACCGGTCC + 123456789 @id2 TACCGGCCC + 123456789 輸出:@id1 ACGGT + 13567 @id2 T...
  

3
定量性狀分析中的誇大p值
我正在一個基因的表達與約40萬個甲基化值之間進行定量性狀關聯。首先,兩個變量都是秩逆正態變換的,針對混合效應模型中的混雜因素(技術和家庭結構)進行了調整,我們使用殘差進行關聯。然後,我們在表達的殘差和每...
     

1
如何將密碼子坐標轉換為基因組位置?
我正在尋找IGV中的給定突變,該突變接受形式為的坐標chr<X>:<Y> 其中X是染色體編號,Y是該染色體的基本位置。例如。chr6:26091179具有以下屬性:Gene: HFE|LOC108783645 Marker: rs1799945 Position: chr6:26091179 此外,可以將間隔寫為chr&l...
    

1
從Pymol輸出易碎的HBonds清單
X是從Main Stack Overflow發布的,因為這裡的人們可能更熟悉PyMol(?)我一直在嘗試評估我要使用Pymol突變的界面的強度。我感興趣的是具有指定接口的聯繫人列表(我使用PyMol Wiki腳本庫中的InterfaceResidues.py腳本進行了計算)。我...
     

2
將多個序列分成不同的文件,每個文件一個序列
我有一個包含多個序列的文件,並且我想用 gene: 將它們分開到另一個文件中。示例: example.fa >KQK21959 ATGGTGCTCGACCCCGTCGTCGGGGGCTCGGCCTCCCGCAAGGTCGAGCCCCTAACCCTA >KQK14546 ATGCCTCCGCCGGACGCGGCCACCTACGCTCCCACGCTGCCAATGGCGACGTACCTCCCA 如何獲得這樣的結...
   

0
本地BLAST錯誤:BLAST數據庫錯誤:錯誤:不是有效的版本4數據庫
我想使用本地blastn命令使用以下命令對多fasta文件〜700序列進行BLAST處理:blastn -db nt -query fasta_all.fasta -num_alignments 2 -out fasta_blasted.txt,但收到錯誤消息:BLAST Database error: Error: Not a valid version 4 database. 我使用了今天(2020年5月11日...
   

2
生物複製品是否應該是RNAseq實驗中最相似的對?
附圖(來自deseq2)顯示了在4個條件(A,B,C,D)的2個時間點(0h,4h)進行2次生物學重複的RNAseq實驗的樣品到樣品的距離。我有點困惑,生物複製品並不總是最相似的。在一個完美的世界中,生物學複製品應該是相同的,但我...
  

2
umap和Louvain聚類在標準化數據上
我知道縮放數據必須用於例如PCA,因為它基於方差最大化。但是我想知道UMAP是否也是這種情況?如果數據是單細胞RNA序列,在歸一化之後,我們可以進行UMAP和Louvain聚類嗎?我都嘗試了這兩種方法,並獲得了相似的結果,但是Lou...
  

-1
安裝R軟件包時永久性錯誤
我要安裝NNLM install_github('linxihui/NNLM') lang: error: unsupported option '-fopenmp' make: *** [RcppExports.o] Error 1 ERROR: compilation failed for package ‘NNLM’ * removing ‘/Library/Frameworks/R.framework/Versions/3.6/Resources/library/NNLM’ Error: Failed to install 'NNLM' from Gi...
   

2
如何從multifasta文件中刪除包含2 X以上的序列讀取?
我在一個multifasta文件中有5000個蛋白質序列。我發現更多的閱讀在閱讀中有X的缺口。因此,要從文件中完全消除那些讀取(整個蛋白質序列)。我保持過濾條件,好像讀取的內容超過2 X(連續讀取或讀取的任何地方)應刪除一樣...
   

3
將自定義距離矩陣傳遞給T_Coffee
根據文檔,我試圖將自定義距離矩陣傳遞給T_Coffee,但似乎無法使其正常工作。文檔說使用BLAST格式傳遞這樣的矩陣https://tcoffee.readthedocs.io/en/latest/tcoffee_technical_documentation.html#blast-format-recommended # BLAST_MATRIX FORMAT # ALPHABET=AGCT A G C T ...
 

0
過濾VEP註釋文件
我正在過濾帶有VEP註釋的vcf,試圖僅維護那些被SIFT分類為有害的變量以及被PolyPhen分類為有害(可能包括)的變量。我正在使用:filter_vep -i $input -o $output -filter SIFT = deleterious and PolyPhen match damaging 我也嘗試過:filter_vep -i $input -o...
  

2
從BOLD下載所有COI序列失敗
我有來自大量動物樣品(包括節肢動物,線蟲,無性綱動物,軟體動物)的元條形碼序列數據(COI),我想對所有這些序列進行BLAST處理。我使用以下命令來執行此操作:blastn -remote -db nt -query COI_all.fasta -num_alignments 2 -out COI_blaste...
   

1
將基因ID映射到蛋白質結構(如果存在)
我想將一些基因ID映射到它們的蛋白質結構(如果存在)。這些基因是此CSV的行。還有其他信息可能也有幫助,例如產品說明,但可能導致歧義。我正在尋找一種編程方式,biopython還是pdb API?...
  

Next page