From f7666a7766c8138aa690340fc68cb67f709327f3 Mon Sep 17 00:00:00 2001
From: AndreaGuarracino
Date: Tue, 5 Jan 2021 17:35:46 +0100
Subject: cleaning genbank-fetch-ids.py

---
 workflows/pull-data/genbank/genbank-fetch-ids.py | 40 +++++++++++-------------
 1 file changed, 19 insertions(+), 21 deletions(-)

(limited to 'workflows/pull-data/genbank/genbank-fetch-ids.py')

diff --git a/workflows/pull-data/genbank/genbank-fetch-ids.py b/workflows/pull-data/genbank/genbank-fetch-ids.py
index 1962daa..cb48cd8 100755
--- a/workflows/pull-data/genbank/genbank-fetch-ids.py
+++ b/workflows/pull-data/genbank/genbank-fetch-ids.py
@@ -6,28 +6,20 @@
 #
 # See also directory .guix-run and README.md
 
-BATCH_SIZE=5000
-
 import argparse
-import json
-import os
-import requests
 import sys
-import xml.etree.ElementTree as ET
-from datetime import date, datetime
-from dateutil.parser import parse
+from datetime import date
+
+from Bio import Entrez
 
 parser = argparse.ArgumentParser()
 parser.add_argument('--max', type=int, help='Max queries', required=False)
 parser.add_argument('--skip', type=str, help='File with ids to skip, 1 id per line', required=False)
 args = parser.parse_args()
 
-from Bio import Entrez
-Entrez.email = 'another_email@gmail.com' # FIXME
-
-# min_acceptable_collection_date = datetime(2019, 12, 1)
+BATCH_SIZE = 5000
 
-today_date = date.today().strftime("%Y.%m.%d")
+Entrez.email = 'another_email@gmail.com'  # FIXME
 
 skip = set()
 if args.skip:
@@ -36,10 +28,11 @@ if args.skip:
         for line in content:
             skip.add(line.strip())
 
-print(f"Skip size is {len(skip)}",file=sys.stderr)
+print(f"Skip size is {len(skip)}", file=sys.stderr)
 
 # Try to search several strings
 TERMS = ['SARS-CoV-2', 'SARS-CoV2', 'SARS CoV2', 'SARSCoV2', 'txid2697049[Organism]']
+
 # Remove mRNAs, ncRNAs, Proteins, and predicted models (more information here: https://en.wikipedia.org/wiki/RefSeq) starting with
 PREFIX = ['NM', 'NR', 'NP', 'XM', 'XR', 'XP', 'WP']
 
@@ -47,22 +40,27 @@ ids = set()
 for term in TERMS:
     num_read = BATCH_SIZE
     retstart = 0
+
     while num_read == BATCH_SIZE:
         record = Entrez.read(
-            Entrez.esearch(db='nuccore', term=term, idtype='acc',
-                           retstart=retstart, retmax=BATCH_SIZE)
+            Entrez.esearch(db='nuccore', term=term, idtype='acc', retstart=retstart, retmax=BATCH_SIZE)
         )
+
         idlist = record['IdList']
         new_ids = set(idlist)
         num_read = len(new_ids)
-        print(num_read,":",idlist[0],file=sys.stderr)
         retstart += num_read
-        new_ids.difference_update(skip) # remove skip ids
+
+        print(num_read, ":", idlist[0], file=sys.stderr)
+
+        new_ids.difference_update(skip)  # remove skip ids
         new_ids = set([id for id in new_ids if id[:2] not in PREFIX])
-        ids.update(new_ids)             # add to total set
-        print(f"Term: {term} --> #{len(new_ids)} new IDs ---> Total unique IDs #{len(ids)})",file=sys.stderr)
+        ids.update(new_ids)  # add to total set
+
+        print(f"Term: {term} --> #{len(new_ids)} new IDs ---> Total unique IDs #{len(ids)}", file=sys.stderr)
+
         if args.max and len(ids) > args.max:
-            print(f"Stopping past #{args.max} items",file=sys.stderr)
+            print(f"Stopping past #{args.max} items", file=sys.stderr)
             break
 
 for id in ids:
-- 
cgit 1.4.1


From 911ba372cfc4b35c5b52d18a573a636ea78d16d7 Mon Sep 17 00:00:00 2001
From: AndreaGuarracino
Date: Tue, 5 Jan 2021 17:56:19 +0100
Subject: cleaning update-from-genbank.py; removed unused import from
 genbank-fetch-ids.py

---
 workflows/pull-data/genbank/genbank-fetch-ids.py   |  1 -
 workflows/pull-data/genbank/update-from-genbank.py | 25 +++++++++++-----------
 2 files changed, 13 insertions(+), 13 deletions(-)

(limited to 'workflows/pull-data/genbank/genbank-fetch-ids.py')

diff --git a/workflows/pull-data/genbank/genbank-fetch-ids.py b/workflows/pull-data/genbank/genbank-fetch-ids.py
index cb48cd8..e9e7315 100755
--- a/workflows/pull-data/genbank/genbank-fetch-ids.py
+++ b/workflows/pull-data/genbank/genbank-fetch-ids.py
@@ -8,7 +8,6 @@
 
 import argparse
 import sys
-from datetime import date
 
 from Bio import Entrez
 
diff --git a/workflows/pull-data/genbank/update-from-genbank.py b/workflows/pull-data/genbank/update-from-genbank.py
index dca5563..95f5a93 100755
--- a/workflows/pull-data/genbank/update-from-genbank.py
+++ b/workflows/pull-data/genbank/update-from-genbank.py
@@ -14,22 +14,21 @@ import sys
 from utils import chunks
 
 from Bio import Entrez
-Entrez.email = 'another_email@gmail.com' # FIXME
 
-BATCH=100
+Entrez.email = 'another_email@gmail.com'  # FIXME
+
+BATCH = 100
 
 parser = argparse.ArgumentParser()
-parser.add_argument('--max', type=int, help='Max queries', required=False)
 parser.add_argument('--ids', type=str, help='File with ids to fetch, 1 id per line', required=True)
 parser.add_argument('--out', type=str, help='Directory to write to', required=True)
+parser.add_argument('--max', type=int, help='Max queries', required=False)
 
 args = parser.parse_args()
 
 ids = set()
 with open(args.ids) as f:
-    content = f.readlines()
-    for line in content:
-        ids.add(line.strip())
+    ids.update([line.strip() for line in f])
 
 dir = args.out
 if not os.path.exists(dir):
@@ -37,12 +36,14 @@ if not os.path.exists(dir):
 
 request_num = BATCH
 if args.max:
-  request_num = min(BATCH,args.max)
+    request_num = min(BATCH, args.max)
+
+for num_chunk, ids_chunk in enumerate(chunks(list(ids), request_num)):
+    xmlfn = os.path.join(dir, f"metadata_{num_chunk}.xml.gz")
+    print(f"Fetching {xmlfn} ({num_chunk * request_num})", file=sys.stderr)
 
-for i, idsx in enumerate(chunks(list(ids), request_num)):
-    xmlfn = os.path.join(dir, f"metadata_{i}.xml.gz")
-    print(f"Fetching {xmlfn} ({i*request_num})",file=sys.stderr)
     with gzip.open(xmlfn, 'w') as f:
-        f.write((Entrez.efetch(db='nuccore', id=idsx, retmode='xml').read()).encode())
-    if args.max and i*request_num >= args.max:
+        f.write(Entrez.efetch(db='nuccore', id=ids_chunk, retmode='xml').read().encode())
+
+    if args.max and num_chunk * request_num >= args.max:
         break
-- 
cgit 1.4.1