Project

General

Profile

CRISPRCasFinder

"CRISPR-Cas++ standalone"https://crisprcas.i2bc.paris-saclay.fr/Home/Download

réunion 9 avril 24

CP, AM, CQ, CTN
comment gérer les prochaines maj
progremme ne bouge plus
dernieère maj : ~3j de calcul /cluster, récup de toutes les DB à chaque fois car les noms des génomes changent trop pour ne récupérer que les nouveaux.
site dev : accès CP pour checker pas trop d'erreur et qd ok, bacsule en prod

maj : génome (que les génomes complets, si souhait + tard, il faudrait créer une autre base, intérêt = listes de DR et spacer bcp + grandes) + taxonomie + liste des DR consensus + liste des spacer + liste des gènes CAS (+aa)
comme le prog est figé, en théorie les seuls changements proviennent de qq séquences de génomes qui auront changés (ajout de qq nt et/ou disparition des séquences)
parfois ncbi change aussi les url d'accès (donc il faut revoir les prog de pierre albert)
version figée du prog = 4.2.30 (cf. info sur la DB)

littérature : pas de grands bouleversements (qq définition de qq cas à la marge)
cas = définies par des profils hmm
dernière maj des cas faite avec PA (actuellement pas 100% à jour car qq nouveaux variants mais certains nouveaux variants ajoutaient des faux positifs : ok en hmm mais pas cas) => accès à un tableau de profil hmm (faux positifs car un génome avait 50 cas, ce qui n'est pas possible)

amélioration de présentation (ex. coli trop long) faire des fusions de tous les campilo + escherichia, ...

level = 1 à 4, 4ok sur le niveau de fiabilité de la structure du CRISPR (article 1 = bruit de fond ; 2 à 3 aller voir ; 4 = ok)

MacSyFinder => MacSyFinder2, 2022-06-01

Version du download 1.0.5
Version latest
En octobre 2023, c'est une v2x

(mails Bertrand Neron & Eduardo Rocha du 2023-10-13)

Macsyfinder-1.0.5 n'est plus et ne sera pas maintenu (vieux python)
Les modèles pour la version 1.0.5 de macsyfinder ne sont pas compatibles avec ceux pour la version 2 de macsyfinder (et vice versa).
Cpdt, les models V2 pour les CAS sont disponibles (merci marie) => cf package CasFinder
La ligne de commande n'a pas changée, par contre les résultats ont changé de forme (mais beaucoup plus facile a parser) : c'est cette partie qui va vous demander un peu de travail.

package CasFinder

(mail Marie Touchn du 2023-10-13)

La dernière version du package CasFinder est disponible ici : https://github.com/macsy-models/CasFinder

Si vous lisez le README, il vous explique
1) comment installer la nouvelle version de macsyfinder
2) comment installer CasFinder automatiquement à partir de macsyfinder via macsydata
3) la ligne de commande est beaucoup plus simple qu’avant si vous utilisez bien l’installation via macsydata. Ligne de commande également reportée dans le README. Vous n’avez plus besoin de faire un choix entre le typing, subtyping, etc
Les options qui se trouvent dans le fichier model_conf.xml ne doivent jamais être modifiées.
L’avantage de macsydata, c’est qu’il va downloader à chaque fois la dernière version disponible de CasFinder.
4) il faut utiliser ce package et ne pas tenter de convertir les anciennes définitions de la V1 vers la V2.

Enfin, dans votre cas les résultats sont dans le fichier de sortie : best_solution.tsv
Le nom du gène est la colonne 3 = gene_name
La prédiction du système est la colonne 6 = example ACAC001.0321.00002.C001_CAS_Class1-Subtype-I-G_1

Contrairement à la V1 : les systèmes peuvent se chevaucher (see mon précédent mail).

Je ne sais pas si David a rectifié sa version de CRISPRCasFinder mais il faudrait vérifier :
1) que suite à la détection des CDS il existe bien des CDS dans le fichier pour éviter de faire tourner macsyfinder sur un fichier vide! (Car il craque complètement dans ce cas).
2) vous devriez ajouter des tests pour vérifier que macsyfinder a bien terminé, car dans mon souvenir, ce n’est pas le cas. Du coup, lorsqu’il n’y a pas de fichier de sortie, par défaut, le programme déclare qu’il n y a pas de Cas gènes, alors qu’en fait, c’est juste parce qu’il y a eu des problèmes lors de l’exécution du programme.
3) il est fortement déconseillé d’utiliser cette version pour des métagénomes!