Statisfaction

Cloud services useful for Stat researchers

Posted in Geek, General by Pierre Jacob on 21 July 2010

This post is not on statistics, but merely on a few tools that can be convenient for many researchers, in my opinion. At least some researchers here at CREST use them everyday! These tools belong to the cloud computing/service trend.

One thing that any people working on a computer is afraid of is losing his files. It’s probably the #1 nightmare of any PhD student. Many solutions make this nothing but a bad memory, a disaster from an Ancient time, like the Plagues of Egypt, the Behemoth or Claude François.

A good solution is to synchronize your files with a secure, reliable server on which you can count. For instance you can count on Google’s servers for not losing your documents, presumably (although you cannot count on them for not reading them but that’s a different story). So you can store your files on Google Docs (or a similar service) for instance. It’s free, but it gets painful if you have to do that every day. An interesting and very convenient solution is Dropbox. It consists of a little program that synchronizes the files of a given folder of your computer with servers provided by Dropbox Inc, a three years old startup. Their free offer allows you to store 2Gb, and of course you have to pay if you want more space. The good points are the following:

  • it works on Windows, Mac OS and Linux, and you don’t need the administrator privilege to install it on windows (therefore you can install it at CREST for instance),
  • if you have it on all your computers, your working directory gets synchronized seamlessly at startup; if you use to send emails to yourself or if you keep sync’ing your files on a USB key, you’ll definitely find it convenient,
  • you can share a sub-folder with other Dropbox users, which is convenient for a team project,
  • 2Gb is not a lot if you store pictures and music files, but it’s a lot of TeX and program files,
  • you can set a file “public”, and get an URL for it, which is really useful if you want to share a file that is too big to be sent by email.

Overall my (office) life has improved since I use it, but the big catch here is that your data is stored on a private company’s server, so you have to trust them at least to some extent. Since I don’t work on sensitive matters I don’t mind, but that can obviously be prohibitive.

Other startups provide equivalent offers, although I didn’t test them: box.net, Sugar Sync… I’m surprised that this kind of service is not proposed by the main Internet service providers (like Google or Yahoo), but maybe their generally bad reputation of not respecting their customers’ privacy would make it hard for them to propose such a service.

One step further in these cloud offers, and more focused on statistics, is the ability to launch stat programs online. Some startups propose this service as well, like Monkey Analytics. On this site you can store Matlab, R and Python programs and launch them on their servers. This way they provide both a storing and a computing service. You can then access the results online, even from a smartphone. There is no free offer, but a 30-day free trial. I suppose it’s interesting for travelling statisticians, or for statisticians who need a lot of computing power (though they don’t give a lot of information on their clusters). Then again, you have to trust the private company behind the service…

About these ads

4 Responses

Subscribe to comments with RSS.

  1. camille said, on 21 July 2010 at 18:54

    Hello,

    Avez-vous essayé Subversion (http://subversion.apache.org/) ? C’est le logiciel open-source qu’on utilise au labo et qui pour l’instant me semble toujours hautement génial. Contrairement à Dropbox, les fichiers partagés sont stockés sur le serveur privé du labo, donc pas de souci de sécurité. L’historique de toutes les versions est sauvegardé, donc ça permet toujours de revenir en arrière si besoin est. Les conflits sont très bien gérés. Grâce à l’accès à distance du serveur du labo, on peut aussi tout à fait mettre à jour nos copies perso ou la copie partagée de n’importe où. En ce moment je bosse sur un article depuis Agen pendant que mon chef travaille de Picardie sans souci. Combiné avec gchat, c’est plutôt efficace.

    C’est ce qu’on utilise pour travailler sur les codes R, sur les articles, … Bref, tous nos supports de travail sont là-dessus, et c’est vraiment pratique.

    Si ça vous intéresse…

    Bon été à tous, à Malakoff ou ailleurs

    • pierrejacob said, on 22 July 2010 at 03:25

      Hey coucou Camille !

      Subversion c’est bien, mais 1) il faut un serveur 2) c’est un logiciel de versioning donc ce n’est pas exactement concurrent. En passant, dans le genre versioning il y a Mercurial (hg) qui est vachement bien aussi et qui n’est pas fondé sur un système de client/serveur, donc c’est plus simple pour faire du versioning en local… mais c’est un autre sujet (très intéressant d’ailleurs, pas assez de gens utilisent ce genre de programmes pour faire du LaTeX alors que c’est génial, ça mériterait peut-être un autre post).

      Le versioning c’est mieux que dropbox pour travailler de manière collaborative sur du fichier texte, c’est clair, puisque tu peux fusionner facilement le travail de plusieurs personnes, laisser des indications sur les modifications que tu as faites, etc etc. En revanche, tu synchronises ton travail avec le serveur seulement quand tu le demandes (et heureusement). Pareil si tu changes d’ordi, il faut lancer une ligne pour télécharger les documents du serveur. Donc en terme de stockage, c’est comme le ftp ou tout transfert de fichier à distance. Sauf si tu fais un script pour synchroniser périodiquement mais c’est pas vraiment conseillé…

      Par contre dropbox propose une synchronisation gratuite par dossiers, et tu ne t’en rends même pas compte, vu que ça se lance au démarrage de ta machine. Pour avoir toujours accès à ses fichiers, même si t’as eu un plantage, même si ton ordi a rendu l’âme sans prévenir, même si t’as quitté le bureau en trombe, etc, je pense que c’est assez ultime. Quoiqu’il arrive, tant que tu es connecté à l’Internet, tes fichiers sont sauvés instantanément. En plus, il y a un système d’archivage qui fait que tu peux même récupérer des fichiers que tu as supprimés par erreur (dans la limite de l’espace disponible, à savoir 2 gigas pour l’offre gratuite).

      En l’occurrence au CREST comme tu t’en doutes, on n’a pas accès à un serveur svn rien que pour nous, donc on peut toujours utiliser google code ou autre, mais bon, dans ce cas on en revient au problème de la confidentialité… je crois qu’en revanche au CREST ils ont installé un logiciel de versioning made in Microdoux qui s’appelle sharepoint, mais bonjour l’interopérabilité…

  2. Julyan said, on 24 July 2010 at 00:15

    What’s the problem with Claude François?? Alexandrie? Alexandra?

  3. […] July 21st 2010, I blogged about cloud services that could be useful for stat’ researchers. Among a few services I […]


Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

Follow

Get every new post delivered to your Inbox.

Join 54 other followers

%d bloggers like this: