Bonjour Olivier,
C'est la problématique "big data" : peut-on trouver des corrélations entre des évènements ?
Pour les données, la ville de Paris a décidé de mettre en ligne de façon publique des jeu de données :
http://opendata.paris.fr/page/lademarche/
Paris Open Data a donc publié un jeu de données en mai 2014 qui s'appelle "accidentologie"
et qui répertorie les accidents à Paris en 2013 et 2013 :
http://opendata.paris.fr/explore/dataset/accidentologie/?tab=metas
Pour la petite histoire, quand j'ai vu ce jeu de données, je me suis dit :
Ça serait intéressant de voir ce qui concerne les vélos...
Puis après avoir extrait les données concernant les vélos, je me suis dit : ça serait intéressant de géolocaliser ces accidents.
Après, on se pose des questions :
Quelle est la répartition des accidents selon les arrondissements ? selon les mois ?
selon les jours ? selon les tranches horaires ?
Et donc, comme je suis un peu geek, j'ai réalisé cette petite application que je viens de mettre en ligne.
L'idée est donc d'essayer de trouver si possible une corrélation entre ces accidents.
Que peut-on en conclure ?
J'en sais trop rien mais si tu "joues" avec l'application, on voit que
- les arrondissements 75011 et 75012 ont plus d'accidents que les autres,
- qu'il y a de nombreux accidents entre 15h et 21h,
- qu'il y a beaucoup d'accidents de vélo à Paris au mois de septembre.
Maintenant, si des personnes ont d'autres idées pour trouver des corrélations je suis preneur...
Par exemple, on pourrait lier ce jeu de données à des statistiques d'utilisation de vélib (vélo libre service à Paris)
et voir si on peut en conclure certaines choses...
Philippe
- Abeillaud a écrit:
- Salut Philippe ! Quel but poursuit-on avec ces données ?
L'échantillon est-il représentatif ? Quelle est la méthodologie de récolte des données ?
Quelles sont les hypothèses, les pistes de travail ou les conclusions à tirer ?