


Chaque fois qu'un scientifique mène une expérience, ou qu'un spécialiste des sciences sociales fait une enquête, ou qu'un chercheur en sciences humaines analyse un texte, ils génèrent des données. La science repose sur des données. Sans elles, nous n'aurions pas le télescope spatial James Webb. des images époustouflantesprévention des maladies vaccins ou un arbre évolutif qui retrace les lignées de toute vie.
Cette bourse génère une quantité inimaginable de données. Alors, comment les chercheurs peuvent-ils en assurer le suivi ? Et comment s'assurent-ils qu'il est accessible à la fois aux humains et aux machines ?
Pour améliorer et faire progresser la science, les scientifiques doivent pouvoir reproduire les données des autres ou combiner des données provenant de plusieurs sources pour apprendre quelque chose de nouveau.
Tout type de partage nécessite une gestion. Si votre voisin a besoin d'emprunter un outil ou un ingrédient, vous devez savoir si vous l'avez et où vous le rangez. Les données de recherche peuvent se trouver sur l'ordinateur portable d'un étudiant diplômé, enfouies dans la collection USB d'un professeur ou enregistrées de manière plus permanente dans un référentiel de données en ligne.
je suis un informaticien qui étudie d'autres scientifiques. Plus précisément, j'étudie la façon dont les scientifiques pensent les données de recherche et la manière dont ils interagissent avec leurs propres données et celles des autres. J'enseigne également aux étudiants comment gérer leurs propres données ou celles des autres de manière à faire progresser les connaissances.
Gestion des données de recherche
Gestion des données de recherche est un domaine de recherche qui se concentre sur la découverte et la réutilisation des données. En tant que domaine, il englobe les services de données de recherche, les ressources et la cyberinfrastructure. Par exemple, un type d'infrastructure, le Dépôt de données, offre aux chercheurs un endroit où déposer leurs données pour un stockage à long terme afin que d'autres puissent les retrouver. En bref, la gestion des données de recherche englobe le cycle de vie des données, du berceau à la tombe jusqu'à la réincarnation dans la prochaine étude.
Une bonne gestion des données de recherche permet également aux scientifiques d'utiliser les données déjà disponibles plutôt que de se remémorer des données qui existent déjà, ce qui permet d'économiser du temps et des ressources.
Avec politisation croissante de la sciencede nombreuses organisations scientifiques nationales et internationales ont renforcé leur normes de responsabilité et de transparence. Agences fédérales et d'autres grands bailleurs de fonds de la recherche comme le Instituts nationaux de la santé donner désormais la priorité à la gestion des données de recherche et exiger que les chercheurs aient un plan de gestion des données avant de pouvoir recevoir des fonds.
Les scientifiques et les gestionnaires de données peuvent travailler ensemble pour reconcevoir les systèmes utilisés par les scientifiques pour faciliter la découverte et la préservation des données. En particulier, intégrer l'IA peut rendre ces données plus accessibles et réutilisables.
Gestion des données artificiellement intelligente
Bon nombre de ces nouvelles normes de gestion des données de recherche découlent également d'une utilisation accrue de l'IA, y compris l'apprentissage automatique, à travers champs pilotés par les données. L’IA rend hautement souhaitable que toutes les données soient exploitables par les machines, c’est-à-dire utilisables par les machines sans intervention humaine. Désormais, les chercheurs peuvent considérer les machines non seulement comme des outils, mais aussi comme des réutilisateurs et des collaborateurs de données autonomes potentiels.
La clé des données exploitables par la machine réside dans les métadonnées. Métadonnées sont les descriptions que les scientifiques définissent pour leurs données et peuvent inclure des éléments tels que le créateur, la date, la couverture et le sujet. Des métadonnées minimales sont peu utiles, mais des métadonnées normalisées correctes et complètes rendent les données plus utiles à la fois pour les personnes et les machines.
Il faut un cadre de gestionnaires de données de recherche et de bibliothécaires pour faire des données exploitables par la machine une réalité. Ces professionnels de l'information travailler à faciliter la communication entre les scientifiques et les systèmes en assurant la qualité, l'exhaustivité et la cohérence des données partagées.
Le Principes de données FAIRcréé par un groupe de chercheurs appelé FORCE11 en 2016 et utilisées dans le monde entier, fournissent des conseils sur la manière de permettre la réutilisation des données par les machines et les humains. Les données FAIR sont trouvables, accessibles, interopérables et réutilisables, ce qui signifie qu'elles disposent de métadonnées robustes et complètes.
Dans le passé, j'ai étudié comment les scientifiques découvrent et réutilisent les données. J'ai découvert que les scientifiques ont tendance à utiliser des raccourcis mentaux lorsqu'ils recherchent des données : par exemple, ils peuvent revenir à des sources familières et fiables ou rechercher certains termes clés qu'ils ont déjà utilisés. Idéalement, mon équipe pourrait construire ce processus décisionnel d'experts et supprimer autant de biais que possible pour améliorer l'IA. L'automatisation de ces raccourcis mentaux devrait réduire la tâche fastidieuse de localiser les bonnes données.
Plans de gestion des données
Mais il reste encore un élément de la gestion des données de recherche que l'IA ne peut pas prendre en charge. Plans de gestion des données décrire le quoi, où, quand, pourquoi et qui de la gestion des données de recherche. Les scientifiques les remplissent et décrivent les rôles et les activités de gestion des données de recherche pendant et longtemps après la fin de la recherche. Ils répondent à des questions telles que « Qui est responsable de la conservation à long terme », « Où vivront les données », « Comment puis-je assurer la sécurité de mes données » et « Qui paie pour tout cela ? »
Les propositions de subventions pour presque toutes les agences de financement dans les pays nécessitent désormais des plans de gestion des données. Ces plans signalent aux scientifiques que leurs données sont suffisamment précieuses et importantes pour être partagées par la communauté. De plus, les plans aident les organismes de financement à garder un œil sur la recherche et enquêter sur toute faute potentielle. Mais surtout, ils aident les scientifiques à s'assurer que leurs données restent accessibles pendant de nombreuses années.
Rendre toutes les données de recherche aussi JUSTES et ouvertes que possible améliorera le processus scientifique. Et avoir accès à plus de données ouvre la possibilité de discussions plus éclairées sur comment promouvoir développement économique, améliorer la gestion des ressources naturelles, améliorer la santé publique et comment développer de manière responsable et éthique des technologies qui amélioreront la vie. Toute intelligence, artificielle ou non, bénéficiera d'une meilleure organisation, accès et utilisation des données de recherche.
Cet article est republié de La conversation sous licence Creative Commons. Lis le article original.
Citation: L'IA et les nouvelles normes promettent de rendre les données scientifiques plus utiles en les rendant réutilisables et accessibles (22 août 2023) récupéré le 22 août 2023 sur
Ce document est soumis au droit d'auteur. En dehors de toute utilisation loyale à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans l'autorisation écrite. Le contenu est fourni seulement pour information.
Source