Les fichiers documents
Un document numérique est une forme de représentation de l'information consultable à l'écran d'un appareil électronique. L’affichage de ce type de document peut être apparenté soit au « document » même, ou soit à l’interface logicielle. Suivant l'intervention d'applications informatiques dans une partie de son contenu (bases de données, POO), les changements dans l'organisation logique de ses données peuvent être apportés. À l'inverse du document sur papier, qu'il soit manuscrit ou imprimé, le document numérique permet de séparer la présentation (les techniques de mise en page) de l'information (composition de texte, données). Des multimédias (image fixe ou animée, vidéo, son) peuvent être insérés à l’intérieur du document numérique. Sa technique de production et de communication se résume en quatre grandes familles de logiciels: les outils de traitement de texte, les tableurs, les logiciels de courriel, les logiciels de gestion documentaire.Le document numérique en tant qu'ensemble d'unités de l'information est susceptible d'être codé et, par conséquent, permet la préservation à long terme.
La possibilité de sauvegarde rapide et de conservation ergonomique des documents numériques facilite les pratiques de plusieurs institutions telles que les bibliothèques ou les musées. En revanche, une accumulation de documents numériques nécessite une gestion compétente des collections et des images supposées être numérisées. Qui plus est, ce progrès technologique engage les institutions à développer leurs réseaux internes et, par conséquent, à mettre en place des catalogues électroniques et des outils intranets. Le grand avantage du processus de stockage du document numérique consiste à pouvoir sauvegarder toute nature de son contenu (sons, textes, images). Néanmoins, si les technologies actuelles de numérisation ou enregistrement de documents assurent la pérennité aux supports de stockage, nous ne savons rien sur la pérennité des matériels et des logiciels qui permettent d'accéder à ces supports. Les procédures d'extraction du sens ou de langages documentaires destinés à décrire le contenu des documents ont été inventées afin de résoudre les contraintes liées aux questions de volume des documents et à favoriser ainsi la recherche rapide des informations. La recherche sur Internet en est un exemple : les liens obtenus présentent les documents de sources variées. Toutefois, la rapidité d’accès pose quelques problèmes, comme ceux de l'identification de l'auteur et de la fiabilité des informations obtenues.
Les différents formats de fichier document
Voci quelques exemples de formats de codage de document:
- .docx: Docx est le suffixe des fichiers du traitement de texte Microsoft Word à partir de la version Microsoft Office 2007. C'est la concrétisation de la norme Office Open XML développée à l'origine par Microsoft et visant à concurrencer la solution d’interopérabilité OpenDocument (suffixes .odt).C'est le format d'enregistrement par défaut de Word 2007, il n'est pas possible de relire ce format dans les versions antérieures de Word (qui utilisaient le suffixe doc), ce qui pose un problème de rétrocompatibilité. Microsoft publie néanmoins un convertisseur dénommé « Module de compatibilité pour formats de fichier Microsoft Office Word, Excel et Powerpoint 2007 » qui permet, après installation sur les suites Office 2000, XP et 2003, de lire et écrire sous le nouveau format Office 2007 depuis ces anciennes versions. La suite bureautique LibreOffice/OpenOffice.org permet l'import de ce format à partir de la version 3 sortie en septembre 2008. Le format docx est en fait un fichier compressé au format ZIP qui contient un ensemble de fichiers (XML, images .jpg) décrivant le document).
- .odt: OpenDocument est un format ouvert de données pour les applications bureautiques : traitements de texte, tableurs, présentations, diagrammes, dessins et base de données bureautique. OpenDocument est la désignation d'usage d'une norme publiée par OASIS et dont l'appellation officielle est Open Document Format for Office Applications, également abrégée par le sigle ODF. En France, le format OpenDocument est le seul format recommandé comme format bureautique par le Référentiel général d'interopérabilité depuis sa version 2.0 validé le 20 avril 2016.
- .html: L’HyperText Markup Language, généralement abrégé HTML, est le format de données conçu pour représenter les pages web. C’est un langage de balisage permettant d’écrire de l’hypertexte, d’où son nom. HTML permet également de structurer sémantiquement et de mettre en forme le contenu des pages, d’inclure des ressources multimédias dont des images, des formulaires de saisie, et des programmes informatiques. Il permet de créer des documents interopérables avec des équipements très variés de manière conforme aux exigences de l’accessibilité du web. Il est souvent utilisé conjointement avec des langages de programmation (JavaScript) et des formats de présentation (feuilles de style en cascade).
- .doc:En informatique, DOC ou doc (abréviation de « document ») est une extension de nom de fichier, traditionnellement utilisée pour la documentation en format texte propriétaire, sur une large variété de systèmes d'exploitation.Le format de fichier est un standard et change au fil du temps avec la version de Microsoft Word. N'étant pas une norme le format reste peu documenté malgré les demandes de divers organismes à des fins d'interopérabilité dont l'union européenne. On peut dire que ces formats contiennent les données suivantes du texte ; de la mise en forme (ce n'est plus du plain text) ; des informations sur des états précédents du fichier, inaccessibles à l'utilisateur normal ; des scripts, et même des langages de programmations de type script. Par la suite, pour tenter de contrer OpenDocument, Microsoft a créé son propre format, OpenXML, lui aussi basé sur XML. Il est maintenant certain que .doc va être délaissé par les utilisateurs institutionnels1 et les grandes entreprises pour des raisons d'interopérabilité et de pérennité de l'information.