Difference between revisions of "Tools/es"
Line 83: | Line 83: | ||
* [http://kiwix.svn.sourceforge.net/viewvc/kiwix/dumping_tools/scripts/optimizeContents.pl?view=log optimizeContents.pl] optimiza un directorio con páginas HTML y los recursos. Este script llama a la extensión siguiente [http://tidy.sourceforge.net/ Tidy HTML] para los archivos HTML y los [http://sourceforge.net/projects/littleutils/ Litte utils] para las imagenes. | * [http://kiwix.svn.sourceforge.net/viewvc/kiwix/dumping_tools/scripts/optimizeContents.pl?view=log optimizeContents.pl] optimiza un directorio con páginas HTML y los recursos. Este script llama a la extensión siguiente [http://tidy.sourceforge.net/ Tidy HTML] para los archivos HTML y los [http://sourceforge.net/projects/littleutils/ Litte utils] para las imagenes. | ||
== Generar un archivo ZIM de la A a la Z == | |||
=== Paso 1: Elige la fuente === | |||
=== Paso 2: Crear una instancia "espejo" de un sitio en línea === | |||
=== Paso 3: Copiar el contenido del original al espejo === | |||
=== Paso 4: Prepara a tu manera el contenido === | |||
=== Paso 5: Crea una versión estática del espejo === | |||
=== Paso 6: Optimiza los archivos HTML y los medios asociados === | |||
=== Paso 7: Crea un archivo ZIM === | |||
=== Paso 8: Crea un archivo de índice de búsqueda ZIM=== |
Revision as of 19:34, 20 May 2010
Las herramientas Kiwix son un conjunto de secuencias de comandos (sobre todo en Perl), que tiene como objetivo ayudar en la creación de contenidos utilizables por el software Kiwix.
Introducción
Kiwix está diseñado principalmente como una herramienta para publicar Wikipedia, pero está hecho como para que pudiera hacer más cosas como:
- Publicar otros proyectos de la Fundación Wikimedia,
- otros contenidos publicados mediante MediaWiki],
- o el mismo producto con otras herramientas, normalmente de otros motores de wiki (como aquí por ejemplo).
El corazón de Kiwix, en escencia es el motor de renderizado Gecko HTML, el objetivo de las herramientas Kiwix es:
- Inicialmente, generar un archivo archivo HTML estático coherente soportando los recursos necesarios: hojas de estilo, scripts de javascript, imágenes, etc.
- Posteriormente, a través de estos archivos estáticos, generar un archivo ZIM.
Almacenamiento
En nuestra jerga, tal contenido multimedia integrado es llamado dump o corpus. Estos dump pueden adoptar diferentes formas: para Kiwix v0.5, era una simple lista utilizada por Moulinwiki más un conjunto de archivos combinados comprimidos con bzip2, todo esto se indexada en una base de datos SQLite.
Hoy en día, el formato ZIM base de Kiwix contempla: formato todo en uno (todo en un solo archivo), que permite tanto tener un acceso rápido, de alta compresión y configurable.
ZIM es un formato creado por el proyecto que openZIM, el cual Kiwix es iniciador junto con otros. ZIM se ha basado en un formato más antiguo: ZENO. Zenón fue creado por la casa editorial de Berlín Directmedia y sirvió para publicar la enciclopedia en CD-ROM en lengua alemana. Hoy en día, el formato se encuentra abandonado, pero queríamos continuar con su desarrollo. El futuro dirá si esta iniciativa será un éxito, pero el objetivo es hacer una norma y por lo tanto simplificar el problema para cada uno de los vertederos de almacenamiento. Es en cualquier caso, ya la mejor solución libre.
Generación
El asunto referente al método para generar un dumps no es una simple pregunta. Por varias razones, Kiwix se ha centrado hasta ahora en la manera de generar dumps que ofrece en una selección, incluso si la publicación de copias completas de la Wikipedia es claramente un objetivo. Las herramientas Kiwix están diseñados para ayudar en la selección, lo que ayuda a replicar el contenido del sitio en línea en un espejo y luego la descarga espejo.
Pero este no es el único método para generar un volcado o dump: en teoría, puede hacerlo de diferentes maneras. He aquí una pequeña lista de diferentes maneras para hacerlo:
- Si deseas generar un dump completo, puede:
- Consegir un dump HTML del administrador de la wiki. La Fundación Wikimedia proporciona aquí, por ejemplo.
- Puede también optar por montar un espejo de la wiki, cargar los datos (el texto de la wiki entre otras cosas) en la base de datos y luego generar un dump por ti mismo. Puedes encontrar estos datos, para la Fundación Wikimedia aquí. En el caso de una selección, puede descargarlo de forma dinámica en el sitio (ya que, una wiki es de código abierto).
- Si usted quiere generar directamente (mediante la recuperación de las páginas HTML) el dump a utilizar desde el sitio con un software de tipo más limpio.
- Si quieres un dump parcial, se debe hacer una selección de artículos, entonces el problema es análogo a un dump completo.
Las limitaciones son bastante numerosas, sin embargo, aquí están las que son generalmente las que hay que tener en cuenta:
- Recursos materiales del servidor.
- Su recurso materiale propio.
- El espacio de almacenamiento que tiene para el resultado final
- ¿Cómo hacer la selección si es necesario.
Inventario
Aquí está una lista parcial de las secuencias de comandos disponibles (muchos de los cuales son específicos de Mediawiki):
- backupMediawikiInstall.pl permite hacer un tgz de un instalación completa de Mediawiki (código + recursos + bases de datos).
- buildHistoryFile.pl permite, a partir de una lista de artículos de una instanciapermet à partir d'une liste d'articles et d'une instance en línea de Mediawiki para obtener la lista completa de hitórico de cambios de cada página.
- extractContributorsFromHistoryFile.pl permite obtener un extracto de una lista de autores a a partir de la lsita de históricos suministrada con buildHistoryFile.pl.
- buildContributorsHtmlPages.pl permite a partir de una plantilla y de una lista de autores, construir un conjunto de páginas HTML que contienen todos los autores de la lista.
- checkMediawikiPageCompleteness.pl comprueba si un procedimiento de páginas en línea Mediawiki están completos, es decir, no tienen dependencias (plantilla o archivos multimedia) que falten.
- checkPageExistence.pl verifica la existencia de una lista y una instancia de páginas Mediawiki en línea. Esto puede ser útil, por ejemplo, para saber qué páginas se han replicado.
- checkRedirects.pl comprueba si no hay páginas que enlazan con redirecciones vacías. También agregan la página de verificación de redirecciones apuntando a cada una.
- installMediawiki.pl carga una instancia de Mediawiki y su código sin intervención humana. Esto simula el proceso que hace la instalación manual.
- listAllImages.pl lista de imágenes de una instancia de Mediawiki en línea.
- listAllPages.pl lista de todas las páginas de una instancia de Mediawiki en línea.
- listCategoryEntries.pl listas de las páginas a una clase de forma recursiva.
- listRedirects.pl lista de redirecciones en una instancia de Mediawiki en línea.
- mirrorMediawikiCode.pl para descargar exactamente la misma versión utilizada por un sitio en línea MediaWiki esto es válido para el código de Mediawiki y de extensiones de código.
- mirrorMediawikiInterwikis.pl permite la instalación de una versión local de Mediawiki exactamente el mismo que para la versión de MediaWiki interwiki ya en línea.
- mirrorMediawikiPages.pl para copiar todas las páginas y sus dependencias (plantilla y los recursos multimedia) en medio en línea Mediawiki.
- modifyMediawikiEntry.pl eliminar, vaciar, hacer una lista de páginas de sustitución a presentar de una Mediawiki en línea.
- resetMediawikiDatabase.pl permite volcar una instancia local de Mediawiki de todas estas páginas.
- buildZimFileFromDirectory.pl permite que a partir del contenido de un directorio de archivos HTML se cree un archivo ZIM.
- checkEmptyFilesInHtmlDirectory.pl consulta directorios y subdirectorios que no contengan archivos vacíos.
- dumpHtml.pl permisos de una instancia local de MediaWiki para hacer todas las páginas estáticas es decir, crear un directorio con todo el código HTML se necesite.
- launchTntreader.pl permite poner en marcha el tntreader.
- optimizeContents.pl optimiza un directorio con páginas HTML y los recursos. Este script llama a la extensión siguiente Tidy HTML para los archivos HTML y los Litte utils para las imagenes.