Outbyte PC Repair

Nueva herramienta Python de Microsoft para convertir documentos y archivos de Office a Markdown

Nueva herramienta Python de Microsoft para convertir documentos y archivos de Office a Markdown

Comprender Markdown y la herramienta MarkItDown de Microsoft

Markdown ha ganado terreno como lenguaje de marcado fácil de usar, elogiado por su diseño liviano y su sintaxis sencilla. Esta simplicidad no solo permite que los humanos lo lean y escriban fácilmente, sino que también lo convierte en una opción ideal para aplicaciones de inteligencia artificial, lo que permite que los algoritmos analicen estructuras de texto de manera eficiente. Además, su compatibilidad con plataformas líderes, como GitHub y Jupyter Notebooks, contribuye a su adopción generalizada.

Presentamos MarkItDown de Microsoft

Recientemente, Microsoft dio un paso importante en la comunidad de desarrolladores al lanzar una utilidad de código abierto llamada MarkItDown en GitHub. Esta biblioteca de Python ofrece la funcionalidad de convertir varios formatos de archivo, incluidos documentos de Office, a Markdown. Esta capacidad facilita tareas como la indexación y el análisis de texto, ampliando la usabilidad de los documentos en diferentes plataformas. Actualmente, la biblioteca admite una variedad de tipos de archivos, incluidos:

  • PDF (.pdf)
  • Presentación de PowerPoint (.pptx)
  • Palabra (.docx)
  • Excel (.xlsx)
  • Imágenes con metadatos EXIF ​​y capacidades de OCR
  • Archivos de audio que contienen metadatos EXIF ​​y transcripción de voz
  • HTML, con especial atención a formatos como Wikipedia
  • Otros formatos basados ​​en texto como CSV, JSON y XML

Mejorar Markdown con la integración de IA

Una característica destacada de la biblioteca MarkItDown es su capacidad de aprovechar los modelos de lenguaje grandes (LLM) para la descripción de imágenes. Los desarrolladores pueden configurar fácilmente esta funcionalidad utilizando los parámetros mlm_clienty mlm_modeldentro del objeto MarkItDown. A continuación, se muestra un ejemplo ilustrativo:

Desde markitdown importar MarkItDown

desde openai importar OpenAI

cliente = OpenAI()

md = MarkItDown(mlm_client=cliente, mlm_model=”gpt-4o”)

resultado = md.convert(“ejemplo.jpg”)

imprimir(resultado.contenido_texto)

Disponibilidad e instalación de código abierto

Dado que MarkItDown cuenta con la licencia de código abierto MIT, los desarrolladores tienen la libertad de utilizar, modificar y distribuir esta herramienta, con la estipulación de incluir la licencia original y la información de derechos de autor en su distribución.

Para aquellos interesados ​​en utilizar la biblioteca MarkItDown de Python, está disponible para descargar en GitHub aquí . La instalación se puede realizar sin esfuerzo a través de la línea de comandos usando pip install markitdowno desde la fuente con pip install -e.

Comentarios de la comunidad y experiencia del usuario

NOVEDAD: Microsoft acaba de lanzar una biblioteca para convertir archivos de Office a Markdown.
Es muy rápida y fácil de usar.
Creé una aplicación para que la pruebes. Aquí está convirtiendo un archivo PPTx repetitivo. pic.twitter.com/NrG6C5DCaq

— matt palmer (@mattppal) 13 de diciembre de 2024

Aplicación web para no desarrolladores

Si la codificación no es su área de especialización, aún puede explorar las funcionalidades de la biblioteca MarkItDown. Hay una versión de aplicación web disponible para que la pruebe y juegue con ella aquí .

Para obtener más información, considere visitar la fuente .

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *