首页 网站 正文
  • 本文约1520字,阅读需8分钟
  • 221
  • 0

Clipper:一个开源的HTML到Markdown转换器和爬虫工具

温馨提示:本文最后更新于2024年1月6日 13:28,若内容或图片失效,请在下方留言或联系博主。
摘要

Clipper是一个功能强大且灵活的HTML到Markdown转换器和爬虫工具,它可以帮助用户轻松提取和转换网页内容。无论是进行数据准备还是进行内容整理,Clipper都是一个方便实用的工具。它的简单操作和支持多平台的特点使其成为许多用户的首选工具。无论是从单个网页中提取信息,还是爬取整个网站的内容,Clipper都能快速且准确地完成任务。

Clipper是一个开源工具,旨在帮助用户从网页中提取关键内容并将其转换为Markdown格式。它还提供了爬虫功能,可以用于收集整个网站的内容。

一、功能特征

  • 轻松剪辑 Web 内容并将其转换为 Markdown:Clipper可以从网页或HTML文档中提取内容,并将其转换为Markdown格式,方便用户进行进一步处理和使用。

  • 支持 URL 和文件输入:Clipper可以直接从指定的URL或本地文件中提取内容,并进行转换。

  • 全面网站内容收集的爬网功能:Clipper提供了爬虫功能,可以自动遍历网站的多个页面,并将其内容剪辑并转换为Markdown格式。

  • 可选输出格式:Clipper支持将提取的内容输出为Markdown或JSON格式,用户可以根据自己的需求选择合适的输出格式。

  • 无需浏览器扩展:与Evernote Web Clipper或Notion Web Clipper等浏览器扩展不同,Clipper完全在终端上运行,无需安装任何扩展或注册账户。

二、操作指南

使用Clipper非常简单,以下是基本的操作指南:

操作 命令 说明
安装Clipper npm install -g @philschmid/clipper 使用npm安装Clipper
从URL剪辑内容 clipper clip -u 从URL剪辑内容并转换为Markdown格式
从文件剪辑内容 clipper clip -i 从文件剪辑内容并转换为Markdown格式
爬取网站内容 clipper crawl -u 进行网站爬取并剪辑所有页面
输出为Markdown格式 clipper clip -u -f markdown 将剪辑的内容输出为Markdown格式
输出为JSON格式 clipper clip -u -f json 将剪辑的内容输出为JSON格式

三、支持平台

Clipper是一个基于Node.js的工具,可以在各种支持Node.js的平台上运行,包括Windows、macOS和Linux。

四、产品定价

Clipper是开源工具,可以免费使用。

五、使用场景

Clipper可以在以下场景中发挥作用:

  • 网页内容提取:从多个网页中提取关键信息,并将其转换为Markdown格式,方便进一步处理和分析。

  • 数据准备:为训练模型或提供数据给RAG模型,可以使用Clipper从网页或HTML文档中提取数据,并将其转换为适合模型训练的格式。

  • 内容整理和归档:Clipper可以帮助用户将喜欢的网页内容剪辑并转换为Markdown格式,方便进行整理、归档和个人笔记。

六、运作模式

Clipper的运作模式如下:

  1. 输入网页或HTML文档:用户可以提供要剪辑的网页URL或本地HTML文件。

  2. 内容提取和转换:Clipper使用Mozilla的Readability库和Turndown库来提取网页内容并将其转换为Markdown格式。

  3. 输出结果:Clipper将转换后的Markdown内容保存到指定的输出文件中,用户可以根据需要选择输出格式为Markdown或JSON。

结语

Clipper是一个功能强大且灵活的HTML到Markdown转换器和爬虫工具,它可以帮助用户轻松提取和转换网页内容。无论是进行数据准备还是进行内容整理,Clipper都是一个方便实用的工具。它的简单操作和支持多平台的特点使其成为许多用户的首选工具。无论是从单个网页中提取信息,还是爬取整个网站的内容,Clipper都能快速且准确地完成任务。通过将提取的内容转换为Markdown格式,用户可以更方便地进行进一步处理、分析和分享。使用Clipper,您可以有效地提升RAG模型的信息库,提高生成的文本的准确性和相关性。

网址:https://github.com/philschmid/clipper.js

评论
更换验证码