Clipper：一个开源的HTML到Markdown转换器和爬虫工具

温馨提示：本文最后更新于2024年1月6日 13:28，若内容或图片失效，请在下方留言或联系博主。

摘要

Clipper是一个开源工具，旨在帮助用户从网页中提取关键内容并将其转换为Markdown格式。它还提供了爬虫功能，可以用于收集整个网站的内容。

一、功能特征

轻松剪辑 Web 内容并将其转换为 Markdown：Clipper可以从网页或HTML文档中提取内容，并将其转换为Markdown格式，方便用户进行进一步处理和使用。
支持 URL 和文件输入：Clipper可以直接从指定的URL或本地文件中提取内容，并进行转换。
全面网站内容收集的爬网功能：Clipper提供了爬虫功能，可以自动遍历网站的多个页面，并将其内容剪辑并转换为Markdown格式。
可选输出格式：Clipper支持将提取的内容输出为Markdown或JSON格式，用户可以根据自己的需求选择合适的输出格式。
无需浏览器扩展：与Evernote Web Clipper或Notion Web Clipper等浏览器扩展不同，Clipper完全在终端上运行，无需安装任何扩展或注册账户。

二、操作指南

使用Clipper非常简单，以下是基本的操作指南：

操作	命令	说明
安装Clipper	npm install -g @philschmid/clipper	使用npm安装Clipper
从URL剪辑内容	clipper clip -u	从URL剪辑内容并转换为Markdown格式
从文件剪辑内容	clipper clip -i	从文件剪辑内容并转换为Markdown格式
爬取网站内容	clipper crawl -u	进行网站爬取并剪辑所有页面
输出为Markdown格式	clipper clip -u -f markdown	将剪辑的内容输出为Markdown格式
输出为JSON格式	clipper clip -u -f json	将剪辑的内容输出为JSON格式

三、支持平台

Clipper是一个基于Node.js的工具，可以在各种支持Node.js的平台上运行，包括Windows、macOS和Linux。

四、产品定价

Clipper是开源工具，可以免费使用。

五、使用场景

Clipper可以在以下场景中发挥作用：

网页内容提取：从多个网页中提取关键信息，并将其转换为Markdown格式，方便进一步处理和分析。
数据准备：为训练模型或提供数据给RAG模型，可以使用Clipper从网页或HTML文档中提取数据，并将其转换为适合模型训练的格式。
内容整理和归档：Clipper可以帮助用户将喜欢的网页内容剪辑并转换为Markdown格式，方便进行整理、归档和个人笔记。

六、运作模式

Clipper的运作模式如下：

输入网页或HTML文档：用户可以提供要剪辑的网页URL或本地HTML文件。
内容提取和转换：Clipper使用Mozilla的Readability库和Turndown库来提取网页内容并将其转换为Markdown格式。
输出结果：Clipper将转换后的Markdown内容保存到指定的输出文件中，用户可以根据需要选择输出格式为Markdown或JSON。

结语

Clipper是一个功能强大且灵活的HTML到Markdown转换器和爬虫工具，它可以帮助用户轻松提取和转换网页内容。无论是进行数据准备还是进行内容整理，Clipper都是一个方便实用的工具。它的简单操作和支持多平台的特点使其成为许多用户的首选工具。无论是从单个网页中提取信息，还是爬取整个网站的内容，Clipper都能快速且准确地完成任务。通过将提取的内容转换为Markdown格式，用户可以更方便地进行进一步处理、分析和分享。使用Clipper，您可以有效地提升RAG模型的信息库，提高生成的文本的准确性和相关性。

网址：https://github.com/philschmid/clipper.js

标签：开源开发者工具