开发者Club开发者Club

GitHub 周刊第 33 期 | 5 个让 AI 更聪明的开源神器

本周逛逛 GitHub,发现这一阵子的热榜被「给 AI 打辅助」的工具霸屏了——有把任何文档喂给大模型的转换器,有省你一大笔 token 钱的压缩器,还有能开口说话、会卖萌的虚拟主播。

开发者Club
GitHub开源项目AI 工具文档处理LLM

📅 本期时间范围:2026 年 6 月第 1 周(2026-06-01 ~ 2026-06-07)

本周逛逛 GitHub,发现这一阵子的热榜被「给 AI 打辅助」的工具霸屏了——有把任何文档喂给大模型的转换器,有省你一大笔 token 钱的压缩器,还有能开口说话、会卖萌的虚拟主播。

废话不多说,咱们直接上货,这 5 个项目个个都好用又好玩,赶紧瞧瞧!

01 MarkItDown

微软出品的「万物转 Markdown」神器

MarkItDown 项目主页

这个项目是真的火,14.5 万 Star,光是这周就涨了 1.6 万,妥妥的本周顶流。

它解决的痛点特别实在:现在大家都在用大模型处理文档,但 PDF、Word、PPT、Excel 这些格式直接丢给 AI 它根本读不利索。MarkItDown 就是干这个的——把各种乱七八糟的文件统统转成干净的 Markdown,专门为喂给 LLM 而生。

最离谱的是它支持的格式之多:

  • 办公文档:PDF、Word、PowerPoint、Excel 全搞定
  • 多媒体:图片能 OCR 识别、提取 EXIF,音频还能直接转写成文字
  • 网页类:HTML、甚至 YouTube 链接都能转
  • 数据格式:CSV、JSON、XML,连 ZIP 压缩包、EPub 电子书都不在话下

转换的时候还会贴心地保留文档结构,标题、列表、表格、链接一个不丢,这点对后续做 RAG 或者文本分析太重要了。

用法也简单到不行,命令行一句话就完事:

markitdown path-to-file.pdf > document.md

实用场景

  • 给 RAG 知识库批量处理资料的同学
  • 想把一堆 PDF/PPT 喂给 ChatGPT 或 Claude 分析的打工人
  • 做文档自动化处理流水线的开发者

支持 CLI、Python API、Docker 三种用法,还能挂第三方插件扩展,可以说是开箱即用、丰俭由人。微软爸爸出品,质量这块儿不用担心。

开源地址:https://github.com/microsoft/markitdown

02 Open-LLM-VTuber

能说会道、还会卖萌的本地 AI 虚拟主播

Open-LLM-VTuber 交互界面

看腻了冷冰冰的对话框?这个项目绝对能让你眼前一亮。

Open-LLM-VTuber 让你能和大模型语音聊天,而且对面是一个会动的 Live2D 虚拟形象——表情会跟着情绪变,你说话它能听懂,最关键的是全程本地离线运行,隐私党狂喜。1 万 Star,灵感来自那个出圈的 AI 主播 Neuro-sama。

它好玩的地方太多了:

  • 免提语音对话:不用戴耳机,直接说话就能聊,还能中途打断它
  • 桌宠模式:透明背景,让虚拟形象趴在你桌面上陪你写代码
  • 视觉感知:能调摄像头、看屏幕、截屏,相当于给 AI 装了眼睛
  • 模型自由:LLM 支持 Ollama、OpenAI、Claude,语音识别用 Whisper,TTS 用 Edge TTS,想怎么搭怎么搭

桌宠模式效果

Windows、macOS、Linux 全平台支持,还能吃上 NVIDIA、AMD 的 GPU 加速。你甚至可以导入自己喜欢的 Live2D 模型,定制一个专属的 AI 老婆/老公(懂的都懂)。

实用场景

  • 想要一个本地、私密的语音 AI 助手
  • 喜欢二次元、想搞个桌面陪伴 AI 的玩家
  • 想自己复刻一个 AI VTuber 玩玩的整活儿党

完全离线这一点真的香,聊天记录都存在自己机器上,不用担心隐私泄露。

开源地址:https://github.com/Open-LLM-VTuber/Open-LLM-VTuber

03 Supermemory

给所有 AI 装上「永久记忆」的引擎

Supermemory 控制台

用过 ChatGPT 的都知道一个痛点:聊完一个窗口,AI 转头就把你忘得一干二净。Supermemory 就是来治这个「健忘症」的,号称「AI 时代的记忆 API」,2.57 万 Star。

它的核心能力是自动从对话里提取并沉淀记忆,而且做得相当聪明:

  • 时间感知 + 矛盾处理:你今天说喜欢喝咖啡、明天说戒了,它能识别出这种变化,不会记一堆自相矛盾的东西
  • 自动维护用户画像:把稳定的事实和你最近的动态结合起来,AI 越用越懂你
  • 混合搜索:一次查询同时融合 RAG 检索和个性化记忆,召回又准又个性化
  • 实时连接器:能接 Google Drive、Gmail、Notion、OneDrive、GitHub,把你散落各处的资料汇成一个「第二大脑」

多模态处理也很顶,PDF、图片(带 OCR)、视频(带转写)、代码(AST 感知切分)通吃。

实用场景

  • 给 Claude、Cursor、VS Code 这些 AI 工具加上跨会话的持久记忆
  • 开发 AI Agent 或 AI 应用、需要统一管理上下文的团队
  • 想搭个人知识库或者「公司大脑」的开发者

底层用 TypeScript 写的,主打一个又快又能扛规模。对于做 AI 产品的同学来说,这种现成的记忆基建能省下不少造轮子的功夫。

开源地址:https://github.com/supermemoryai/supermemory

04 Headroom

给 AI 省钱的「token 压缩机」

Headroom 实时压缩演示

用 AI 编程的朋友肯定深有体会:那些工具调用返回的日志、文件内容、RAG 检索结果,动不动就是几千上万的 token,烧钱的同时还把上下文撑爆。Headroom 这个项目就是来治这个的,1.45 万 Star,本周猛涨 1.2 万,势头吓人。

它的口号简单粗暴:在内容进入 LLM 之前先压缩,省下 60% ~ 95% 的 token,但答案不变。 看上面这张演示图,10144 个 token 直接压到 1260,效果立竿见影。

它牛在不是无脑删减,而是针对不同内容用不同算法:

  • SmartCrusher:专门压缩 JSON 结构
  • CodeCompressor:基于 AST 压缩代码
  • Kompress-base:处理普通文本
  • 可逆压缩(CCR):保留原文,需要时还能按需还原,不怕信息丢失

更骚的是它还有跨 Agent 记忆共享,Claude、Codex、Gemini 之间能共用一份记忆;headroom learn 命令甚至能挖掘失败的会话、自动总结教训写成修正。

实用场景

  • 用 Claude Code、Cursor、Codex、Aider 等 AI 编程工具、想省钱的开发者
  • 搞多 Agent 工作流、需要共享记忆的项目
  • 做 RAG 系统、日志处理的团队

提供库、代理服务器、MCP 三种集成方式,LangChain、Anthropic SDK、OpenAI SDK 都能接。每个月被 API 账单吓到的同学,这个真的值得试试。

开源地址:https://github.com/chopratejas/headroom

05 LiteParse

Rust 写的快到飞起的文档解析器

LiteParse 解析效果

最后再来一个硬核的。LiteParse 是 LlamaIndex 团队(run-llama)出品的开源文档解析器,9.2 千 Star,用 Rust 写的,主打一个「快」字。

和普通的文本提取不同,它最大的特色是带空间定位——每段文字都能给出精确的 bounding box 坐标,知道这行字在页面的哪个位置。这对做版面分析、表格还原特别有用。

核心能力盘点:

  • 底层用 PDFium,解析速度极快
  • 灵活的 OCR 系统:内置 Tesseract,也能接 HTTP 服务或自定义实现,扫描件、图片文档都能处理
  • 给 LLM Agent 生成截图:方便 AI 看到文档的视觉信息
  • 多格式输入:PDF、DOCX、XLSX、PPTX、图片自动转换
  • 多语言绑定:Rust、Node.js/TypeScript、Python、甚至浏览器 WASM 都能用

Linux、macOS、Windows 全平台兼容,还特别支持离线、断网(air-gapped)环境,安全敏感的场景也能放心用。

实用场景

  • 给 LLM 流水线做文档预处理
  • 需要保留版面布局的文本提取
  • 批量处理扫描件、图片型文档的 OCR 任务

和上面的 MarkItDown 比,LiteParse 更偏底层、更注重空间精度和性能,适合对解析质量有更高要求的工程化场景。两个搭配着用,文档处理这块儿基本就齐活了。

开源地址:https://github.com/run-llama/liteparse


总结

本周这 5 个项目,主线非常清晰——全都在想方设法让 AI 用得更顺、更省、更聪明

  • MarkItDown:万物转 Markdown,喂给大模型前的第一步
  • Open-LLM-VTuber:本地语音 + Live2D,给 AI 一张会说话的脸
  • Supermemory:给 AI 装上永久记忆,越用越懂你
  • Headroom:压缩 token,每个月帮你省下真金白银
  • LiteParse:Rust 高性能文档解析,工程化场景的利器

有需要的小伙伴赶紧去 Star ⭐ 收藏起来,下期咱们接着逛!

评论

登录后即可发表评论

登录账户

加载评论中...