https://github.com/All-Hands-AI/OpenHands
OpenHands代理可以做任何人类开发人员可以做的事情:修改代码、运行命令、浏览网页、调用API,甚至可以从StackOverflow复制代码片段。
关于 https://github.com/infiniflow/ragflow
RAGFlow是一个基于深度文档理解的开源RAG(检索增强生成)引擎。
ragflow.io RAGFlow 是一款基于深度文档理解构建的开源 RAG(Retrieval-Augmented Generation)引擎。RAGFlow 可以为各种规模的企业及个人提供一套精简的 RAG 工作流程,结合大语言模型(LLM)针对用户各类不同的复杂格式数据提供可靠的问答以及有理有据的引用。
关于 https://github.com/OpenInterpreter/open-interpreter
计算机的自然语言接口
与ChatGPT代码解释器的比较
OpenAI发布的带有GPT-4的代码解释器为使用ChatGPT完成现实任务提供了绝佳的机会。
然而,OpenAI的服务是托管的,闭源的,并且受到严格限制:
不能上网。
最大上传100 MB,运行时间限制为120.0秒。
当环境消失时,状态将被清除(沿着清除所有生成的文件或链接)。
Open Interpreter通过在本地环境中运行克服了这些限制。它可以完全访问互联网,不受时间或文件大小的限制,并且可以使用任何软件包或库。
它结合了GPT-4代码解释器的强大功能和本地开发环境的灵活性。
关于 https://github.com/DS4SD/docling
为Gen AI准备好您的文档
Docling可以轻松快速地解析文档并将其导出为所需的格式。
特征
️读取流行的文档格式(PDF、DOCX、PPTX、图像、HTML、AsciiDoc、Markdown)并导出为Markdown和JSON
高级PDF文档理解,包括页面布局,阅读顺序表结构
统一的、富有表现力的DoclingDocument表示格式
🤖与LlamaIndex轻松集成🦜🔗🦙
🔍支持扫描PDF的OCR
简单方便的CLI
浏览文档以发现大量示例并释放Docling的全部功能!
即将推出
️方程和代码提取
元数据提取,包括标题、作者、参考文献语言
腾讯原生LangChain扩展
关于 https://github.com/abi/screenshot-to-code
放入屏幕截图并将其转换为干净的代码(HTML/Tailwind/React/Vue)
资源
许可证
关于 https://github.com/geekan/MetaGPT
transThe Multi-Agent Framework:第一家AI软件公司,迈向自然语言编程
作为多Agent系统的软件公司
MetaGPT将一行需求作为输入,并输出用户故事/竞争分析/需求/数据结构/API/文档等。
在内部,MetaGPT包括产品经理/建筑师/项目经理/工程师。它提供了一个软件公司沿着精心编排SOP。
Code = SOP(Team)是核心哲学。我们实现SOP并将其应用于由LLM组成的团队。
无纸-ngx https://github.com/paperless-ngx/paperless-ngx
Paperless-ngx是一个文档管理系统,它可以将你的物理文档转换成可搜索的在线存档,这样你就可以少用纸了。
关于 https://github.com/khoj-ai/khoj
你的人工智能第二大脑自我托管。从网络或您的文档中获取答案。建立自定义代理,调度自动化,做深入的研究。将任何在线或本地LLM转换为您的个人,自主AI(例如gpt,claude,gemini,llama,qwen,mistral)。
khoj.dev Khoj是一个个人AI应用程序,可以扩展您的能力。它可以从设备上的个人AI顺利扩展到云规模的企业AI。
关于 https://github.com/VikParuchuri/surya
OCR、版面分析、阅读顺序、表格识别,支持90多种语言
Surya是一个文档OCR工具包,它可以:
90多种语言的OCR,与云服务相比具有良好的基准
任何语言的行级文本检测
布局分析(表格、图像、标题等检测)
阅读顺序检测
表格识别(检测行/列