9.3 KiB
在线OCR
百度
百度智能云 OCR
https://ai.baidu.com/ai-doc/OCR/1k3h7y3db
百度智能云 图片翻译
https://ai.baidu.com/ai-doc/MT/dkifdqg54
百度翻译开放平台 图片翻译
https://fanyi-api.baidu.com/product/22
腾讯
OCR 通用印刷体识别
https://cloud.tencent.com/document/product/866/33526
图片翻译
https://cloud.tencent.com/document/product/551/17232
有道
第一步:成为开发者
点击智云平台页面右上角“注册/登录”按钮,注册并完善信息,即可成为开发者。
第二步:访问控制台并创建应用
在官网登录后您会自动跳转至智云控制台。
在业务总览页 / 应用总览页 / 服务详情页,点击创建应用按钮,进入创建应用页。
填写应用名称,选择服务及接入方式,并填写其他关键信息,即可完成创建。
第三步:进入服务详情页,查看接入文档
点击控制台左侧的服务名称,可以进入服务详情页。点击“接入方式”中的“文档”按钮,可以访问对应的技术文档,点击“SDK下载”按钮可以下载SDK;在“示例”部分可以查看Demo。在接入过程中您可能会用到“应用ID(即APP key)”、“应用密钥”等信息,这些信息可以在应用总览中查看。
https://ai.youdao.com/doc.s#guide
火山
步骤1:成为开发者
请您使用火山引擎账号登陆火山引擎控制台;如还未持有火山引擎账户,点击立即注册,注册成为火山用户。
步骤2:进入视觉智能控制台
入口一示例
- 点击视觉智能,进入视觉智能控制台
入口二示例
- 点击视觉相关产品落地页入口【管理控制台】按钮
入口三示例
- 点击控制台导航列表AI中台视觉相关产品,进入视觉智能控制台页面
步骤3:实名认证与服务开通
STEP1:顶部欢迎卡片点击【去认证】,进行实名认证后再开通服务,若未完成实名认证会弹出认证弹窗
STEP2:完成认证后,进入视觉智能控制台,选择接入能力
您也可以直接在页面上找到某项需要的服务,直接点击开通服务
步骤4:获取AK/SK
在调用火山引擎视觉智能控制台的各个能力之前,确保您已生成访问密钥(AccessKey)。AccessKey包括AccessKeyID(AK)和AccessKeySecret(SK),其中AccessKeyID用于标识用户,AccessKeySecret是用来验证用户的密钥,请妥善保管。
获取方式:点击右上角账号,下拉列表选择【密钥管理】,点击【新建密钥】按钮,可获取AK/SK,可以此为凭证调用上述已接入应用的接口。
https://www.volcengine.com/docs/6790/116978
讯飞
第一步:注册成为开发者
进入讯飞开放平台快捷登录页 ,通过微信扫码、手机快捷登录,即可快速成为讯飞开放平台注册开发者。或进入讯飞开放平台注册页注册完整的开放平台账号,成为讯飞开放平台注册开发者
第二步:创建您的第一个应用,开始使用服务
登录平台后,通过右上角「控制台」,或右上角下拉菜单的「我的应用」进入控制台。若您的账户未曾创建过应用,我们会引导您创建您的第一个应用。
请为您的应用起一个名字,并填写相关的信息。点击提交按钮后,应用就创建完毕。
?>请注意
在旧版本的控制台中,需要指定一个应用的操作系统平台类型,用于后续的SDK或API接入。而新版本更新后,这项操作已经不需要,可以通过一个应用管理全部的接口了。
应用创建完成之后,您就可以通过左侧的服务列表,选择您要使用的服务。在服务管理面板中,您将看到这个服务对应的可用量、历史用量、服务接口的验证信息,还有可以调用的API和SDK了。
?>请注意
并不是每个服务的管理面板都相同,不同的服务,有不同的管理面板的构成。另外也不是同时都具有SDK和API接口,有些服务只有API接口,而有些服务只有SDK。具体的可在对应的服务管理页中查看。
讯飞开放平台支持一个账户创建多个应用。当您需要返回应用列表页切换应用,可以点击页面左上角应用名称上方的返回按钮,或顶部右侧个人菜单中的「我的应用」。进入应用列表后,选择一个应用点击应用名称,即可进入这个应用对应的服务管理页。
同一个应用APPID可以用在多个业务上,这个没有限制,但考虑到多个业务共用一个APPID无法分业务统计用量,建议一个业务对应一个应用APPID。
?>请注意
若您的账号下有多个应用,您最后一次操作的应用将会被记录下来,作为下次回到讯飞开放平台时,各个服务操作的“默认选择”的应用。
https://www.xfyun.cn/doc/platform/quickguide.html
Google Cloud Vision
https://cloud.google.com/vision/docs
docsumo
ocrspace
Gemini
和翻译相同
ChatGPT兼容接口
和翻译相同
离线OCR
manga-ocr
CPU整合包 https://lunatranslator.org/Resource/IntegrationPack/manga_ocr/cpu
GPU整合包 https://lunatranslator.org/Resource/IntegrationPack/manga_ocr/gpu
国内mangaocr整合包无法启动怎么办?
首次启动start.bat时,会尝试从huggingface上下载模型,但是国内你懂的。
解决方法有两种
-
魔法上网,可能要开TUN代理
-
使用vscode,“打开文件夹”打开整合包的文件夹。
然后使用搜索功能,将“huggingface.co”全部替换成“hf-mirror.com”。由于替换项较多,需要稍微等待一会儿。
然后重新运行start.bat,之后会用国内镜像站下载模型,无须魔法上网。
等待一会儿首次运行的下载模型和每次运行都需要的加载模型。显示“* Running on http://127.0.0.1:5665
”表示服务已正常启动。
WeChat/QQ OCR
需要安装微信或新版QQ
WindowsOCR
WindowsOCR如何安装额外的语言支持?
WindowsOCR仅支持win10-win11操作系统