跳到主要内容

游牧周记第10期

· 阅读需 9 分钟
Suhe
This site owner

关注

印尼啃老富二代人设网红

Supercoolben 开始在Tiktok上注意到他,当时我天天刷“What do you do for a living?”的小伙,后来不知咋的推荐就被这个“Professional son”占领了。 不得不说他的短视频相当funny且有趣。 近期才想起来看一下他的youtube频道,并且了解一下这位“专业”人士的真实背景。

Ben Sumadiwiria,曾是一名专业厨师,后来转型为社交媒体内容创作者,创造了虚构角色“Bobby Saputra”,自称是亚洲第七富豪的儿子,饮用水帝国的继承人。
他的视频以奢华的游艇、豪车、豪宅和众多美女为特色,展示了自称“疯狂富有的亚洲人”的奢侈生活方式。者些视频迅速走红,使他在不到一年的时间里在各大社交媒体平台上积累了250多万粉丝。 en的成功在于他巧妙地模糊了现实与虚构之间的界限,利用幽默和夸张的手法吸引观众。的视频不仅展示了奢华的生活方式,还通过讽刺和幽默引发观众对财富和社会地位的思考。种独特的内容使他在竞争激烈的社交媒体环境中脱颖而出,成为全球关注的焦点。 过“Bobby Saputra”这一角色,Ben Sumadiwiria成功地将自己的幻想变为现实,从一名厨师转型为“亿万富翁”,展示了数字时代内容创作的无限可能性。

技术

n8n和Gumloop作为AI Agent工具对比

以下是ChatGPT的答案(开启了搜索和推理,今天突然注意到,免费版也开放了这些,看来DS的影响确实有效!):

Gumloop 和 n8n 都属于工作流自动化工具,但它们的定位和侧重点存在明显不同,尤其是在 AI agent 领域中:


1. 定位与核心特色

  • Gumloop
    Gumloop 被定位为“AI 原生”的无代码平台,从一开始就内置了大量针对 AI 操作的节点和功能。它的设计理念类似于“无限画布”的可视化编程环境,支持复杂的自动化流程(如子流程、条件分支、错误处理以及代码执行),并且专注于让用户能够方便地集成各种大语言模型(LLM)。这种设计使得非工程背景的用户也能借助内置的 AI 功能(例如数据提取、文本摘要、模型切换等)来构建复杂的 AI agent 自动化流程。

  • n8n
    n8n 是一个开源、基于节点的工作流自动化平台,强调灵活性和扩展性。它支持数以千计的第三方应用集成,并允许用户自托管、定制扩展。虽然 n8n 并非专门为 AI 设计,但用户可以通过 HTTP 请求、代码节点等方式调用外部 AI 服务,实现 AI 集成。n8n 更适合需要高度自由度和社区支持的通用自动化场景。


2. 易用性与扩展性

  • Gumloop
    由于 Gumloop 内置了针对 AI 的预构建节点和直观的拖拽式界面,它在构建 AI agent 自动化时能大大降低用户的配置和开发难度。但这也意味着它的功能设计相对专注,主要面向需要内置 AI 能力、支持模型切换和复杂 AI 逻辑的应用场景。

  • n8n
    n8n 的图形化工作流编辑器非常直观,同时其开源特性赋予用户极高的定制能力和扩展性。对于那些需要自托管或希望深度定制流程的技术型用户来说,n8n 是一个很好的选择。但如果你的自动化目标中有大量 AI 调用需求,则需要额外配置调用外部 AI API,相比之下可能没有 Gumloop 那样开箱即用。

OpenAI nodeJs SDK的使用细节

在我的expo App开发中,最初使用的是OpenAI,后来,你懂的,改成国产AI。 当时(2024年)兼容最好的是Kimi,今年当然要尝试DeepSeek了。 他们的共同优势之一(对我来说)就是可以直接用OpenAI的api模型,即直接用一样的SDK。 我发现这两个模型在调用时还是有细微差别,比如usage数据结构,Kimi是放在返回message的choice中,而DeepSeek是在上一级。找了好久。 今天做了个兼容的调整:

const firstChoice: ChatCompletionChunk.Choice & { usage?: CompletionUsage } = e.choices[0];

// If the model stops because of a tool call, call the tool
if (firstChoice.finish_reason === 'tool_calls') {
void this.handleToolCall();
return;
}

// If the model stops, that is it
if (firstChoice.finish_reason === 'stop') {

// 部分模型如deepseek的usage在这里,特殊处理。suhe-2025-02-03
// kimi等模型的usage在firstChoice.usage中。suhe-2025-02-03
const otherUsage = e.usage as CompletionUsage;
// Call onDone

this.callbacks.onDone?.([
{
content: this.newMessage,
role: 'assistant'
}], firstChoice.usage || otherUsage);
...

视频文字提取Api

有朋友探讨此事,本以为在AI应用漫天的情况下,这个服务应该很好找。 经过1小时搜索,得到如下结论:

  1. AI应用平台居多,多需要注册付费,国外居多;
  2. 部分可通过链接上传视频,国外的基本都是youtube链接;
  3. 有些AI平台可以直接分析视频文字,如Gemini,当然只支持youtube;
  4. 似乎微软、aws、谷歌云都有api服务接口;
  5. 国内目前没找到合适的,更别说api化;
  6. 国内有个通义听悟,有平台(只能上传文件,所以一般人会把音频先分离出来加快上传速度),也有api(阿里云上)。卖点偏向于企业用的会议实时纪要等。 暂时研究到这里。 我们想做的:
  7. 批量从抖音等平台获取视频URL;
  8. 批量通过api(实在不行就平台)从这些URL把文字提取出来,形成文件集;

RAG投喂

通过RAG给本地AI大模型投喂数据创建私有AI知识库 包括了实际操作,正好用到前面安装的AnythingLLM。

创业

海外收款

由于stripe的国内个人创业收款路径基本被封死,最近想研究一下UseePay,结果申请后还要等电话和邮件联系。