AI領(lǐng)域,能否讓智能體像人類一樣在計(jì)算機(jī)上自主完成各種任務(wù),一直是一個(gè)具有挑戰(zhàn)性的課題。而今天我們介紹的Cradle框架,正是向這一方向邁出了重要的一步。通過(guò)Cradle,基礎(chǔ)模型可以通過(guò)屏幕截圖作為輸入,鍵盤和鼠標(biāo)操作作為輸出,在統(tǒng)一的界面下執(zhí)行復(fù)雜的計(jì)算機(jī)任務(wù)。

      Cradle介紹

      ? 最新更新

      在2024年6月27日,Cradle框架迎來(lái)了重大更新!該框架現(xiàn)已擴(kuò)展到四款游戲:荒野大鏢客2(RDR2)、星露谷物語(yǔ)(Stardew Valley)、都市:天際線(Cities: Skylines)和Dealer's Life 2,以及包括Chrome、Outlook、Capcut、美圖和飛書(shū)在內(nèi)的各種軟件。此外,我們還發(fā)布了最新的論文。歡迎大家查閱!

      GCC愿景

      最新視頻

      通過(guò)點(diǎn)擊下方任意視頻縮略圖,觀看Cradle在各大環(huán)境中的表現(xiàn)。

      ?? ?? ?? ?? ??

      ? 安裝指南

      準(zhǔn)備環(huán)境文件

      Cradle目前提供對(duì)OpenAI和Claude的API訪問(wèn),請(qǐng)?jiān)陧?xiàng)目根目錄創(chuàng)建.env文件存儲(chǔ)API密鑰(其中一個(gè)即可)。

      示例.env文件內(nèi)容:

      OA_OPENAI_KEY = "your_openai_key"
      RF_CLAUDE_AK = "your_claude_access_key"
      RF_CLAUDE_SK = "your_claude_secret_key"
      AZ_OPENAI_KEY = "your_azure_key"
      AZ_BASE_URL = "your_azure_base_url"
      IDE_NAME = "Code"

      前往OpenAI獲取OpenAI API密鑰,或Azure Portal獲取Azure OpenAI的API密鑰,Anthropic獲取Claude的API密鑰。

      設(shè)置

      Python 環(huán)境

      請(qǐng)按照以下步驟設(shè)置Python環(huán)境并安裝所需依賴:

      #?克隆倉(cāng)庫(kù)
      git?clone?https://github.com/BAAI-Agents/Cradle.git
      cd?Cradle

      #?創(chuàng)建新conda環(huán)境
      conda?create?--name?cradle-dev?python=3.10
      conda?activate?cradle-dev
      pip?install?-r?requirements.txt

      安裝OCR工具

      您可以選擇以下任一方式安裝OCR工具Spacy:

      1. 從Spacy下載并安裝最佳匹配版本的模型:
      python?-m?spacy?download?en_core_web_lg

      或者

      1. 從path或URL安裝:
      pip?install?https://github.com/explosion/spacy-models/releases/download/en_core_web_lg-3.7.1/en_core_web_lg-3.7.1.tar.gz

      ? 開(kāi)始使用

      由于每個(gè)游戲和軟件之間存在巨大差異,我們提供了具體的設(shè)置說(shuō)明:

      1. Red Dead Redemption 2
      2. Stardew Valley
      3. Cities: Skylines
      4. Dealer's Life 2
      5. 軟件設(shè)置

      ? 文件結(jié)構(gòu)

      對(duì)于希望將我們的框架應(yīng)用于新游戲的用戶,這一部分主要展示Cradle的核心目錄和組織結(jié)構(gòu),我們將重點(diǎn)標(biāo)注對(duì)遷移到新游戲的相關(guān)模塊,并提供詳細(xì)說(shuō)明。

      Cradle
      ├── cache # 緩存GroundingDino和bert-base-uncased模型
      ├── conf # 環(huán)境和llm模型的配置文件
      ├── deps # Cradle框架的依賴項(xiàng),可忽略
      ├── docs # Cradle框架的文檔,可忽略
      ├── res # Cradle框架的資源
      │ ├── models # 可忽略
      │ ├── tool # RDR2的子查找器
      │ ├── [games or software] # 游戲或軟件的資源,如rdr2、dealers、skylines、stardew等
      ├── requirements.txt # Cradle框架的需求文件
      ├── runner.py # Cradle框架的主入口
      ├── cradle # Cradle的核心模塊
      │ ├── config # Cradle框架的配置
      │ ├── environment # Cradle框架的環(huán)境
      │ │ ├── [games or software] # 游戲或軟件的環(huán)境
      │ ├── gameio # 直接包裝技能注冊(cè)和環(huán)境控制的接口
      │ ├── log # Cradle框架的日志
      │ ├── memory # Cradle框架的記憶模塊
      │ ├── module # 目前只有技能執(zhí)行模塊,未來(lái)會(huì)遷移其他模塊,如動(dòng)作規(guī)劃、自我反思等
      │ ├── planner # Cradle框架的計(jì)劃模塊,將統(tǒng)一接口用于動(dòng)作規(guī)劃、自我反思等模塊
      │ ├── runner # 對(duì)每個(gè)游戲和軟件的執(zhí)行邏輯
      │ ├── utils # 一些輔助功能,如保存和加載json
      │ └── provider # Cradle框架的提供者模塊
      │ ├── augment # 圖像增強(qiáng)方法
      │ ├── llm # 調(diào)用LLM模型,如OpenAI的GPT-4o、Claude等
      │ ├── object_detect # 物體檢測(cè)方法
      │ ├── process # 用于動(dòng)作規(guī)劃、自我反思等模塊的預(yù)處理和后處理方法
      │ ├── video # 視頻處理方法
      │ ├── others # 其他操作方法,如保存和加載坐標(biāo)等
      │ └── ...
      └── ...

      同類項(xiàng)目介紹

      在通用計(jì)算機(jī)控制領(lǐng)域,還有一些其他值得關(guān)注的項(xiàng)目:

      1. OpenAI's Codex:這是一個(gè)由OpenAI開(kāi)發(fā)的代碼生成模型,能夠通過(guò)自然語(yǔ)言指令生成代碼,并執(zhí)行特定任務(wù)。它在代碼生成和自動(dòng)化任務(wù)中表現(xiàn)尤為出色。

      2. Google's DeepMind:DeepMind團(tuán)隊(duì)開(kāi)發(fā)了一系列能夠執(zhí)行復(fù)雜任務(wù)的AI模型,其中包括AlphaGo、AlphaStar等,它們展示了AI在解決復(fù)雜問(wèn)題和高競(jìng)爭(zhēng)環(huán)境中的潛力。

      3. IBM Watson:Watson是一個(gè)能夠在多領(lǐng)域提供AI解決方案的智能系統(tǒng),廣泛應(yīng)用于醫(yī)療、金融、教育等領(lǐng)域,通過(guò)自然語(yǔ)言處理和機(jī)器學(xué)習(xí)技術(shù),提供智能化服務(wù)。

      4. Microsoft's Bonsai:Bonsai是一個(gè)由微軟推出的工業(yè)控制AI平臺(tái),能夠通過(guò)機(jī)器教學(xué)和強(qiáng)化學(xué)習(xí)技術(shù),幫助企業(yè)實(shí)現(xiàn)生產(chǎn)流程的智能化和自動(dòng)化。

      每個(gè)項(xiàng)目都有其獨(dú)特的應(yīng)用場(chǎng)景和技術(shù)優(yōu)勢(shì),它們共同推動(dòng)了通用計(jì)算機(jī)控制和智能體技術(shù)的發(fā)展。希望Cradle框架能為更多用戶帶來(lái)便利,助力基礎(chǔ)模型在通用計(jì)算機(jī)任務(wù)中展現(xiàn)其強(qiáng)大潛力。

      - END -



      點(diǎn)贊(1) 打賞

      評(píng)論列表 共有 0 條評(píng)論

      暫無(wú)評(píng)論

      服務(wù)號(hào)

      訂閱號(hào)

      備注【拉群】

      商務(wù)洽談

      微信聯(lián)系站長(zhǎng)

      發(fā)表
      評(píng)論
      立即
      投稿
      返回
      頂部