Bytebot: دليل الإعداد الشامل لوكيل سطح المكتب الذكي - أتمتة أي مهمة باللغة الطبيعية
⏱️ وقت القراءة المتوقع: 12 دقيقة
مقدمة: ما هو Bytebot؟
Bytebot هو وكيل سطح مكتب ذكي ثوري مفتوح المصدر يغير بشكل جذري طريقة تفاعلنا مع أجهزة الكمبيوتر. على عكس الوكلاء التقليديين المقتصرين على المتصفح أو أدوات الأتمتة المعتمدة على API، يوفر Bytebot للذكاء الاصطناعي بيئة سطح مكتب افتراضية كاملة حيث يمكنه أداء أي مهمة يمكن للإنسان القيام بها.
الابتكار الأساسي: يمنح Bytebot الذكاء الاصطناعي جهاز كمبيوتر خاص به - بيئة Ubuntu Linux كاملة مع التطبيقات ونظام الملفات والقدرة على التفاعل مع أي برنامج تماماً كما يفعل الإنسان.
ما يجعل Bytebot مميزاً؟
بيئة سطح مكتب كاملة
يعمل Bytebot في بيئة Ubuntu 22.04 محاصرة مع سطح مكتب XFCE وFirefox وVS Code وتطبيقات أساسية أخرى مثبتة مسبقاً. هذا يعني أن الذكاء الاصطناعي يمكنه:
- استخدام أي تطبيق سطح مكتب (المتصفحات، محررات النصوص، عملاء البريد الإلكتروني)
- تنزيل وتنظيم الملفات بنظام ملفات خاص به
- تثبيت برامج جديدة حسب الحاجة
- التعامل مع المصادقة من خلال مديري كلمات المرور
- معالجة المستندات وملفات PDF وجداول البيانات محلياً
واجهة اللغة الطبيعية
ببساطة صف ما تريد إنجازه، وسيقوم Bytebot بتقسيم المهمة إلى خطوات قابلة للتنفيذ:
"قم بتنزيل جميع الفواتير من بوابات الموردين وتنظيمها في مجلدات"
"اقرأ ملف contracts.pdf المرفوع واستخرج جميع شروط الدفع"
"ابحث عن رحلات طيران من نيويورك إلى لندن وأنشئ وثيقة مقارنة"
سير عمل متعدد التطبيقات
يمكن لـ Bytebot العمل بسلاسة عبر تطبيقات مختلفة:
- فتح المتصفحات والتنقل في المواقع
- استخدام تطبيقات سطح المكتب مثل محررات النصوص أو IDEs
- تشغيل أدوات سطر الأوامر والنصوص البرمجية
- نقل البيانات بين البرامج المختلفة
المتطلبات الأساسية
قبل البدء، تأكد من توفر:
- Docker و Docker Compose مثبتان على نظامك
- 8GB+ RAM (16GB موصى به للأداء الأمثل)
- مفتاح API للذكاء الاصطناعي من أحد هؤلاء المزودين:
- Anthropic Claude (موصى به)
- OpenAI GPT
- Google Gemini
- Azure OpenAI
- AWS Bedrock
- متصفح ويب للوصول إلى الواجهة
- اتصال إنترنت لتنزيل صور الحاويات
طرق التثبيت
الطريقة الأولى: النشر السريع مع Railway (الأسهل)
Railway يوفر خيار النشر الأسرع:
-
انقر على زر النشر: زر مستودع Bytebot على GitHub وانقر على “Deploy on Railway”
-
أضف مفتاح API: قم بتكوين مفتاح API لمزود الذكاء الاصطناعي في متغيرات البيئة
-
الوصول للتطبيق: بعد اكتمال النشر، يوفر Railway رابطاً عاماً للوصول إلى نسخة Bytebot الخاصة بك
الطريقة الثانية: Docker Compose (الاستضافة الذاتية)
للنشر المحلي أو الاستضافة المخصصة:
الخطوة الأولى: استنساخ المستودع
# استنساخ مستودع Bytebot
git clone https://github.com/bytebot-ai/bytebot.git
cd bytebot
# الانتقال إلى مجلد docker
cd docker
الخطوة الثانية: تكوين البيئة
إنشاء ملف البيئة مع بيانات اعتماد مزود الذكاء الاصطناعي:
# لـ Anthropic Claude (موصى به)
echo "ANTHROPIC_API_KEY=sk-ant-your-api-key-here" > .env
# أو لـ OpenAI
echo "OPENAI_API_KEY=sk-your-openai-key-here" > .env
# أو لـ Google Gemini
echo "GEMINI_API_KEY=your-gemini-key-here" > .env
الخطوة الثالثة: تشغيل الخدمات
# بدء جميع الخدمات
docker-compose up -d
# التحقق من تشغيل الخدمات
docker-compose ps
الخطوة الرابعة: الوصول إلى Bytebot
افتح متصفح الويب وانتقل إلى:
- الواجهة الرئيسية: http://localhost:9992
- عرض سطح المكتب: متاح من خلال علامات تبويب الواجهة
- وثائق API: http://localhost:9991/docs
التكوين الأولي
إعداد سطح المكتب
-
الوصول إلى علامة تبويب سطح المكتب: في واجهة Bytebot، انقر على علامة تبويب “Desktop” لعرض سطح المكتب الافتراضي
- تثبيت التطبيقات: استخدم مدير الحزم لتثبيت أي برامج إضافية تحتاجها:
# مثال: تثبيت أدوات إضافية sudo apt update sudo apt install -y libreoffice gimp
- تكوين مدير كلمات المرور (اختياري لكن موصى به):
- ثبت 1Password أو Bitwarden أو مدير كلمات المرور المفضل لديك
- سجل الدخول لتفعيل المصادقة التلقائية للمواقع
- إعداد الإشارات المرجعية: قم بتكوين إشارات مرجعية للمتصفح للمواقع التي تزورها بكثرة
تكوين مزود الذكاء الاصطناعي
تحقق من أن مزود الذكاء الاصطناعي يعمل بشكل صحيح:
-
اختبار اتصال API: النظام سيتحقق تلقائياً من صحة مفتاح API عند البدء
-
ضبط إعدادات النموذج (اختياري): قم بتكوين نماذج أو معاملات محددة في متغيرات البيئة:
# مثال لنموذج OpenAI محدد OPENAI_MODEL=gpt-4 # مثال لنموذج Claude ANTHROPIC_MODEL=claude-3-sonnet-20240229
الميزات الأساسية والاستخدام
إنشاء المهام
إنشاء مهمة أساسية
- الانتقال إلى علامة تبويب المهام: في الواجهة الرئيسية، اذهب إلى قسم “Tasks”
- وصف مهمتك: أدخل وصفاً بلغة طبيعية
- الإرسال والمراقبة: راقب Bytebot وهو ينفذ المهمة في الوقت الفعلي
أمثلة على المهام:
"التقط لقطة شاشة لسطح المكتب الحالي"
"افتح Firefox وابحث عن 'دروس تعلم الآلة'"
"أنشئ ملف نص جديد بقائمة أدوات الذكاء الاصطناعي"
مهمة متقدمة مع رفع ملف
- رفع الملفات: اسحب وأفلت الملفات في منطقة إنشاء المهام
- وصف المعالجة: أخبر Bytebot ما يجب فعله مع الملفات المرفوعة
- مراقبة التنفيذ: راقب الذكاء الاصطناعي وهو يعالج ملفاتك
مثال مع رفع ملف:
المهمة: "اقرأ هذا الملف contract.pdf واستخرج جميع التواريخ والمواعيد النهائية المهمة"
الملفات: [رفع contract.pdf]
فئات المهام
معالجة المستندات
# استخراج البيانات من ملفات PDF
"اقرأ التقرير المالي المرفوع ولخص المؤشرات الرئيسية"
# معالجة مستندات متعددة
"قارن بين هذه العقود الثلاثة واستخرج الاختلافات"
# إنشاء التقارير
"حلل بيانات المبيعات CSV هذه وأنشئ تقرير ملخص"
البحث على الويب وجمع البيانات
# مهام البحث
"ابحث عن أفضل 5 أدوات إدارة المشاريع وأنشئ جدول مقارنة"
# جمع البيانات
"ابحث عن معلومات الاتصال للشركات الناشئة التقنية في سان فرانسيسكو"
# تحليل المنافسين
"تحقق من صفحات الأسعار لمنافسينا واجمع المعلومات"
سير عمل متعدد التطبيقات
# مهام عبر التطبيقات
"قم بتنزيل الفواتير من بوابة المحاسبة وتنظيمها حسب الشهر"
# إدارة النظام
"تحقق من سجلات النظام وأنشئ تقرير حالة"
# مهام التطوير
"استنسخ مستودع GitHub هذا وشغل مجموعة الاختبارات"
المراقبة في الوقت الفعلي
عرض سطح المكتب
- الشاشة المباشرة: راقب سطح مكتب Bytebot في الوقت الفعلي
- نشاط الماوس ولوحة المفاتيح: انظر بالضبط ما يفعله الذكاء الاصطناعي
- تبديل التطبيقات: راقب كيف يتنقل Bytebot بين البرامج
تقدم المهام
- تحليل خطوة بخطوة: انظر كل إجراء يخطط Bytebot لاتخاذه
- حالة التنفيذ: راقب التقدم وحدد أي مشاكل
- ملخص النتائج: راجع المهام المكتملة والمخرجات
وضع الاستيلاء على التحكم
عندما تحتاج للتدخل أو المساعدة في التكوين:
- تفعيل الاستيلاء: انقر على زر “Take Control” في عرض سطح المكتب
- إجراء التغييرات: استخدم الماوس ولوحة المفاتيح للتفاعل مع سطح المكتب
- إرجاع التحكم: انقر “Release Control” للسماح لـ Bytebot بالمتابعة
تكامل API
نقاط نهاية REST API
إنشاء المهام برمجياً
# إنشاء مهمة بسيطة
curl -X POST http://localhost:9991/tasks \
-H "Content-Type: application/json" \
-d '{"description": "التقط لقطة شاشة لسطح المكتب"}'
# مهمة مع رفع ملف
curl -X POST http://localhost:9991/tasks \
-F "description=حلل هذا المستند" \
-F "files=@report.pdf"
التحكم المباشر في سطح المكتب
# التقاط لقطة شاشة
curl -X POST http://localhost:9990/computer-use \
-H "Content-Type: application/json" \
-d '{"action": "screenshot"}'
# النقر على إحداثيات
curl -X POST http://localhost:9990/computer-use \
-H "Content-Type: application/json" \
-d '{"action": "click_mouse", "coordinate": [500, 300]}'
# كتابة نص
curl -X POST http://localhost:9990/computer-use \
-H "Content-Type: application/json" \
-d '{"action": "type_text", "text": "مرحبا بالعالم"}'
مثال تكامل Python
import requests
import json
class BytebotClient:
def __init__(self, base_url="http://localhost:9991"):
self.base_url = base_url
def create_task(self, description, files=None):
"""إنشاء مهمة جديدة"""
if files:
files_data = {'files': open(files, 'rb')}
data = {'description': description}
response = requests.post(
f"{self.base_url}/tasks",
data=data,
files=files_data
)
else:
response = requests.post(
f"{self.base_url}/tasks",
json={'description': description}
)
return response.json()
def get_task_status(self, task_id):
"""فحص حالة المهمة"""
response = requests.get(f"{self.base_url}/tasks/{task_id}")
return response.json()
# مثال على الاستخدام
client = BytebotClient()
# إنشاء مهمة بسيطة
task = client.create_task("افتح الآلة الحاسبة واحسب 15 * 24")
print(f"تم إنشاء المهمة: {task['id']}")
# مهمة مع ملف
task_with_file = client.create_task(
"حلل جدول البيانات هذا وأنشئ ملخصاً",
files="data.xlsx"
)
التكوين المتقدم
مزودي الذكاء الاصطناعي المخصصين
استخدام تكامل LiteLLM للمزودين الإضافيين:
# Azure OpenAI
AZURE_OPENAI_API_KEY=your-azure-key
AZURE_OPENAI_ENDPOINT=https://your-resource.openai.azure.com/
AZURE_OPENAI_DEPLOYMENT_NAME=gpt-4
# AWS Bedrock
AWS_ACCESS_KEY_ID=your-access-key
AWS_SECRET_ACCESS_KEY=your-secret-key
AWS_REGION=us-east-1
# النماذج المحلية عبر Ollama
OLLAMA_BASE_URL=http://localhost:11434
OLLAMA_MODEL=llama2
النشر المؤسسي مع Kubernetes
للبيئات الإنتاجية:
# استنساخ المستودع
git clone https://github.com/bytebot-ai/bytebot.git
cd bytebot
# التثبيت مع Helm
helm install bytebot ./helm \
--set agent.env.ANTHROPIC_API_KEY=sk-ant-your-key \
--set ingress.enabled=true \
--set ingress.hosts[0].host=bytebot.yourdomain.com
تحسين الموارد
تكوين حدود الموارد لبيئات مختلفة:
# docker-compose.override.yml
version: '3.8'
services:
desktop:
deploy:
resources:
limits:
memory: 4G
cpus: '2'
reservations:
memory: 2G
cpus: '1'
اعتبارات الأمان
أمان الشبكة
- تكوين جدار الحماية: قيد الوصول إلى منافذ Bytebot (9990-9992)
- وصول VPN: فكر في وضع Bytebot خلف VPN للوصول عن بعد
- SSL/TLS: استخدم بروكسي عكسي مع شهادات SSL للإنتاج
حماية البيانات
- عزل الملفات: نظام ملفات Bytebot محفوظ في حاويات ومعزول
- أمان API: نفذ المصادقة لنقاط نهاية API في الإنتاج
- إدارة بيانات الاعتماد: استخدم متغيرات البيئة للبيانات الحساسة
التحكم في الوصول
# مثال: المصادقة الأساسية مع nginx
server {
listen 443 ssl;
server_name bytebot.yourdomain.com;
auth_basic "Bytebot Access";
auth_basic_user_file /etc/nginx/.htpasswd;
location / {
proxy_pass http://localhost:9992;
}
}
حل المشاكل الشائعة
مشاكل التثبيت
مشاكل Docker
# فحص حالة Docker
docker --version
docker-compose --version
# التحقق من تشغيل Docker daemon
sudo systemctl status docker
# إصلاح مشاكل الصلاحيات (Linux)
sudo usermod -aG docker $USER
مشاكل الذاكرة
# فحص موارد النظام
free -h
docker stats
# زيادة حد ذاكرة Docker
# Docker Desktop: Settings > Resources > Memory
مشاكل وقت التشغيل
أخطاء اتصال API
# التحقق من تنسيق مفتاح API
echo $ANTHROPIC_API_KEY | head -c 20
# اختبار اتصال API
curl -H "Authorization: Bearer $ANTHROPIC_API_KEY" \
https://api.anthropic.com/v1/messages
مشاكل عرض سطح المكتب
# إعادة تشغيل خدمة سطح المكتب
docker-compose restart desktop
# فحص اتصال VNC
docker-compose logs desktop
مشاكل تنفيذ المهام
# فحص سجلات الوكيل
docker-compose logs agent
# التحقق من حالة مزود الذكاء الاصطناعي
curl http://localhost:9991/health
حالات الاستخدام والأمثلة
أتمتة الأعمال
معالجة الفواتير
المهمة: "سجل دخول إلى بوابة المحاسبة الخاصة بنا، قم بتنزيل جميع فواتير الشهر الماضي،
وتنظيمها حسب المورد في هيكل مجلدات"
النتيجة المتوقعة:
- تسجيل دخول تلقائي لنظام المحاسبة
- تنزيل ملفات PDF للفواتير
- إنشاء هيكل مجلدات منظم
- تقرير ملخص للفواتير المعالجة
توليد التقارير
المهمة: "ادخل إلى لوحات التحليل الثلاث المختلفة، التقط لقطات شاشة للمؤشرات الرئيسية،
واجمعها في عرض تقديمي للتقرير الأسبوعي"
العملية:
- تسجيل دخول لكل لوحة تحكم
- التنقل للمؤشرات ذات الصلة
- التقاط لقطات الشاشة
- إنشاء تقرير PowerPoint/PDF
التطوير والاختبار
الاختبار المؤتمت
المهمة: "افتح تطبيق الويب الخاص بنا، اختبر تدفق تسجيل المستخدم، ووثق
أي مشاكل موجودة مع لقطات الشاشة"
الأتمتة:
- التنقل إلى رابط التطبيق
- ملء نموذج التسجيل
- اختبار سيناريوهات مختلفة
- توثيق النتائج مع الدليل البصري
إدارة مستودع الكود
المهمة: "استنسخ مستودع GitHub الخاص بنا، شغل مجموعة الاختبارات، وأنشئ ملخصاً
لنتائج الاختبار"
سير العمل:
- عملية استنساخ Git
- تثبيت التبعيات
- تنفيذ الاختبارات
- تجميع النتائج
البحث والتحليل
بحث السوق
المهمة: "ابحث عن أفضل 10 منافسين في صناعتنا، اجمع معلومات أسعارهم،
وأنشئ جدول بيانات تحليل تنافسي"
العملية:
- البحث على الويب وجمع البيانات
- استخراج وتنظيم المعلومات
- إنشاء جدول بيانات مع التحليل
إنشاء المحتوى
المهمة: "ابحث عن التطورات الحديثة في تكنولوجيا الذكاء الاصطناعي، اقرأ 5 مقالات ذات صلة،
وأنشئ منشور مدونة ملخص"
الأنشطة:
- اكتشاف وقراءة المقالات
- تجميع المعلومات
- إنشاء وتنسيق المحتوى
تحسين الأداء
متطلبات النظام
الحد الأدنى من المتطلبات
- المعالج: نواتان
- الذاكرة: 8GB
- التخزين: 20GB مساحة حرة
- الشبكة: اتصال إنترنت مستقر
التكوين الموصى به
- المعالج: 4 أنوية أو أكثر
- الذاكرة: 16GB أو أكثر
- التخزين: SSD مع 50GB+ مساحة حرة
- الشبكة: إنترنت عالي السرعة لاستدعاءات API
نصائح التحسين
إدارة الموارد
# مراقبة استخدام الموارد
docker stats --format "table {{.Container}}\t{{.CPUPerc}}\t{{.MemUsage}}"
# تحسين إعدادات Docker
# إضافة إلى docker-compose.yml:
services:
desktop:
shm_size: 2gb
deploy:
resources:
limits:
memory: 6G
ضبط الأداء
# ضبط جودة VNC لأداء أفضل
VNC_QUALITY=6 # أقل للأداء الأفضل، أعلى للجودة الأفضل
# تفعيل تسريع GPU (إذا كان متاحاً)
ENABLE_GPU=true
التحسينات المستقبلية وخارطة الطريق
الميزات المخططة
- دعم متعدد الشاشات: قدرات سطح مكتب موسعة
- نظام المكونات الإضافية: إضافات وتكاملات مخصصة
- تعاون الفريق: بيئات سطح مكتب مشتركة
- الجدولة المتقدمة: جدولة المهام مثل Cron
مساهمات المجتمع
- تقارير الأخطاء: GitHub Issues لتقرير المشاكل
- طلبات الميزات: تطوير الميزات بقيادة المجتمع
- التوثيق: المساعدة في تحسين الأدلة والدروس
- الترجمات: توسيع دعم اللغات المتعددة
الخلاصة
يمثل Bytebot تقدماً مهماً في مجال أتمتة الذكاء الاصطناعي، حيث يوفر بيئة سطح مكتب كاملة يمكن للذكاء الاصطناعي من خلالها أداء أي مهمة يستطيع الإنسان القيام بها. سواء كنت تؤتمت العمليات التجارية، أو تقوم بالبحث، أو تدير سير عمل التطوير، يوفر Bytebot مرونة وقوة وكيل سطح مكتب كامل.
النقاط الرئيسية
- إعداد سهل: خيارات نشر متعددة من Railway إلى Docker
- تحكم باللغة الطبيعية: ببساطة صف ما تريد إنجازه
- وصول كامل لسطح المكتب: نظام تطبيقات كامل تحت تصرف الذكاء الاصطناعي
- تكامل API: تحكم برمجي للأتمتة المتقدمة
- مفتوح المصدر: تحكم كامل وقدرات تخصيص
الخطوات التالية
- انشر Bytebot باستخدام طريقتك المفضلة
- قم بتكوين بيئة سطح المكتب مع التطبيقات المطلوبة
- ابدأ بمهام بسيطة لفهم القدرات
- استكشف تكامل API للأتمتة المتقدمة
- انضم للمجتمع للحصول على الدعم ومناقشات الميزات
ابدأ رحلتك مع أتمتة سطح المكتب بالذكاء الاصطناعي اليوم واكتشف كيف يمكن لـ Bytebot تحويل كفاءة سير عملك.
💡 نصيحة مفيدة: ابدأ بمهام بسيطة مثل “التقط لقطة شاشة” أو “افتح الآلة الحاسبة” للتعرف على قدرات Bytebot قبل الانتقال إلى سير العمل المعقد متعدد الخطوات.
🔗 الموارد: