collections و itertools

collections و itertools — أدوات معالجة البيانات الاحترافية

في الدروس السابقة استخدمنا القوائم (list) والقواميس (dict) لحل معظم المشكلات. لكن Python توفر في وحدة collections هياكل بيانات متخصصة تجعل الكود أوضح وأسرع لحالات بعينها. وفي itertools دوال تجعل المعالجة التكرارية فعّالة جداً.

لماذا `collections`؟

المشكلة الكلاسيكية: عندك قائمة من العناصر وتريد معرفة كم تكرر كل عنصر. الحل الساذج:

# الحل الساذج — Naive solution
تواتر = {}
for عنصر in القائمة:
    if عنصر in تواتر:
        تواتر[عنصر] += 1
    else:
        تواتر[عنصر] = 1

ثلاثة أسطر لمهمة أساسية. مع Counter تصبح سطراً واحداً.

Counter — عدّاد التواتر

Counter يقبل أي iterable ويعدّ كم تكرر كل عنصر. الناتج قاموس متخصص مع ميزات إضافية:

main.py

from collections import Counter

# عدّ الكلمات — Count words
نص = "برمجة برمجة python python python data data science"
كلمات = نص.split()
عدّاد = Counter(كلمات)

print("التواتر:", dict(عدّاد))
print("الأكثر تكراراً:", عدّاد.most_common(2))

# عدّ حروف — Count characters
حروف = Counter("abracadabra")
print("\nحروف abracadabra:", dict(حروف))
print("أكثر حرف:", حروف.most_common(1))

# Counter مع أرقام — Counter with numbers
درجات = [85, 90, 85, 75, 90, 90, 85, 100]
عدّاد_درجات = Counter(درجات)
for درجة, عدد in sorted(عدّاد_درجات.items()):
    print(f"  درجة {درجة}: {عدد} طالب")

# جمع وطرح العدّادات — Add and subtract counters
أ = Counter(["تفاح", "برتقال", "تفاح"])
ب = Counter(["تفاح", "موز"])
print("\nأ + ب:", dict(أ + ب))
print("أ - ب:", dict(أ - ب))

Output:

defaultdict — قاموس بقيمة افتراضية

المشكلة المألوفة الأخرى: تريد تجميع عناصر في قوائم داخل قاموس، لكن dict يرمي KeyError عند الوصول لمفتاح غير موجود. defaultdict يحلها بأناقة:

main.py

from collections import defaultdict

# تجميع الطلاب حسب المرحلة — Group students by level
طلاب = [
    ("أحمد", "ابتدائي"),
    ("سارة", "متوسط"),
    ("عمر", "ابتدائي"),
    ("فاطمة", "ثانوي"),
    ("خالد", "متوسط"),
    ("نورة", "ثانوي"),
]

# مع dict العادي نحتاج setdefault — With plain dict
# مع defaultdict أبسط بكثير — With defaultdict much simpler
مجموعات = defaultdict(list)  # القيمة الافتراضية هي list فارغة
for اسم, مرحلة in طلاب:
    مجموعات[مرحلة].append(اسم)  # لا KeyError حتى لو المفتاح جديد

for مرحلة, أسماء in sorted(مجموعات.items()):
    print(f"{مرحلة}: {', '.join(أسماء)}")

# defaultdict(int) للعدّ — defaultdict(int) for counting
print()
مبيعات = ["تفاح", "برتقال", "تفاح", "موز", "تفاح", "برتقال"]
إجمالي = defaultdict(int)  # القيمة الافتراضية 0
for منتج in مبيعات:
    إجمالي[منتج] += 1  # لا حاجة للتحقق من وجود المفتاح

for منتج, عدد in sorted(إجمالي.items()):
    print(f"  {منتج}: {عدد}")

Output:

namedtuple — سجل خفيف الوزن

namedtuple يُنشئ كلاساً بسيطاً للبيانات بسطر واحد. يجمع بين سهولة tuple (حجم صغير في الذاكرة) ووضوح dict (الوصول بالاسم):

main.py

from collections import namedtuple

# تعريف نوع بيانات — Define a data type
نقطة = namedtuple("نقطة", ["x", "y"])
موظف = namedtuple("موظف", ["الاسم", "القسم", "الراتب"])

# إنشاء كائنات — Create instances
p = نقطة(x=3, y=4)
print(f"النقطة: ({p.x}, {p.y})")
print(f"كـ tuple: {p}")  # يتصرف كـ tuple

# قائمة موظفين — Employee list
موظفون = [
    موظف("أحمد عبدالله", "هندسة", 15000),
    موظف("سارة محمد", "تسويق", 12000),
    موظف("خالد علي", "هندسة", 17000),
    موظف("نورة سعد", "تسويق", 13500),
]

print("\nقائمة الموظفين:")
for م in موظفون:
    print(f"  {م.الاسم} — {م.القسم} — {م.الراتب:,} ريال")

# الفرز والتحليل — Sorting and analysis
مرتبون = sorted(موظفون, key=lambda م: م.الراتب, reverse=True)
print(f"\nأعلى راتب: {مرتبون[0].الاسم} ({مرتبون[0].الراتب:,} ريال)")

متوسط = sum(م.الراتب for م in موظفون) / len(موظفون)
print(f"متوسط الراتب: {متوسط:,.0f} ريال")

Output:

OrderedDict — القاموس المرتّب

في Python 3.7+ القواميس العادية تحفظ الترتيب تلقائياً، لكن OrderedDict لا يزال مفيداً حين تريد المساواة تأخذ الترتيب بعين الاعتبار أو تحتاج move_to_end:

main.py

from collections import OrderedDict

# ذاكرة تخزين مؤقت LRU بسيطة — Simple LRU cache
class ذاكرة_مؤقتة:
    def __init__(self, سعة):
        self.سعة = سعة
        self.بيانات = OrderedDict()

    def الحصول(self, مفتاح):
        if مفتاح not in self.بيانات:
            return None
        self.بيانات.move_to_end(مفتاح)  # انقل للنهاية (الأحدث)
        return self.بيانات[مفتاح]

    def وضع(self, مفتاح, قيمة):
        if مفتاح in self.بيانات:
            self.بيانات.move_to_end(مفتاح)
        self.بيانات[مفتاح] = قيمة
        if len(self.بيانات) > self.سعة:
            self.بيانات.popitem(last=False)  # أزل الأقدم (الأول)

ذاكرة = ذاكرة_مؤقتة(سعة=3)
ذاكرة.وضع("الصفحة_1", "محتوى 1")
ذاكرة.وضع("الصفحة_2", "محتوى 2")
ذاكرة.وضع("الصفحة_3", "محتوى 3")
print("بعد 3 إدخالات:", list(ذاكرة.بيانات.keys()))

ذاكرة.الحصول("الصفحة_1")  # استخدمنا الصفحة_1
ذاكرة.وضع("الصفحة_4", "محتوى 4")  # ستُحذف الأقل استخداماً
print("بعد إضافة صفحة_4:", list(ذاكرة.بيانات.keys()))

Output:

itertools — المعالجة الفعّالة للتسلسلات

itertools توفر دوالاً للعمل على iterables بدون إنشاء قوائم وسيطة كبيرة في الذاكرة — كل دالة تُرجع iterator يُنتج عناصره عند الحاجة فقط.

chain — دمج تسلسلات

main.py

from itertools import chain

# دمج عدة قوائم — Merge multiple lists
مبيعات_يناير = [1500, 2300, 1800]
مبيعات_فبراير = [2100, 1900, 2500, 1700]
مبيعات_مارس = [2800, 3100]

# chain تدمج دون نسخ البيانات — chain merges without copying
كل_المبيعات = list(chain(مبيعات_يناير, مبيعات_فبراير, مبيعات_مارس))
print("كل المبيعات:", كل_المبيعات)
print("الإجمالي:", sum(كل_المبيعات))
print("المتوسط:", sum(كل_المبيعات) / len(كل_المبيعات))

# chain.from_iterable — لقائمة من القوائم
ربع_سنوي = [مبيعات_يناير, مبيعات_فبراير, مبيعات_مارس]
مسطّح = list(chain.from_iterable(ربع_سنوي))
print("\nبعد التسطيح:", مسطّح)

Output:

groupby — التجميع

main.py

from itertools import groupby

# ملاحظة: groupby يعمل على بيانات مرتّبة — groupby works on sorted data
معاملات = [
    {"نوع": "بيع", "مبلغ": 500},
    {"نوع": "بيع", "مبلغ": 800},
    {"نوع": "إرجاع", "مبلغ": 200},
    {"نوع": "بيع", "مبلغ": 1200},
    {"نوع": "إرجاع", "مبلغ": 150},
    {"نوع": "بيع", "مبلغ": 650},
]

# رتّب ثم جمّع — Sort then group
مرتّبة = sorted(معاملات, key=lambda م: م["نوع"])

print("تقرير المعاملات:")
for نوع, مجموعة in groupby(مرتّبة, key=lambda م: م["نوع"]):
    قائمة = list(مجموعة)
    مجموع = sum(م["مبلغ"] for م in قائمة)
    print(f"  {نوع}: {len(قائمة)} معاملة، إجمالي {مجموع:,} ريال")

Output:

combinations — التوليفات

main.py

from itertools import combinations, permutations, count, islice

# توليفات — Combinations (الترتيب لا يهم)
فرق = ["أحمد", "سارة", "عمر", "فاطمة"]
print("كل الأزواج الممكنة للمشروع:")
for زوج in combinations(فرق, 2):
    print(f"  {زوج[0]} + {زوج[1]}")

# count — عدّاد لا نهائي مع islice للحد
print("\nأول 5 أعداد زوجية أكبر من 10:")
أعداد_زوجية = (n for n in count(11) if n % 2 == 0)
print(list(islice(أعداد_زوجية, 5)))

Output:

متى تستخدم ماذا؟

الحاجة	الأداة
عدّ تكرارات العناصر	`Counter`
تجميع عناصر في قوائم حسب مفتاح	`defaultdict(list)`
عدّ بدون التحقق من وجود المفتاح	`defaultdict(int)`
بيانات خفيفة بأسماء حقول	`namedtuple`
LRU cache أو ترتيب ذو معنى	`OrderedDict`
دمج عدة iterables	`chain`
التجميع على بيانات مرتّبة	`groupby`
جميع التوليفات الممكنة	`combinations`

تحدي — Challenge

from collections import Counter

# عُدّ كلمات هذا النص واطبع الثلاثة الأكثر تكراراً
# Count words and print the top 3 most common, one per line
نص = "python data python science python data"
# اكتب الكود هنا — write your code here

collections و itertools