Vielleicht kann Du uns mal mit folgender Zahl versorgen:

Anzahl ops =
( (Bildgröße in Pixeln *
Anzahl operationen pro pixel für Bildvorverarbeitung) +
Anzahl operationen pro zu erkennendem Objekt *
Anzahl gleichzeitig zu erkennender Objekte ) /
Zeit, die ein Erkennungszyklus verbrauchen darf

Das, was man am Besten beeinflussen kann ist die Auflösung des Bildes. Die Zeit pro Zyklus zu vergrößern ist nicht so gut, da der Bot dann ggf. Annahmen über Bewegungsrichtungen von Objekten treffen muss, um die eigenen Bewegungen zu kalkulieren (er ist ja für eine gewisse Zeit "blind").

Farbbildverarbeitung ist ein recht "teures" Geschäfts, was die Rechenleistung angeht. Meistens "verschwindet" der restliche Rechenleistungsbedarf der Applikation hinter den oben genannten Operationen. Erst wenn Du die Zahl oben berechnet hat, wirst Du eine Aussage darüber treffen können, was "schnell" ist.

Vorab: Ich vermute, dass bei einer Zykluszeit von 500ms ein ARM7 bei einem CIF Bild hoffnungslos überfordert wäre. Und uC/CPUs die darüber hinaus gehen sind nicht mehr so richtig mit der Hand lötbar (zumindest ich kann das nicht).

Aber ich denke, wenn wir über konkrete Zahlen/Algorithmen sprechen, werden die Empfehlungen auch etwas spezifischer.