Die routine für die AVRs braucht wirklich nur 3 Zyklen (Befehne In port,Reg und ST x+,Reg).
Wenn es wirklich schneller sein soll, wird man wohl die Daten direkt per Logic in ein externe RAM schieben können. Das braucht dann ein SRAM und ein paar Logic ICs (gar nicht so viele, etwa 4-5) oder alternativ ein CPLD oder FPGA. Dann sollten aber auch rund 50-100 MHz Abtastrate drin sein. Das auslesen usw. kann man dann per µC machen.